找回密码
 立即注册
搜索
查看: 2154|回复: 48

[网络] 但是完全搞不定想抓取的网站啊,求助

[复制链接]
发表于 2016-2-29 11:48 | 显示全部楼层 |阅读模式
本帖最后由 windsoulboy 于 2016-2-29 23:18 编辑

想从一个网站打包下载rar版本小说,值夜班时慢慢挑,请问哪种方式比较好?
试了几个离线下网站的软件,发现不太会用,好多设置不是看的很懂,不过能找到教程。
大家有推荐的软件吗?我好好学一种。
———更新———

我看介绍,软件抓取网站好像对人家网站负担挺大的,稍微设下权限,不知道有必要没。
这个书站全是全本小说的搜集整理,非常不错,很想打包下下来。

这个网站 http://www.xuanshu.com/
给的下载地址是http://dzs.**.com/txt/26195.txt
感觉直接抓http://dzs.**.com/txt/就可以了,但是完全403错误啊
http://www.xuanshu.com/却没有txt可以下载
OfflineExplorer和Teleport Ultra都用了,搞不定啊


——————更新——————直接下载txt的话,需要改名的操作。如果是rar的话就不用了,直接解压出来的txt就命名好的。

回复

使用道具 举报

     
发表于 2016-2-29 12:04 来自手机 | 显示全部楼层
爬虫?不会写代码的话各种采集器吧
回复

使用道具 举报

头像被屏蔽
     
发表于 2016-2-29 12:05 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
发表于 2016-2-29 13:07 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

 楼主| 发表于 2016-2-29 17:08 | 显示全部楼层
Geminize 发表于 2016-2-29 12:05
wget.exe --accept=txt -r -nd 网址

这个是啥?看着是dos界面啊
回复

使用道具 举报

 楼主| 发表于 2016-2-29 17:11 | 显示全部楼层
按照Teleport Ultra的教程,执行后下的没有txt文件啊
回复

使用道具 举报

     
发表于 2016-2-29 18:08 来自手机 | 显示全部楼层
莫名的孤独 发表于 2016-2-29 13:07
我那年记得十束多多良给我弄过,不过他在s1叫啥名卟知道。

就是我
回复

使用道具 举报

头像被屏蔽
发表于 2016-2-29 18:24 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2016-2-29 18:28 来自手机 | 显示全部楼层
http headers检查过么
回复

使用道具 举报

     
发表于 2016-2-29 18:28 来自手机 | 显示全部楼层
http headers检查过么
回复

使用道具 举报

     
发表于 2016-2-29 18:45 | 显示全部楼层
因为一个网站的web server(如nginx)最常见的rewrite规则是,
在你访问http://domain/txt/的时候,通常会认为你想访问http://domain/txt/index(或者.html .php之类),而非是那个静态目录。。
另外,认为网站只要url对就能任意下载文件的。。也太瞧不起人家码农了吧
回复

使用道具 举报

头像被屏蔽
发表于 2016-2-29 19:24 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

 楼主| 发表于 2016-2-29 19:26 | 显示全部楼层
qieqie 发表于 2016-2-29 18:45
因为一个网站的web server(如nginx)最 常见的rewrite规则是,
在你访问http://domain/txt/的时候,通常会  ...

那要怎么做才可以呢?
这个网站只搜集全本小说,非常难得的。
回复

使用道具 举报

头像被屏蔽
发表于 2016-2-29 19:55 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2016-2-29 21:01 | 显示全部楼层
用python写个爬虫吧,说个思路。
每本书对应一个页面,编号是递增的。但txt文件名和这个数字没关系,所以不能直接批量下,得去抓每个页面里的文件链接。
例如现在最新的一本就是 http://domain/33880.html,递减就可以了。
定位到它的 div class="showDown" ,下第二个链接就可以了,或者直接过滤所有链接,下载后缀是 txt 的。
有任意语言编程基础的话找点 python 爬虫实例改下就能写出来。
回复

使用道具 举报

发表于 2016-2-29 22:09 | 显示全部楼层
文件名就是书名,用爬虫so easy。
回复

使用道具 举报

     
发表于 2016-2-29 22:49 | 显示全部楼层
我写了个爬虫试了下
结果附件

@qieqie 这个网站确实啥都没限制- -
@莫名的孤独 怎么证明(

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2016-2-29 22:53 | 显示全部楼层
用python抓url简单的啦 手痒瞎写了一个,要不你装个python2.7试试
  1. # coding=utf-8
  2. import urllib2
  3. import re
  4. import time

  5. number = 33880
  6. print number

  7. while number > 32001:
  8.     url = "http://www.xuanshu.com/" + str(number) + ".html"
  9.     req = urllib2.Request(url)
  10.     try:
  11.         page = urllib2.urlopen(req)
  12.     except urllib2.HTTPError as e:
  13.         print url+" failed"
  14.     except urllib2.URLError as e:
  15.         print url+" failed"
  16.     html = unicode(page.read(), "utf-8")
  17.     download_pattern = re.compile('http:\/\/dzs.**.com.*?\.txt', re.MULTILINE)
  18.     download_links = re.findall(download_pattern, html)
  19.     for link in download_links:
  20.         print link
  21.     number -= 1
  22.     #time.sleep(1) #如果太快不行的话把第一个井号去了
复制代码
回复

使用道具 举报

 楼主| 发表于 2016-2-29 23:11 | 显示全部楼层
本帖最后由 windsoulboy 于 2016-2-29 23:15 编辑

给各大神跪了,作为文科生,为了掌握电脑,二级的时候不选vf选c++已经是极限了,现在顶多说是对代码不是两眼一黑,写代码完全无能啊。
明天看看各位大神写的东西怎么用。
对了,我仔细看看下载地址,比较早的txt是按数字排序,后面都是书名,个别是数字。所以下载后会有一些需要改名的操作。
如果直接下rar压缩包的话,解压之后,都是各书命名好的txt,比较方面存档。
回复

使用道具 举报

 楼主| 发表于 2016-2-29 23:21 | 显示全部楼层
exzhawk 发表于 2016-2-29 22:49
我写了个爬虫试了下
结果附件

大神,请问能不能把rar的地址抓出来?
直接下载txt的话,需要改名的操作,文件好多,而且正文里好多都不提小说名字,还要找个句子搜索一下才知道小说名字。
如果是rar的话就不用了,直接解压出来的txt就命名好的。

你这个结果非常方便啊,复制了之后就能用工具批下载了。
回复

使用道具 举报

     
发表于 2016-3-1 00:57 来自手机 | 显示全部楼层
windsoulboy 发表于 2016-2-29 23:21
大神,请问能不能把rar的地址抓出来?
直接下载txt的话,需要改名的操作,文件好多,而且正文里好多都不 ...

能。。明天着。。
或者如果用aria/wget之类的话,可以指定下载的文件的名字,反正也能抓到
回复

使用道具 举报

     
发表于 2016-3-1 10:51 | 显示全部楼层
rar的地址

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

 楼主| 发表于 2016-3-1 13:05 | 显示全部楼层

非常感谢。精神加鹅。
昨晚3w+地址导到迅雷里下载,早晨一看迅雷下了3000不到就累死了。
我回头慢慢的分批下吧。

这全是全本小说,实时更新,非常难得的资料。

这种网络小应用的编程学哪种语言比较好? 我看看是不是也比较正经的学学。
回复

使用道具 举报

     
发表于 2016-3-1 13:07 | 显示全部楼层
要下载rar链接的话,很多网站都是js动态生成的
单纯http可能不行
phatomjs直接上
回复

使用道具 举报

头像被屏蔽
发表于 2016-3-1 13:11 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2016-3-1 13:12 | 显示全部楼层
windsoulboy 发表于 2016-3-1 13:05
非常感谢。精神加鹅。
昨晚3w+地址导到迅雷里下载,早晨一看迅雷下了3000不到就累死了。
我回头慢慢的分 ...

分析爬别人网站的话也就是正则,dom和javascript,http,最多就是再了解点cookie及会话
然后搞门语言,既然要学javascript直接node.js之类,工具chrome/phatomjs/casperjs就行了
回复

使用道具 举报

头像被屏蔽
发表于 2016-3-1 13:14 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2016-3-1 16:32 | 显示全部楼层
windsoulboy 发表于 2016-3-1 13:05
非常感谢。精神加鹅。
昨晚3w+地址导到迅雷里下载,早晨一看迅雷下了3000不到就累死了。
我回头慢慢的分 ...

这里具体我用的是python的一个库scrapy
关键就一个正则匹配页面地址, 一个xpath解析下载地址
不过正经学爬虫的话还是各种web方面知识都要学的
回复

使用道具 举报

 楼主| 发表于 2016-3-1 18:45 | 显示全部楼层
莫名的孤独 发表于 2016-3-1 13:11
迅雷???
好吧你比我还行,

那用什么啊,没装其他下载工具。

rar解压后的txt文档都是命名过的,没有数字或全拼音了。
回复

使用道具 举报

头像被屏蔽
发表于 2016-3-1 18:52 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
发表于 2016-3-1 18:52 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
发表于 2016-3-1 18:55 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

 楼主| 发表于 2016-3-1 19:00 | 显示全部楼层
莫名的孤独 发表于 2016-3-1 18:55
我也好几年没这么下过东西了,迅雷我记得好像也就最多三千还是五千,像你下的三万,他怎么可能下的来 ...

迅雷一次最多导入1000,我分割成了31个导入文件导入迅雷的,然后迅雷就死掉了,发现才下了3000不到。
回复

使用道具 举报

头像被屏蔽
发表于 2016-3-1 19:00 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
发表于 2016-3-1 19:19 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

 楼主| 发表于 2016-3-1 20:14 | 显示全部楼层
莫名的孤独 发表于 2016-3-1 19:19
下到哪了??记得给我一个分享

下到本地啊,不好分享啊,昨晚3w个导入完,预计容量18g+。
现在值夜班,500个一组的导入下载。

现在才发现,这样搞,完全没目录,找书简直崩溃,唯一的好处就是看见网友发的推荐的全本书,估计可以在本地直接找到,不用在网上瞎逛尤其是忍受各种奇葩网盘了。
回复

使用道具 举报

 楼主| 发表于 2016-3-1 20:16 | 显示全部楼层
莫名的孤独 发表于 2016-3-1 19:19
下到哪了??记得给我一个分享

下到本地啊,不好分享啊,昨晚3w个导入完,预计容量18g+。
现在值夜班,500个一组的导入下载。

现在才发现,这样搞,完全没目录,找书简直崩溃,唯一的好处就是看见网友发的推荐的全本书,估计可以在本地直接找到,不用在网上瞎逛尤其是忍受各种奇葩网盘了。
回复

使用道具 举报

 楼主| 发表于 2016-3-1 20:18 | 显示全部楼层
莫名的孤独 发表于 2016-3-1 19:19
下到哪了??记得给我一个分享

下到本地啊,不好分享啊,昨晚3w个导入完,预计容量18g+。
现在值夜班,500个一组的导入下载。

现在才发现,这样搞,完全没目录,找书简直崩溃,唯一的好处就是看见网友发的推荐的全本书,估计可以在本地直接找到,不用在网上瞎逛尤其是忍受各种奇葩网盘了。
回复

使用道具 举报

头像被屏蔽
发表于 2016-3-1 20:22 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2016-3-1 20:59 | 显示全部楼层
火狐+DownThemAll扩展
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-8-22 08:38 , Processed in 0.230637 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表