但是完全搞不定想抓取的网站啊，求助

windsoulboy · 发表于 2016-2-29 11:48

本帖最后由 windsoulboy 于 2016-2-29 23:18 编辑

想从一个网站打包下载rar版本小说，值夜班时慢慢挑，请问哪种方式比较好？
试了几个离线下网站的软件，发现不太会用，好多设置不是看的很懂，不过能找到教程。
大家有推荐的软件吗？我好好学一种。
———更新———

我看介绍，软件抓取网站好像对人家网站负担挺大的，稍微设下权限，不知道有必要没。
这个书站全是全本小说的搜集整理，非常不错，很想打包下下来。

这个网站 http://www.xuanshu.com/
给的下载地址是http://dzs.**.com/txt/26195.txt
感觉直接抓http://dzs.**.com/txt/就可以了，但是完全403错误啊
抓http://www.xuanshu.com/却没有txt可以下载
OfflineExplorer和Teleport Ultra都用了，搞不定啊

——————更新——————直接下载txt的话，需要改名的操作。如果是rar的话就不用了，直接解压出来的txt就命名好的。

exzhawk · 发表于 2016-2-29 12:04

爬虫？不会写代码的话各种采集器吧

Geminize · 发表于 2016-2-29 12:05

提示: 作者被禁止或删除内容自动屏蔽

莫名的孤独 · 发表于 2016-2-29 13:07

提示: 作者被禁止或删除内容自动屏蔽

windsoulboy · 发表于 2016-2-29 17:08

Geminize 发表于 2016-2-29 12:05
wget.exe --accept=txt -r -nd 网址

这个是啥？看着是dos界面啊

windsoulboy · 发表于 2016-2-29 17:11

按照Teleport Ultra的教程，执行后下的没有txt文件啊

exzhawk · 发表于 2016-2-29 18:08

莫名的孤独发表于 2016-2-29 13:07
我那年记得十束多多良给我弄过，不过他在s1叫啥名卟知道。

就是我

莫名的孤独 · 发表于 2016-2-29 18:24

提示: 作者被禁止或删除内容自动屏蔽

EraserKing · 发表于 2016-2-29 18:28

http headers检查过么

EraserKing · 发表于 2016-2-29 18:28

http headers检查过么

qieqie · 发表于 2016-2-29 18:45

因为一个网站的web server（如nginx）最常见的rewrite规则是，
在你访问http://domain/txt/的时候，通常会认为你想访问http://domain/txt/index(或者.html .php之类)，而非是那个静态目录。。
另外，认为网站只要url对就能任意下载文件的。。也太瞧不起人家码农了吧

莫名的孤独 · 发表于 2016-2-29 19:24

提示: 作者被禁止或删除内容自动屏蔽

windsoulboy · 发表于 2016-2-29 19:26

qieqie 发表于 2016-2-29 18:45
因为一个网站的web server（如nginx）最常见的rewrite规则是，
在你访问http://domain/txt/的时候，通常会 ...

那要怎么做才可以呢？
这个网站只搜集全本小说，非常难得的。

restlin · 发表于 2016-2-29 19:55

提示: 作者被禁止或删除内容自动屏蔽

四点 · 发表于 2016-2-29 21:01

用python写个爬虫吧，说个思路。
每本书对应一个页面，编号是递增的。但txt文件名和这个数字没关系，所以不能直接批量下，得去抓每个页面里的文件链接。
例如现在最新的一本就是 http://domain/33880.html，递减就可以了。
定位到它的 div class="showDown" ，下第二个链接就可以了，或者直接过滤所有链接，下载后缀是 txt 的。
有任意语言编程基础的话找点 python 爬虫实例改下就能写出来。

redfortress · 发表于 2016-2-29 22:09

文件名就是书名，用爬虫so easy。

exzhawk · 发表于 2016-2-29 22:49

我写了个爬虫试了下
结果附件

@qieqie 这个网站确实啥都没限制- -
@莫名的孤独怎么证明(

紧那罗 · 发表于 2016-2-29 22:53

用python抓url简单的啦手痒瞎写了一个,要不你装个python2.7试试

# coding=utf-8
import urllib2
import re
import time
number = 33880
print number
while number > 32001:
url = "http://www.xuanshu.com/" + str(number) + ".html"
req = urllib2.Request(url)
try:
page = urllib2.urlopen(req)
except urllib2.HTTPError as e:
print url+" failed"
except urllib2.URLError as e:
print url+" failed"
html = unicode(page.read(), "utf-8")
download_pattern = re.compile('http:\/\/dzs.**.com.*?\.txt', re.MULTILINE)
download_links = re.findall(download_pattern, html)
for link in download_links:
print link
number -= 1
#time.sleep(1) #如果太快不行的话把第一个井号去了

复制代码

windsoulboy · 发表于 2016-2-29 23:11

本帖最后由 windsoulboy 于 2016-2-29 23:15 编辑

给各大神跪了，作为文科生，为了掌握电脑，二级的时候不选vf选c++已经是极限了，现在顶多说是对代码不是两眼一黑，写代码完全无能啊。
明天看看各位大神写的东西怎么用。
对了，我仔细看看下载地址，比较早的txt是按数字排序，后面都是书名，个别是数字。所以下载后会有一些需要改名的操作。
如果直接下rar压缩包的话，解压之后，都是各书命名好的txt，比较方面存档。

windsoulboy · 发表于 2016-2-29 23:21

exzhawk 发表于 2016-2-29 22:49
我写了个爬虫试了下
结果附件

大神，请问能不能把rar的地址抓出来？
直接下载txt的话，需要改名的操作，文件好多，而且正文里好多都不提小说名字，还要找个句子搜索一下才知道小说名字。
如果是rar的话就不用了，直接解压出来的txt就命名好的。

你这个结果非常方便啊，复制了之后就能用工具批下载了。

exzhawk · 发表于 2016-3-1 00:57

windsoulboy 发表于 2016-2-29 23:21
大神，请问能不能把rar的地址抓出来？
直接下载txt的话，需要改名的操作，文件好多，而且正文里好多都不 ...

能。。明天着。。
或者如果用aria/wget之类的话，可以指定下载的文件的名字，反正也能抓到

exzhawk · 发表于 2016-3-1 10:51

rar的地址

windsoulboy · 发表于 2016-3-1 13:05

exzhawk 发表于 2016-3-1 10:51
rar的地址

非常感谢。精神加鹅。
昨晚3w+地址导到迅雷里下载，早晨一看迅雷下了3000不到就累死了。
我回头慢慢的分批下吧。

这全是全本小说，实时更新，非常难得的资料。

这种网络小应用的编程学哪种语言比较好？我看看是不是也比较正经的学学。

董卓 · 发表于 2016-3-1 13:07

要下载rar链接的话，很多网站都是js动态生成的
单纯http可能不行
phatomjs直接上

莫名的孤独 · 发表于 2016-3-1 13:11

提示: 作者被禁止或删除内容自动屏蔽

董卓 · 发表于 2016-3-1 13:12

windsoulboy 发表于 2016-3-1 13:05
非常感谢。精神加鹅。
昨晚3w+地址导到迅雷里下载，早晨一看迅雷下了3000不到就累死了。
我回头慢慢的分 ...

分析爬别人网站的话也就是正则，dom和javascript，http，最多就是再了解点cookie及会话
然后搞门语言，既然要学javascript直接node.js之类，工具chrome/phatomjs/casperjs就行了

莫名的孤独 · 发表于 2016-3-1 13:14

提示: 作者被禁止或删除内容自动屏蔽

exzhawk · 发表于 2016-3-1 16:32

windsoulboy 发表于 2016-3-1 13:05
非常感谢。精神加鹅。
昨晚3w+地址导到迅雷里下载，早晨一看迅雷下了3000不到就累死了。
我回头慢慢的分 ...

这里具体我用的是python的一个库scrapy
关键就一个正则匹配页面地址, 一个xpath解析下载地址
不过正经学爬虫的话还是各种web方面知识都要学的

windsoulboy · 发表于 2016-3-1 18:45

莫名的孤独发表于 2016-3-1 13:11
迅雷？？？
好吧你比我还行，

那用什么啊，没装其他下载工具。

rar解压后的txt文档都是命名过的，没有数字或全拼音了。

莫名的孤独 · 发表于 2016-3-1 18:52

提示: 作者被禁止或删除内容自动屏蔽

莫名的孤独 · 发表于 2016-3-1 18:52

提示: 作者被禁止或删除内容自动屏蔽

莫名的孤独 · 发表于 2016-3-1 18:55

提示: 作者被禁止或删除内容自动屏蔽

windsoulboy · 发表于 2016-3-1 19:00

莫名的孤独发表于 2016-3-1 18:55
我也好几年没这么下过东西了，迅雷我记得好像也就最多三千还是五千，像你下的三万，他怎么可能下的来 ...

迅雷一次最多导入1000，我分割成了31个导入文件导入迅雷的，然后迅雷就死掉了，发现才下了3000不到。

莫名的孤独 · 发表于 2016-3-1 19:00

提示: 作者被禁止或删除内容自动屏蔽

莫名的孤独 · 发表于 2016-3-1 19:19

提示: 作者被禁止或删除内容自动屏蔽

windsoulboy · 发表于 2016-3-1 20:14

莫名的孤独发表于 2016-3-1 19:19
下到哪了？？记得给我一个分享

下到本地啊，不好分享啊，昨晚3w个导入完，预计容量18g+。
现在值夜班，500个一组的导入下载。

现在才发现，这样搞，完全没目录，找书简直崩溃，唯一的好处就是看见网友发的推荐的全本书，估计可以在本地直接找到，不用在网上瞎逛尤其是忍受各种奇葩网盘了。

windsoulboy · 发表于 2016-3-1 20:16

莫名的孤独发表于 2016-3-1 19:19
下到哪了？？记得给我一个分享

下到本地啊，不好分享啊，昨晚3w个导入完，预计容量18g+。
现在值夜班，500个一组的导入下载。

现在才发现，这样搞，完全没目录，找书简直崩溃，唯一的好处就是看见网友发的推荐的全本书，估计可以在本地直接找到，不用在网上瞎逛尤其是忍受各种奇葩网盘了。

windsoulboy · 发表于 2016-3-1 20:18

莫名的孤独发表于 2016-3-1 19:19
下到哪了？？记得给我一个分享

下到本地啊，不好分享啊，昨晚3w个导入完，预计容量18g+。
现在值夜班，500个一组的导入下载。

现在才发现，这样搞，完全没目录，找书简直崩溃，唯一的好处就是看见网友发的推荐的全本书，估计可以在本地直接找到，不用在网上瞎逛尤其是忍受各种奇葩网盘了。

莫名的孤独 · 发表于 2016-3-1 20:22

提示: 作者被禁止或删除内容自动屏蔽

exzhawk · 发表于 2016-3-1 20:59

火狐+DownThemAll扩展

		自动登录	找回密码
密码			立即注册

[网络] 但是完全搞不定想抓取的网站啊，求助

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块

Geminize Geminize 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-7-21 头像被屏蔽	发表于 2016-2-29 12:05 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-2-29 13:07 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-2-29 18:24 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-2-29 19:24 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

restlin restlin 当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2007-5-4 头像被屏蔽	发表于 2016-2-29 19:55 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-3-1 13:11 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-3-1 13:14 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-3-1 18:52 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-3-1 18:55 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-3-1 19:00 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-3-1 19:19 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报

莫名的孤独莫名的孤独当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2015-11-30 头像被屏蔽	发表于 2016-3-1 20:22 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报