从这个页面下的, 楼主看看合适不, 要的话俺就mo下.
http://comic.kukudm.com/comic/home/kukucomic.asp?id=2514
===================================
看了一下, 很杂. 看来这个kukudm只求更新速度, 不讲究纯正 现在可以了, 不过这个版本实在不清晰. 有是有, 但是很难作一个通用的.
其中要考虑java script的分析(比如163, 用js载入图片), gb2312和utf8的转换(正则很容易在这个地方出问题).
一旦这个网站用了js来载入图片, 那么几乎就没有通用方法了.
对于传统使用img标志来贴图的网站的确可以作一个通用方法.
目前我将下载方法分为两类, spider和tree, 现在只定义和实现了tree的下载方法
以下是我这次下载kukudm这个网站配置文件, 希望能提供思路
name=kukudm
method=tree
remote_charset=gb2312
local_charset=utf8
tree_list=list.txt
folder_reg=一个正则
leaf_reg=又一个正则
img_url_reg=还是一个正则
img_name_reg=正则 发现自己接力站里还有NGM……
都是小名雪版(大概)
但是是从110开始,希望能帮上LZ点忙
[ 接力站: 1024M,保存3天]
[ 已用: 266M | 空余: 758M ]
接力站 占用空间数 265.6M 实际文件大小 265.6M
大小 文件名(点击文件名下载) 共享提取码 有效日期
49M
Negima.part1.rar
5935925681216527
2006-06-14 01:52
49M
Negima.part2.rar
2712701924112716
2006-06-14 02:02
49M
Negima.part3.rar
1761756208517470
2006-06-14 02:12
49M
Negima.part4.rar
0090082087910955
2006-06-14 02:26
49M
Negima.part5.rar
5065054782611674
2006-06-14 02:40
7.8M
Negima.part6.rar
3273263994510725
2006-06-14 02:42
页:
[1]