找回密码
 立即注册
搜索
查看: 1727|回复: 12

[网络] 怎么从网站抓取数据?

[复制链接]
发表于 2012-11-19 12:34 | 显示全部楼层 |阅读模式
打算从豆瓣图书上建立一个小数据库,包含书的封面、书名、作者等信息,几千个条目,

有什么傻瓜软件推荐一下?
回复

使用道具 举报

头像被屏蔽
发表于 2012-11-19 12:47 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2012-11-19 12:48 | 显示全部楼层
爬虫~~?我的最爱啊。而且我正好爬过豆瓣的数据。豆瓣的对于抓取的政策很严格,封ip封的很紧。而且URL没有规律,很难拼出来,只能靠宽搜。如果要爬,建议从m.douban.com入手,ip检测比较宽松,页面也相对简单。

没啥傻瓜软件可以推荐。想要爬,还是自己学习一下python写爬虫吧~
回复

使用道具 举报

     
发表于 2012-11-19 13:21 | 显示全部楼层
写爬虫什么的可不是LZ期望的傻瓜软件
回复

使用道具 举报

 楼主| 发表于 2012-11-19 13:50 | 显示全部楼层
主要是python这个不会,而且以前也没有网络编程的经验。所以只能找傻瓜软件了。

现在有些想法,书的网址我手动输入,比如 http://book.douban.com/subject/3057671/
发现书封面的网址都是http://img3.douban.com/lpic/*.jpg,然后就剩下书的信息比如书名和作者。
回复

使用道具 举报

发表于 2012-11-19 13:58 | 显示全部楼层

回 4楼(迷之路人) 的帖子

lz如果不会正则表达式也不会python,那估计也不会html解析了。其实爬虫这东西技术含量不高,但是比较繁琐,尤其是html解析这部分。
而且由于需求差别很大,爬虫对于定制性的要求很高,所以基本上也没有啥现成的软件可以使用,一般都是自己按要求自己写。
回复

使用道具 举报

发表于 2012-11-19 14:27 | 显示全部楼层
唔,当年看过一个用excel的VBA抓取网站股票数据的,方法应该很多吧
回复

使用道具 举报

     
发表于 2012-11-19 14:36 | 显示全部楼层
这里之前推荐过的IDM下载工具,有爬虫功能,规则不算难定测试几下应该就会。
注册也比较方便,找一下就有。
回复

使用道具 举报

 楼主| 发表于 2012-11-19 14:46 | 显示全部楼层

回 5楼(mimighost) 的帖子

现在实现两个简单的功能,手动输入一个网址,比如 http://book.douban.com/subject/3057671/
返回这个网页的title和 一个jpg文件,符合这个规则:http://img3.douban.com/lpic/*.jpg。
这个如何实现?
回复

使用道具 举报

发表于 2012-11-19 15:04 | 显示全部楼层
我好人也就做到这步了,基本的东西都在里面了,楼主自己慢慢琢磨。一共花了5分钟时间,包括查正则的用法的时间。

[strike]我这样也算是尽心尽力普及我大Python圣教了
[/strike]
  1. __author__ = 'mimighost'
  2. import urllib
  3. import re
  4. content = urllib.urlopen("http://book.douban.com/subject/3057671/").read()
  5. title_pattern = re.compile(r"<title>(?P<title>.*)</title>")
  6. image_pattern = re.compile(r"http://img3.douban.com/lpic/.*jpg")
  7. print title_pattern.findall(content),image_pattern.findall(content)
复制代码
回复

使用道具 举报

 楼主| 发表于 2012-11-19 15:06 | 显示全部楼层

回 9楼(mimighost) 的帖子

谢谢了!
回复

使用道具 举报

     
发表于 2012-11-19 17:33 | 显示全部楼层
urllib太简陋了,改用requests吧
很多网站为了防止机器人抓封各种agent的
requests这种能欺骗
另外cookie什么的。。。
回复

使用道具 举报

     
发表于 2012-11-19 17:55 | 显示全部楼层
说不定以后有用
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-9-12 23:24 , Processed in 0.110120 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表