求助，Chrome或者FF有没有扩展能根据xpath抓取网页内容的

waldenblue · 发表于 2017-12-25 10:41

RT
请问有没有这样的一款软件或者扩展，可以当做浏览器使用，在打开某指定网页后，可以根据我事先给出的该网页抓取模板，抓取网页的指定信息，并将这些信息分门别类的装到txt或者excel中，然后手动打开下一个页面，重复以上操作。

lz电脑技术比较菜，生活中又经常需要很多工商网上的指定公司信息，如需要该公司的
【统一社会信用代码
企业名称
类型
法定代表人
注册资本
成立日期
营业期限
登记机关
核准日期
登记状态
住所
经营范围】
等信息

经过一段时间的学习，LZ了解到了爬虫的基本原理，xpath,正则表达式等，也试用了网上的数款经典爬虫，但始终达不到想要的目的，因:1.验证码无法处理，2.自动化程度不高，3.ajax很难处理，容易出错；于是就想寻找这样一款扩展提高公司技术水平不高的人的工作效率（包括我），起码不用打开一个网页然后重复数十次的CTRL+c,v了；

这样的好处就是：人工处理验证码，ajax加载等复杂的问题，可以使小白实习生轻易上手，而又能显著提高工作效率（相对之前），LZ的工作量其实并不大，可能一天也就百十个公司要处理，因此这样半人工的方式效率还是可以接受的。

先谢谢了。

洗刷刷 · 发表于 2017-12-25 11:49

提示: 作者被禁止或删除内容自动屏蔽

xmcp · 发表于 2017-12-25 12:35

你需要selenium

研究僧 · 发表于 2017-12-25 14:58

Chrome有个插件叫做XPath Helper 可以调试xpath指向的内容。
如果你可以手动打开页面的话，也许按键精灵做个复杂的宏就能解决你的问题了。
如果想要自动打开页面的话，情况会复杂很多。
希望能帮上你的忙。

zy450 · 发表于 2017-12-25 15:29

网上的采集软件不是很多吗

		自动登录	找回密码
密码			立即注册

[网络] 求助，Chrome或者FF有没有扩展能根据xpath抓取网页内容的

浏览过的版块

洗刷刷洗刷刷当前离线禁止发言精华 \| 战斗力鹅 \| 回帖 0 注册时间 2016-11-15 头像被屏蔽	发表于 2017-12-25 11:49 来自手机 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽

	回复使用道具举报