找回密码
 立即注册
搜索
查看: 1192|回复: 4

[网络] 求助,Chrome或者FF有没有扩展能根据xpath抓取网页内容的

[复制链接]
     
发表于 2017-12-25 10:41 | 显示全部楼层 |阅读模式
RT
请问有没有这样的一款软件或者扩展,可以当做浏览器使用,在打开某指定网页后,可以根据我事先给出的该网页抓取模板,抓取网页的指定信息,并将这些信息分门别类的装到txt或者excel中,然后手动打开下一个页面,重复以上操作。

lz电脑技术比较菜,生活中又经常需要很多工商网上的指定公司信息,如需要该公司的
【统一社会信用代码
企业名称
类型
法定代表人
注册资本
成立日期
营业期限
登记机关
核准日期
登记状态
住所
经营范围】
等信息

经过一段时间的学习,LZ了解到了爬虫的基本原理,xpath,正则表达式等,也试用了网上的数款经典爬虫,但始终达不到想要的目的,因:1.验证码无法处理,2.自动化程度不高,3.ajax很难处理,容易出错;于是就想寻找这样一款扩展提高公司技术水平不高的人的工作效率(包括我),起码不用打开一个网页然后重复数十次的CTRL+c,v了;

这样的好处就是:人工处理验证码,ajax加载等复杂的问题,可以使小白实习生轻易上手,而又能显著提高工作效率(相对之前),LZ的工作量其实并不大,可能一天也就百十个公司要处理,因此这样半人工的方式效率还是可以接受的。

先谢谢了。
回复

使用道具 举报

头像被屏蔽
     
发表于 2017-12-25 11:49 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
发表于 2017-12-25 12:35 | 显示全部楼层
你需要selenium
回复

使用道具 举报

     
发表于 2017-12-25 14:58 | 显示全部楼层
Chrome有个插件叫做XPath Helper 可以调试xpath指向的内容。
如果你可以手动打开页面的话,也许按键精灵做个复杂的宏就能解决你的问题了。
如果想要自动打开页面的话,情况会复杂很多。
希望能帮上你的忙。
回复

使用道具 举报

     
发表于 2017-12-25 15:29 | 显示全部楼层
网上的采集软件不是很多吗
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-8-15 17:07 , Processed in 0.042032 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表