求助,Chrome或者FF有没有扩展能根据xpath抓取网页内容的
RT请问有没有这样的一款软件或者扩展,可以当做浏览器使用,在打开某指定网页后,可以根据我事先给出的该网页抓取模板,抓取网页的指定信息,并将这些信息分门别类的装到txt或者excel中,然后手动打开下一个页面,重复以上操作。
lz电脑技术比较菜,生活中又经常需要很多工商网上的指定公司信息,如需要该公司的
【统一社会信用代码
企业名称
类型
法定代表人
注册资本
成立日期
营业期限
登记机关
核准日期
登记状态
住所
经营范围】
等信息
经过一段时间的学习,LZ了解到了爬虫的基本原理,xpath,正则表达式等,也试用了网上的数款经典爬虫,但始终达不到想要的目的,因:1.验证码无法处理,2.自动化程度不高,3.ajax很难处理,容易出错;于是就想寻找这样一款扩展提高公司技术水平不高的人的工作效率(包括我),起码不用打开一个网页然后重复数十次的CTRL+c,v了;
这样的好处就是:人工处理验证码,ajax加载等复杂的问题,可以使小白实习生轻易上手,而又能显著提高工作效率(相对之前),LZ的工作量其实并不大,可能一天也就百十个公司要处理,因此这样半人工的方式效率还是可以接受的。
先谢谢了。 你需要selenium Chrome有个插件叫做XPath Helper 可以调试xpath指向的内容。
如果你可以手动打开页面的话,也许按键精灵做个复杂的宏就能解决你的问题了。
如果想要自动打开页面的话,情况会复杂很多。
希望能帮上你的忙。 网上的采集软件不是很多吗
页:
[1]