layout | title | tags |
---|---|---|
post |
XPath Helper 快速高效从网页中抽取内容 |
插件 |
大家好,我是你们的小金子。
写过爬虫的应该了解,大部分工作其实在对网页进行解析并提取相关的内容,而 xpath 是定位网页中内容的一种非常便捷的方法。使用浏览器选中相应的元素也能直接复制出 xpath 路径。
但是有一个问题,原生的浏览器工具支持更多的是用来定位元素,如果我要实际提取网页中的内容,需要下载网页然后通过编程语言来执行相应的 xpath 提取内容,这样不是很容易操作。
今天要推荐的工具 XPath Helper 工具能很好的解决上述问题。比如我们想提取百度搜索结果中所有返回结果的标题字段,通过下图方式借助 XPath Helper 可以直接容易的提取到。XPath Helper 的使用方式也很简单,只有一个 QUERY 左侧输入框,右侧会即时的显示对应 xpath 选中的内容。
小编工作中经常用来在网页中批量提取一些 URL,然后在此基础上批量执行一些操作。
更多的使用场景请发挥你的想象,只有想不到没有做不到。
插件地址:
https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl