下载

火车采集器XPath提取教程

PConline 2019-04-08 14:59:10
网络辅助

  XPath提取

  XPath是一门在HTML/XML文档中查找信息的语言。

  XPath使用路径表达式在XML文档中进行导航,可以通过FireFoxfirebug或者Chrome开发者工具快速获取。

XPath节点属性

  innerHTML获取位于对象起始和结束标签内的HTML(HTML代码,不包含开始/结束代码)

  innerText获取位于对象起始和结束标签内的文本(文本字段,不包含开始/结束代码)

  outerHTML获取对象及其内容的HTML形式(HTML代码,包含开始/结束代码)

Href获取超链接

  以网址http://faq.locoy.com/q-681.html为例,我们来设置标题和内容的XPath表达式,节点属性我们默认innerHTML就可以。

  方法/步骤

  1、首先,用谷歌浏览器打开网页,然后打开Chrome开发者工具,快捷键为“F12”,反复按下F12可以切换状态(打开或关闭)。当然,你也可以在原网页,直接右击“审查元素”。

  2、获取标题的XPath,操作:

  得出代码为//*[@id="mainContent"]/div[2]/h2

  3、获取内容的XPath,操作:

  得出代码为//*[@id="cmsContent"]

  然后放入即可。

打开太平洋知科技,阅读体验更佳
前往太平洋知科技APP查看原文,阅读体验更佳
继续评论
前往APP
制作海报
火车采集器2010SP2软件版本:免费版网络工具立即查看

网友评论

写评论
APP内评论,得金币,兑好礼

相关推荐