2.2 学习xpath
2.2.1 学习目标:
学习xpath,使用lxml+xpath提取内容。
使用xpath提取丁香园论坛的回复内容。
抓取丁香园网页:http://www.dxy.cn/bbs/thread/626626#626626 。
2.2.2 Xpath常用的路径表达式:
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
在XPath中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点