英文文档
使用注意:
- lxml能够修正HTML代码,但可能会改错
- 使用etree.tostring观察修改之后html的样子,根据它写xpath
- lxml能够接受bytes和str的字符串
- 提取页面数据的思路
- 先分组,渠道一个包含分组标签的列表
- 遍历,取其中每一组进行数据的提取,不会造成数据对应的错乱
使用入门
- 导入lxml的etree库
- from lxml import etree
- 利用etree.HTML,将字符串转化为Element对象
- Element对象具有xpath的方法
- html = etree.HTML(text)
- lxml可以自动修正html代码
代码示例:
html = etree.HTML(text)
print(html)
# 查看element对象中包含的字符串
print(etree.tostring(html).decode())
# 获取 p标签下 的a标签的href地址
print(html.xpath('//div/p[@class="tit]/a/@href'))