英文文档

使用注意:

  • lxml能够修正HTML代码,但可能会改错
    • 使用etree.tostring观察修改之后html的样子,根据它写xpath
  • lxml能够接受bytes和str的字符串
  • 提取页面数据的思路
    • 先分组,渠道一个包含分组标签的列表
    • 遍历,取其中每一组进行数据的提取,不会造成数据对应的错乱


使用入门

  • 导入lxml的etree库
    • from lxml import etree
  • 利用etree.HTML,将字符串转化为Element对象
  • Element对象具有xpath的方法
    • html = etree.HTML(text)
  • lxml可以自动修正html代码

代码示例:

html = etree.HTML(text)
print(html)
# 查看element对象中包含的字符串
print(etree.tostring(html).decode())
# 获取 p标签下 的a标签的href地址
print(html.xpath('//div/p[@class="tit]/a/@href'))

发表回复