lxml库使用 – 不爱学习的硕硕

撰写 icenturyw 于 2019年 3月 3日 2019年 3月 3日 Python

英文文档

使用注意：

lxml能够修正HTML代码，但可能会改错
- 使用etree.tostring观察修改之后html的样子，根据它写xpath
lxml能够接受bytes和str的字符串
提取页面数据的思路
- 先分组，渠道一个包含分组标签的列表
- 遍历，取其中每一组进行数据的提取，不会造成数据对应的错乱

使用入门

导入lxml的etree库
- from lxml import etree
利用etree.HTML，将字符串转化为Element对象
Element对象具有xpath的方法
- html = etree.HTML(text)
lxml可以自动修正html代码

代码示例：

html = etree.HTML(text)
print(html)
# 查看element对象中包含的字符串
print(etree.tostring(html).decode())
# 获取 p标签下 的a标签的href地址
print(html.xpath('//div/p[@class="tit]/a/@href'))

发表回复取消回复

要发表评论，您必须先登录。