好好百科

分享有趣又有用的知识

用户工具

站点工具


侧边栏

导航菜单

python:pypi:lxml

lxml

from lxml import etree
 
html = etree.HTML(html_str)
 
# 所有子节点
node1 = html.xpath('/*')
 
# 所有子节点(嵌套)
node2 = html.xpath('//*')
 
# 包含hello类的所有div
node3 = html.xpath('//div[@class="hello"]')
 
# node3中<h1>标签下<span>标签的文本
text1 = node3[0].xpath('./h1/span/text()')
 
# 所有img的href属性
text2 = html.xpath('//img/@href')
 
# 节点下所有文本
text3 = node3[0].xpath('string(.)')
 
# 将节点对象还原成字符串
text4 = etree.tostring(node3[0]).decode()

更多高级用法参考 https://www.jianshu.com/p/4fef4142b33f

python/pypi/lxml.txt · 最后更改: 2019/08/16 11:37 由 老赵