lxml库是干嘛的？Python lxml库用法

更新时间:2021-06-21 来源:黑马程序员浏览量:

IT培训班

lxml是使用Python语言编写的库，主要用于解析和提取HTML或者XML格式的数据，它不仅功能非常丰富，而且便于使用，可以利用XPath语法快速地定位特定的元素或节点。

lxml库中大部分功能都位于lxml.etree模块中，导入lxml.etree模块的常见方式如下：

from lxml import etree

lxml库的一些相关类如下：
(1) Element类：可以理解为XML的节点。
(2) ElementTree类：可以理解为一个完整的XML文档树。
(3) ElementPath类：可以理解为XPath,用于搜索和定位节点。

1.Element 类简介

Element类是XML处理的核心类，可以直观地理解为XML的节点，大部分XML节点的处理都是围绕着Element类进行的。要想创建一个节点对象，则可以通过构造函数直接创建。例如：

root=etree.Element('root')

上述示例中，参数root表示节点的名称。关于Element类的相关操作，主要可分为三部分，分别是节点操作、节点属性的操作、节点内文本的操作，下面进行逐一介绍。（1）节点操作：若要获取节点的名称，可以通过tag属性获取。例如：

print(root.tag)
# 输出结果如下
root

（2）节点属性的操作:在创建节点的同时，可以为节点增加属性。节点中的属性是以key-value的形式进行存储的，类似于字典的存储方式。通过构造方法创建节点时，可以在该方法中以参数的形式设置属性，其中参数的名称表示属性的名称，参数的值表示为属性的值。创建属性的示例如下：

# 创建root节点，并为其添加属性
root=etree.Element('root', interesting='totally')
print(etree.tostring(root))
# 输出结果如下
b'<root interesting=" totally" />'

此外，可以通过set()方法给已有的节点添加属性。在调用该方法时可以传入两个参数，其中第一个参数表示属性的名称，第二个参数表示属性的值。例如：

# 再次给root节点添加age属性
root.set('age', '30')
print(etree.tostring(root))
# 输出结果如下
b'<root interesting="totally"age="30"/>'

在上述两个示例中，都用到了tostring()函数，该函数可以将元素序列化为XML树的编码字符串表示形式。

（3）节点内文本的操作：一般情况下，可以通过text、tail属性或者xpath()方法来访问文本内容。通过text属性访问节点的示例如下:

root=etree.Element('root')    # 创建root节点
root.text='Hello, World!'    # 给root节点添加文本
print(root.text)
print(etree.tostring(root))
# 输出结果如下
Hello, world!
b'<root>Hello, World!</root>'

2.从字符串或文件中解析XML

为了能够将XML文件解析为树结构，etree模块中提供了如下3个函数： (1 ) fromstring()函数：从字符串中解析XML文档或片段，返回根节点(或解析器目标返回的结果)。 (2) XML()函数：从字符串常量中解析XML文档或片段，返回根节点(或解析器目标返回的结果)。 (3) HTML()函数：从字符串常量中解析HTML文档或片段，返回根节点(或解析器目标返回的结果)。其中，XML()函数的行为类似于fromstring0函数，通常用于将XML字面量直接写入到源代码中；HTML()函数可以自动补全缺少的<html>和<body>标签。以上3个函数的示例如下：

xml_data='<root>data</root>'
# fromstring()方法
root_one=etree.fromstring(xml_data)
print(root_one.tag)
print(etree.tostring(root_one))
# XML方法，与fromstring方法基本一样
root_two=etree.XML(xml_data)
print(root_two.tag)
print(etree.tostring(root_two))
# HTML()方法，如果没有<html>和<body>标签，会自动补上
root_three=etree.HTML(xml_data)
print(root_three.tag)
print(etree.tostring(root_three))
程序运行结果为：
root
b'<root>data</root>'
root
b'<root>data</root>'
html
b'<html><body><root>data</root></body></html>'

除了上述3个函数之外，还可以调用parse()函数从XML文件中直接解析。在调用函数时，如果没有提供解析器，则使用默认的解析器，函数会返回一个ElemenfTree 类的对象。例如：

html=etree.parse('./hello.html')
result=etree.tostring(html, pretty_print=True)

ElementPath类简介

ElementTree类中附带了一个类似于XPath路径语言的ElementPath类。在ElementTree类或Elements类的API文档中，提供了3个常用的方法，可以满足大部分搜索和查询需求，并且这3个方法的参数都是XPath语句。具体如下： (1) find()方法：返回匹配到的第一个子元素。 (2) findall()方法：以列表的形式返回所有匹配的子元素。 (3) iterfind()方法：返回一个所有匹配元素的迭代器。从文档树的根节点开始，搜索符合要求的节点。例如：

# 从字符串中解析XML,返回根节点
root=etree.XML("<root><a x='123'>aText<b/><c/><b/></a></root>")
# 从根节点查找，返回匹配到的节点名称
print(root.find("a").tag)
# 从根节点开始查找，返回匹配到的第一个节点的名称
print(root.findall(".//a[@x]")[0].tag)

程序运行结果为：

a
A

还可以调用xpath()方法，使用元素作为上下文节点来评估XPath表达式。

lxml库的基本使用

这里使用一个HTML示例文件作为素材来介绍lxml库的基本应用。该文件名为hello.html，内容如下：

<!-- hello.html -->
<div>
    <ul>
        <li class="item-0"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li> 
        <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
        <li class="item-0"><a href="link5.html">fifth item</a></li>
    </ul>
</div>

按下来，基于上述HTML文档，使用lxml库中的路径表达式技巧，通过调用xpath()方法匹配选取的节点，具体如下：

获取任意位置的li节点可以直接使用“//”从任意位置选取节点li，路径表达式如下：

//li

通过lxml.etree模块的xpath()方法，将hello.html文件中与该路径表达式匹配到的列表返回，并打印输出。具体代码如下：

from lxml import etree
html=etree.parse('hello.html')
# 查找所有的li节点
result=html.xpath('//li')
# 打印<li>标签的元素集合
print(result)
# 打印<li>标签的个数
print(len(result))
# 打印返回结果的类型
print(type(result))
# 打印第一个元素的类型
print(type(result[0]))

程序运行结果为：

[<Element li at 0x2cc9a48>, <Element li at 0x2cc99c8>, <Element li at 0x2cc9a88>, <Element li at 0x2cc9ac8>, <Element li at 0x2cc9b08>]
5
<class 'list'>
<class 'lxml.etree._Element'>

继续获取<li>标签的class属性

在上个表达式的末尾，使用“/”向下选取节点，并使用@选取class属性节点，表达式如下：

//1i/@class

获取<li>标签的class属性的示例代码如下：

from lxml import etree
html=etree.parse('hello.html')
# 查找位于li标签的class属性
result=html.xpath('//li/@class')
print(result)

程序运行结果为：

['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']

获取倒数第二个元素的内容

从任意位置开始选取倒数第二个<li>标签，再向下选取标签<a>。如果要获取该标签中的文本，可以使用如下表达式：

//li[last()-1]/a

或者

//li[last()-1]/a]/text()

不同的是，第个表达式需要访问text属性，才能拿到标签的文本，而第二个表达式可直接获取文本。使用第一个路径表达式的示例如下：

from lxml import etree
html=etree.parse('hello.html')
# 获取倒数第二个元素的内容
result=html.xpath('//li[last()-1]/a')
print(result[0].text)

程序运行结果：

fourth item

上一篇： Scrapy框架流程图和框架组件 下一篇：python beautifulsoup库的作用和用法详细介绍

深圳中心

热门课程

lxml库是干嘛的？Python lxml库用法

最新资讯

相关阅读

热门课程推荐