news 2026/1/12 11:12:05

XPath 简介:在 XML 和 HTML 中的应用

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
XPath 简介:在 XML 和 HTML 中的应用

webjser: 写一篇文章,将xpath xml和html的xpath

GitHub Copilot: ### XPath 简介:在 XML 和 HTML 中的应用

XPath(XML Path Language)是一种用于在 XML 和 HTML 文档中查找信息的语言。它通过路径表达式来选择文档中的节点或节点集,广泛应用于数据提取、爬虫开发、自动化测试等场景。XPath 的语法简单且功能强大,支持多种类型的表达式,包括绝对路径、相对路径、属性选择、条件过滤等。


XPath 的基本概念

XPath 的核心是路径表达式,它类似于文件系统中的路径,用于定位 XML 或 HTML 文档中的节点。以下是一些常见的 XPath 表达式:

1.基本选择
  • /bookstore:选择根元素<bookstore>
  • //book:选择文档中所有的<book>元素。
  • /bookstore/book:选择<bookstore>元素下的所有<book>子元素。
  • //book/title:选择所有<book>元素中的<title>子元素。
2.属性选择
  • //book[@category]:选择所有具有category属性的<book>元素。
  • //book[@category='web']:选择category属性值为web<book>元素。
  • //@lang:选择文档中所有的lang属性。
  • //title[@lang='en']:选择lang属性值为en<title>元素。
3.位置选择
  • //book[1]:选择文档中第一个<book>元素。
  • //book[last()]:选择文档中最后一个<book>元素。
  • //book[position()<3]:选择文档中前两个<book>元素。
  • //book[price>35]:选择price元素值大于 35 的<book>元素。
4.通配符
  • //*:选择文档中的所有元素。
  • //@*:选择文档中的所有属性。
  • //title[@*]:选择所有具有任意属性的<title>元素。
  • //book/*:选择<book>元素下的所有子元素。

XPath 在 XML 中的应用

XML(可扩展标记语言)是一种用于存储和传输数据的标记语言。以下是一个示例 XML 文档:

<bookstore><bookcategory="cooking"><titlelang="en">Everyday Italian</title><author>Giada De Laurentiis</author><year>2005</year><price>30.00</price></book><bookcategory="children"><titlelang="en">Harry Potter</title><author>J K. Rowling</author><year>2005</year><price>29.99</price></book></bookstore>
示例 XPath 查询:
  1. //book/title:选择所有<book>元素的<title>子元素。

    • 结果:Everyday ItalianHarry Potter
  2. //book[@category='cooking']:选择category属性值为cooking<book>元素。

    • 结果:<book category="cooking">...</book>
  3. //book[price>29.99]:选择price元素值大于 29.99 的<book>元素。

    • 结果:<book category="cooking">...</book>

XPath 在 HTML 中的应用

HTML 是一种用于构建网页的标记语言。XPath 同样可以用于解析 HTML 文档,特别是在 Web 爬虫和自动化测试中。

示例 HTML 文档:
<html><body><divclass="content"><h1>标题</h1><p>这是段落内容。</p><ahref="https://www.jser.com">jser工具</a></div></body></html>
示例 XPath 查询:
  1. //h1:选择文档中的<h1>元素。

    • 结果:<h1>标题</h1>
  2. //a[@href]:选择所有具有href属性的<a>元素。

    • 结果:<a href="https://www.jser.com">jser工具</a>
  3. //div[@class='content']/p:选择class属性值为content<div>元素下的<p>子元素。

    • 结果:<p>这是段落内容。</p>

xpath测试

XPath 的优势

  1. 灵活性:支持多种路径表达式,能够精确定位节点。
  2. 强大的条件过滤:通过谓词([])可以实现复杂的条件查询。
  3. 跨平台:适用于 XML 和 HTML,广泛应用于数据提取、自动化测试等领域。

总结

XPath 是一门功能强大的语言,能够高效地在 XML 和 HTML 文档中定位节点。无论是开发 Web 爬虫、测试工具,还是处理复杂的 XML 数据,XPath 都是不可或缺的工具。通过熟练掌握 XPath 的语法和表达式,开发者可以大幅提升工作效率。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/14 0:40:46

PanSearch网盘影视资源搜索聚合工具源码

核心功能&#xff1a; 1. 聚合搜索&#xff1a;集成多个网盘资源搜索引擎&#xff0c;一站式查找影视、软件、资料。 2. 每日热点&#xff1a;内置科技与新闻热点聚合&#xff08;Readhub&#xff09;&#xff0c;随时掌握最新动态。 3. 极简部署&#xff1a;采用 No-Build 模式…

作者头像 李华
网站建设 2026/1/7 23:52:24

最火流量主壁纸头像小程序源码

这是一款2025最火流量主壁纸头像小程序源码超美UI壁纸小程序带有流量主小程序并且特供图文超详细部署教程&#xff0c;喜欢的自行部署吧&#xff01; 内涵配置域名和广告替换方法&#xff0c;搭建详细教程&#xff0c;带制作姓氏头像页面、星座匹配页面、九宫格拼图页面、创业…

作者头像 李华
网站建设 2025/12/14 0:40:06

简单升压稳压电路 LTspice 结果

简 介&#xff1a; 本文通过LTspice仿真分析了升压电路的工作特性。首先测量了电路的静态工作电流为3.47mA&#xff0c;并测试了不同负载下的转换效率&#xff1a;1kΩ负载时效率为58.9%&#xff0c;100Ω负载时效率达72.8%。实验发现输出电压随负载变化明显&#xff0c;100Ω时…

作者头像 李华
网站建设 2025/12/30 3:01:41

MySQL运维篇——日志和主从复制

日志&#xff08;错误日志&#xff0c;二进制日志&#xff0c;查询日志&#xff0c;慢查询日志&#xff09;&#xff08;1&#xff09;错误日志&#xff1a;服务器运行中发生错误时的相关信息 /var/log/show variables like ‘%log_error%’ ; —查看日志位置&#xff08;2&…

作者头像 李华
网站建设 2025/12/14 0:34:04

Day 34 模块和库的导入

知识点&#xff1a; 1.导入官方库的三种手段 2.导入自定义库/模块的方式 3.导入库/模块的核心逻辑&#xff1a;找到根目录 使用案例 场景1: main.py和circle.py都在同一目录 场景2: main.py和circle.py都在根目录的子目录model/下 场景3: main.py在根目录&#xff0c;circ…

作者头像 李华