利用 Lynx 进行网页信息提取与处理
一、引言
在命令行互联网的世界里,Lynx 浏览器是一个强大且实用的工具。它不仅可以在不喜欢图形界面时用于浏览网页,更能在命令行脚本中发挥巨大作用。本文将介绍多个使用 Lynx 进行网页信息提取和处理的脚本,包括追踪 BBC 新闻、提取网页链接、在线查词、查询天气以及检查图书馆借阅信息等。
二、追踪 BBC 新闻
2.1 基本操作
Lynx 的-dump标志可以输出网页的文本内容,而非 HTML 源代码。例如,要查看 BBC 世界服务网站的技术新闻:
$ url=http://news.bbc.co.uk/2/low/technology/default.stm $ lynx -dump $url | head [1]Skip to main content BBC NEWS / TECHNOLOGY [2]Graphics version | [3]Change to UK Edition | [4]BBC Sport Home _________________________________________________________________ [5]News Front Page | [6]Africa | [7]Americas | [8]Asia-Pacific | [9]Europe | [10]Middle East | [11]South Asia | [12]UK | [13]Business | [14]Health | [1