news 2026/5/1 21:03:49

html2text配置全解析:50+参数自定义你的转换效果

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
html2text配置全解析:50+参数自定义你的转换效果

html2text配置全解析:50+参数自定义你的转换效果

【免费下载链接】html2textConvert HTML to Markdown-formatted text.项目地址: https://gitcode.com/gh_mirrors/htm/html2text

html2text是一款强大的HTML转Markdown工具,通过灵活的参数配置,你可以精确控制转换效果。本文将系统介绍50+核心配置参数,帮助你打造个性化的HTML转Markdown解决方案。

基础转换控制参数

文本格式与编码

  • UNICODE_SNOB(默认: False): 启用后使用Unicode字符而非ASCII替代符,适合需要保留原始字符的场景
  • ESCAPE_SNOB(默认: False): 转义所有特殊字符,输出可读性降低但可避免格式问题
  • DECODE_ERRORS(默认: "strict"): 解码错误处理方式,可设置为"ignore"或"replace"

行宽与换行控制

  • BODY_WIDTH(默认: 78): 长行自动换行的宽度,设为0则禁用换行
  • SINGLE_LINE_BREAK(默认: False): 块元素后使用单个换行而非两个(需设置BODY_WIDTH=0)
  • WRAP_LINKS(默认: True): 控制链接是否自动换行

链接与图片处理

链接控制

  • INLINE_LINKS(默认: True): 使用内联链接格式而非引用式链接
  • PROTECT_LINKS(默认: False): 用尖括号保护链接避免换行
  • SKIP_INTERNAL_LINKS(默认: True): 忽略内部锚点链接(如href="#local")
  • IGNORE_ANCHORS(默认: False): 完全忽略所有锚点链接
  • IGNORE_MAILTO_LINKS(默认: False): 忽略mailto邮件链接
  • USE_AUTOMATIC_LINKS(默认: True): 将href与文本相同的绝对链接转换为 格式

图片转换

  • IGNORE_IMAGES(默认: False): 完全忽略图片元素
  • IMAGES_AS_HTML(默认: False): 保留图片的HTML标签而非转换为Markdown
  • IMAGES_TO_ALT(默认: False): 使用alt文本替代图片
  • IMAGES_WITH_SIZE(默认: False): 在alt文本中包含图片尺寸信息
  • DEFAULT_IMAGE_ALT(默认: ""): 图片缺少alt属性时使用的默认文本

列表与表格配置

列表处理

  • WRAP_LIST_ITEMS(默认: False): 控制列表项是否自动换行
  • GOOGLE_LIST_INDENT(默认: 36): Google风格列表的缩进像素值

表格控制

  • PAD_TABLES(默认: False): 为表格添加填充以对齐列
  • WRAP_TABLES(默认: False): 控制表格是否自动换行
  • BYPASS_TABLES(默认: False): 使用HTML格式而非Markdown表格语法
  • IGNORE_TABLES(默认: False): 忽略表格相关标签但保留内容行

样式与格式化

文本样式

  • IGNORE_EMPHASIS(默认: False): 忽略斜体和粗体等强调样式
  • BOLD_TEXT_STYLE_VALUES(默认: ("bold", "700", "800", "900")): 识别为粗体的CSS样式值
  • MARK_CODE(默认: False): 标记代码块
  • BACKQUOTE_CODE_STYLE(默认: False): 使用反引号样式格式化代码

特殊元素处理

  • INCLUDE_SUP_SUB(默认: False): 保留标签
  • OPEN_QUOTE(默认: '"'):标签使用的开始引号
  • CLOSE_QUOTE(默认: '"'):标签使用的结束引号

实用配置组合示例

简洁阅读模式

{ "BODY_WIDTH": 0, # 禁用自动换行 "SINGLE_LINE_BREAK": True, # 紧凑布局 "INLINE_LINKS": True, # 内联链接 "IGNORE_IMAGES": True # 忽略图片 }

学术文档模式

{ "UNICODE_SNOB": True, # 保留Unicode字符 "INCLUDE_SUP_SUB": True, # 保留上标下标 "PAD_TABLES": True, # 格式化表格 "WRAP_TABLES": True # 表格自动换行 }

配置文件与使用方法

所有配置参数都可以在html2text/config.py文件中找到详细定义。通过修改这些参数,或在运行时传递配置字典,你可以精确控制HTML到Markdown的转换过程。

要深入了解各参数的具体效果,可以参考测试目录中的示例文件,如test/normal.html和对应的test/normal.md,观察不同配置下的转换结果差异。

无论是处理网页内容、学术论文还是日常文档,合理配置html2text参数都能帮助你获得理想的Markdown输出效果。通过组合使用这些参数,你可以轻松应对各种HTML转换场景。

【免费下载链接】html2textConvert HTML to Markdown-formatted text.项目地址: https://gitcode.com/gh_mirrors/htm/html2text

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 21:02:31

OneMore:免费开源的OneNote生产力革命,160+功能重塑笔记体验

OneMore:免费开源的OneNote生产力革命,160功能重塑笔记体验 【免费下载链接】OneMore A OneNote add-in with simple, yet powerful and useful features 项目地址: https://gitcode.com/gh_mirrors/on/OneMore 在数字笔记领域,Micros…

作者头像 李华
网站建设 2026/5/1 20:58:29

【仅限头部技术团队内部流通】PHP Swoole v5.1.1 + LLM SDK 2.4.0 长连接安全加固补丁包(含RCE防护层、上下文越权拦截、Token流签名验签模块)

更多请点击: https://intelliparadigm.com 第一章:PHP Swoole v5.1.1 LLM SDK 2.4.0 长连接架构演进与企业级定位 Swoole v5.1.1 的发布标志着 PHP 在高性能异步网络编程领域迈入新阶段,其原生协程调度器优化、TLS 1.3 支持增强及内存泄漏修…

作者头像 李华
网站建设 2026/5/1 20:53:49

如何快速管理AppImage应用:AppImageLauncher完整指南

如何快速管理AppImage应用:AppImageLauncher完整指南 【免费下载链接】AppImageLauncher Helper application for Linux distributions serving as a kind of "entry point" for running and integrating AppImages 项目地址: https://gitcode.com/gh_m…

作者头像 李华
网站建设 2026/5/1 20:50:25

SiYuan快捷键效率对比测试:从新手到专家的终极进阶指南

SiYuan快捷键效率对比测试:从新手到专家的终极进阶指南 【免费下载链接】siyuan A privacy-first, self-hosted, fully open source personal knowledge management software, written in typescript and golang. 项目地址: https://gitcode.com/GitHub_Trending/…

作者头像 李华