html2text配置全解析:50+参数自定义你的转换效果
【免费下载链接】html2textConvert HTML to Markdown-formatted text.项目地址: https://gitcode.com/gh_mirrors/htm/html2text
html2text是一款强大的HTML转Markdown工具,通过灵活的参数配置,你可以精确控制转换效果。本文将系统介绍50+核心配置参数,帮助你打造个性化的HTML转Markdown解决方案。
基础转换控制参数
文本格式与编码
- UNICODE_SNOB(默认: False): 启用后使用Unicode字符而非ASCII替代符,适合需要保留原始字符的场景
- ESCAPE_SNOB(默认: False): 转义所有特殊字符,输出可读性降低但可避免格式问题
- DECODE_ERRORS(默认: "strict"): 解码错误处理方式,可设置为"ignore"或"replace"
行宽与换行控制
- BODY_WIDTH(默认: 78): 长行自动换行的宽度,设为0则禁用换行
- SINGLE_LINE_BREAK(默认: False): 块元素后使用单个换行而非两个(需设置BODY_WIDTH=0)
- WRAP_LINKS(默认: True): 控制链接是否自动换行
链接与图片处理
链接控制
- INLINE_LINKS(默认: True): 使用内联链接格式而非引用式链接
- PROTECT_LINKS(默认: False): 用尖括号保护链接避免换行
- SKIP_INTERNAL_LINKS(默认: True): 忽略内部锚点链接(如href="#local")
- IGNORE_ANCHORS(默认: False): 完全忽略所有锚点链接
- IGNORE_MAILTO_LINKS(默认: False): 忽略mailto邮件链接
- USE_AUTOMATIC_LINKS(默认: True): 将href与文本相同的绝对链接转换为 格式
图片转换
- IGNORE_IMAGES(默认: False): 完全忽略图片元素
- IMAGES_AS_HTML(默认: False): 保留图片的HTML标签而非转换为Markdown
- IMAGES_TO_ALT(默认: False): 使用alt文本替代图片
- IMAGES_WITH_SIZE(默认: False): 在alt文本中包含图片尺寸信息
- DEFAULT_IMAGE_ALT(默认: ""): 图片缺少alt属性时使用的默认文本
列表与表格配置
列表处理
- WRAP_LIST_ITEMS(默认: False): 控制列表项是否自动换行
- GOOGLE_LIST_INDENT(默认: 36): Google风格列表的缩进像素值
表格控制
- PAD_TABLES(默认: False): 为表格添加填充以对齐列
- WRAP_TABLES(默认: False): 控制表格是否自动换行
- BYPASS_TABLES(默认: False): 使用HTML格式而非Markdown表格语法
- IGNORE_TABLES(默认: False): 忽略表格相关标签但保留内容行
样式与格式化
文本样式
- IGNORE_EMPHASIS(默认: False): 忽略斜体和粗体等强调样式
- BOLD_TEXT_STYLE_VALUES(默认: ("bold", "700", "800", "900")): 识别为粗体的CSS样式值
- MARK_CODE(默认: False): 标记代码块
- BACKQUOTE_CODE_STYLE(默认: False): 使用反引号样式格式化代码
特殊元素处理
- INCLUDE_SUP_SUB(默认: False): 保留和标签
- OPEN_QUOTE(默认: '"'):
标签使用的开始引号
- CLOSE_QUOTE(默认: '"'):
标签使用的结束引号
实用配置组合示例
简洁阅读模式
{ "BODY_WIDTH": 0, # 禁用自动换行 "SINGLE_LINE_BREAK": True, # 紧凑布局 "INLINE_LINKS": True, # 内联链接 "IGNORE_IMAGES": True # 忽略图片 }学术文档模式
{ "UNICODE_SNOB": True, # 保留Unicode字符 "INCLUDE_SUP_SUB": True, # 保留上标下标 "PAD_TABLES": True, # 格式化表格 "WRAP_TABLES": True # 表格自动换行 }配置文件与使用方法
所有配置参数都可以在html2text/config.py文件中找到详细定义。通过修改这些参数,或在运行时传递配置字典,你可以精确控制HTML到Markdown的转换过程。
要深入了解各参数的具体效果,可以参考测试目录中的示例文件,如test/normal.html和对应的test/normal.md,观察不同配置下的转换结果差异。
无论是处理网页内容、学术论文还是日常文档,合理配置html2text参数都能帮助你获得理想的Markdown输出效果。通过组合使用这些参数,你可以轻松应对各种HTML转换场景。
【免费下载链接】html2textConvert HTML to Markdown-formatted text.项目地址: https://gitcode.com/gh_mirrors/htm/html2text
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考