news 2026/6/21 23:19:14

xhEditor pdf导入支持文本搜索

张小明

前端开发工程师

1.2k 24

文章封面图 — xhEditor pdf导入支持文本搜索

（扶了扶眼镜，敲着机械键盘开始码字）各位老板，作为山西前端界的一股泥石流，今天给大家表演个"如何在680元预算内实现文档自由"的绝活！

先甩个前端Vue3插件包（附赠React版兼容补丁）：

// XhEditorPlugin.jsexportdefault{install(app){constinitXhEditor=(editor)=>{// 添加文档导入按钮editor.addButton('docImport',{title:'文档导入',icon:'📎',onclick:()=>{constinput=document.createElement('input')input.type='file'input.accept='.docx,.xlsx,.pptx,.pdf'input.onchange=async(e)=>{constfile=e.target.files[0]constformData=newFormData()formData.append('doc',file)// 调用后端解析接口constres=awaitaxios.post('/api/doc-parse',formData)// 插入处理后的HTMLeditor.insertHTML(res.data.content)// 自动上传图片到服务器res.data.images.forEach(img=>{constform=newFormData()form.append('image',img.blob)axios.post('/api/upload',form).then(r=>{editor.insertHTML(``)})})}input.click()}})// 监听Word粘贴事件editor.on('paste',(e)=>{constitems=(e.clipboardData||e.originalEvent.clipboardData).itemsfor(letitemofitems){if(item.type.startsWith('image/')){constblob=item.getAsFile()constform=newFormData()form.append('image',blob)axios.post('/api/upload',form).then(r=>{editor.insertHTML(``)})}}})}app.config.globalProperties.$xhEditor={init:initXhEditor}}}

后端C#版（ASP.NET Core版）：

[ApiController][Route("api/doc-parse")]publicclassDocParseController:ControllerBase{[HttpPost]publicasyncTaskParseDocument(IFormFiledoc){// 文档解析核心代码（开源库组合拳）varresult=newDocumentParser().Parse(doc.OpenReadStream(),doc.FileName);// 处理公式转换result.Content=Regex.Replace(result.Content,@"(\$\$.+?\$\$)",m=>{varlatex=m.Value.Replace("$$","");return$"{LatexToMathML(latex)}";});// 返回处理后的内容returnOk(new{content=result.Content,images=result.Images.Select(img=>new{name=img.FileName,url=$"/uploads/{Guid.NewGuid()}{Path.GetExtension(img.FileName)}"})});}privatestringLatexToMathML(stringlatex){// 调用开源转换库（推荐使用MathJax.NET）usingvarconverter=newMathJaxConverter();returnconverter.Convert(latex);}}

（突然神秘兮兮）关于那个emz/wmz格式的公式图片，这里有个祖传偏方：

用Apache POI提取PPT中的公式
通过ImageMagick转成PNG
用OpenCV做锐化处理
最后用Tesseract OCR识别公式内容

（突然拍桌）但最骚的是微信公众号内容导入！直接祭出这个神器：

// 微信公众号内容抓取functionparseWechatContent(html){constparser=newDOMParser()constdoc=parser.parseFromString(html,'text/html')// 提取正文constcontent=doc.querySelector('#js_content').innerHTML// 处理微信特色样式returncontent.replace(/`]*)>/g,'').replace(/<\/section>/g,'')}

（突然正经）关于预算控制，给大家算笔明白账：

开源库组合（Mammoth.js + SheetJS + PDF.js）→ 0元
阿里云OSS学生认证（6个月免费）→ 0元
人工成本（用爱发电）→ 0元
群内红包基金（薅羊毛指南）→ 见群公告

（突然掏出手机）加群暗号"山西刀削面"，进群即送：

价值99元的《Word公式转换避坑指南》
独家整理的《政府网站样式兼容性测试报告》
群主私藏的《甲方需求翻译词典》

最后透露个暴富秘诀：咱们这个插件包已经支持以下变现姿势

卖给教育局（每个学校需求量极大）
卖给科研机构（公式转换刚需）
卖给政府网站（无障碍阅读要求）
卖给培训机构（题库导入神器）

（突然压低声音）现在进群的前100名，送价值连城的《如何让甲方主动加预算》话术模板！错过再等一年！

代码仓库：https://github.com/shanxi-fe/doc-import-plugin
（突然发现预算超了5元）咳咳…这个…大家众筹一下服务器费用？

将插件目录复制到项目中

引入插件文件

定义插件图标

初始化插件

在工具栏中添加插件按钮

效果

编辑器

导入Word文档,支持doc,docx

导入Excel文档,支持xls,xlsx

粘贴Word

一键粘贴Word内容，自动上传Word中的图片，保留文字样式。

Word转图片

一键导入Word文件，并将Word文件转换成图片上传到服务器中。

导入PDF

一键导入PDF文件，并将PDF转换成图片上传到服务器中。

导入PPT

一键导入PPT文件，并将PPT转换成图片上传到服务器中。

上传网络图片

一键自动上传网络图片，自动下载远程服务器图片，自动上传远程服务器图片

下载示例

点击下载完整示例

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/1 17:57:02

构建多模态搜索系统：以HunyuanOCR为基础建立图文联合索引

构建多模态搜索系统：以HunyuanOCR为基础建立图文联合索引在企业知识库、数字档案馆和智能办公平台中，一个常见的痛点是——成千上万的扫描件、合同图片、发票截图静静躺在服务器里，却“看得见但搜不到”。用户输入“2023年张三的劳动合同”…

作者头像

李华

网站建设 2026/6/21 23:15:24

HunyuanOCR应用于宠物芯片登记：快速录入身份信息与主人联系方式

HunyuanOCR应用于宠物芯片登记：快速录入身份信息与主人联系方式在城市养宠家庭数量持续攀升的今天，如何高效、准确地管理每一只宠物的身份信息，已成为社区治理和公共安全的新课题。传统的宠物登记方式依赖人工填写表格或手动输入系统——拍照…

作者头像

李华

网站建设 2026/6/21 6:31:05

营业执照识别准确率实测：HunyuanOCR对企业注册信息抽取效果

营业执照识别准确率实测：HunyuanOCR对企业注册信息抽取效果在企业服务、金融风控、政务审批等高频场景中，每天都有成千上万张营业执照需要被录入系统。传统做法依赖人工逐字填写或基于模板的OCR工具，效率低、容错差——尤其是面对不同地区、…

作者头像

李华

网站建设 2026/6/17 21:11:12

电商平台商品图OCR：HunyuanOCR抓取促销信息构建比价数据库

电商平台商品图OCR：HunyuanOCR抓取促销信息构建比价数据库在电商价格战日益激烈的今天，一款商品在不同平台之间的价差可能高达30%，而这些差异往往隐藏在复杂的页面设计和图像化的促销标签中。传统的爬虫只能获取结构化数据，面对“…

作者头像

李华

网站建设 2026/6/12 10:31:54

AMD GPU能否运行HunyuanOCR？ROCm兼容性现状与未来支持计划

AMD GPU能否运行HunyuanOCR？ROCm兼容性现状与未来支持路径在AI基础设施日益多元化的今天，越来越多企业开始关注非CUDA生态的可行性。特别是随着国产化替代和异构计算需求上升，开发者们不再满足于“是否能跑模型”，而是追问&…

作者头像

李华

网站建设 2026/6/10 22:42:26

HunyuanOCR进入中小学教育：帮助学生快速提取教材重点文字

HunyuanOCR进入中小学教育：帮助学生快速提取教材重点文字在一间普通的中学教室里，一名学生正为整理物理课本中的公式而苦恼。一页纸上密布着复杂的数学表达式和图表注释，手动抄录不仅耗时，还容易出错。他拿出手机拍下这一页&…

作者头像

李华