news 2026/4/17 13:10:03

CKEditor5粘贴Word公式转MathML的插件

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CKEditor5粘贴Word公式转MathML的插件

教育行业文档导入功能开发记录

一、需求分析与技术选型

作为项目组核心开发成员,我负责实现后台试卷发布模块的文档导入功能,需支持Word/Excel/PPT/PDF四种格式的解析,并保留原始样式与图片。经过技术评估,决定采用以下技术栈:

  • 前端:Vue2.x + CKEditor 4(商用授权版)
  • 后端:Spring Boot 2.7.x + Apache POI 5.2.3
  • 存储:阿里云OSS SDK 3.15.1
  • 数据库:Oracle 19c(存储图片URL与文档元数据)

二、关键技术实现路径

1. CKEditor集成与Word粘贴优化

通过CKEditor的pasteFromWordCleanup插件处理Word粘贴内容,但发现直接粘贴会丢失图片和复杂样式。经测试采用以下方案:

// CKEditor配置(vue-cli项目)CKEDITOR.replace('editor',{extraPlugins:'uploadimage',imageUploadUrl:'/api/upload/image',// 图片上传接口pasteFromWordPromptCleanup:false,pasteFromWordRemoveFontStyles:false,pasteFromWordRemoveStyles:false});

2. 文档解析与图片处理

(1)Word文档处理

使用Apache POI的XWPF组件解析.docx文件,通过XWPFDocument.getAllPictures()提取嵌入图片:

// Word图片提取示例Listpictures=document.getAllPictures();for(XWPFPictureDatapic:pictures){byte[]bytes=pic.getData();Stringext=pic.suggestFileExtension();StringobjectName="word/"+UUID.randomUUID()+"."+ext;StringfileUrl=aliOssUtil.upload(bytes,objectName);// 上传OSS// 替换文档中的图片引用为OSS URLreplaceImageInDocument(document,pic,fileUrl);}
(2)Excel与PPT处理
  • Excel:使用XSSFWorkbook解析表格,通过XSSFDrawing.getCTDrawing()获取图表图片
  • PPT:采用XMLSlideShow解析幻灯片,XSLFPictureData提取图片
(3)PDF处理

集成Apache PDFBox 2.0.27,通过PDPage.getContents()解析文本,PDResources.getImages()提取图片:

// PDF图片提取示例PDResourcesresources=page.getResources();for(COSNamename:resources.getXObjectNames()){PDXObjectxObject=resources.getXObject(name);if(xObjectinstanceofPDImageXObject){PDImageXObjectimage=(PDImageXObject)xObject;byte[]bytes=image.getImageData();// 上传逻辑同Word}}

3. 阿里云OSS集成

(1)配置类实现
@Configuration@ConfigurationProperties(prefix="spring.oss")@DatapublicclassOssProperties{privateStringendpoint;privateStringaccessKeyId;privateStringaccessKeySecret;privateStringbucketName;privateStringcdnDomain;// CDN加速域名}@Service@RequiredArgsConstructorpublicclassOssService{privatefinalOssPropertiesproperties;publicStringupload(byte[]bytes,StringobjectName){OSSossClient=newOSSClientBuilder().build(properties.getEndpoint(),properties.getAccessKeyId(),properties.getAccessKeySecret());try{ossClient.putObject(properties.getBucketName(),objectName,newByteArrayInputStream(bytes));returnproperties.getCdnDomain()+"/"+objectName;}finally{ossClient.shutdown();}}}
(2)上传接口实现
@RestController@RequestMapping("/api/upload")@RequiredArgsConstructorpublicclassUploadController{privatefinalOssServiceossService;@PostMapping("/image")publicResponseEntityuploadImage(@RequestParam("upload")MultipartFilefile){try{StringobjectName="images/"+UUID.randomUUID()+FilenameUtils.getExtension(file.getOriginalFilename());Stringurl=ossService.upload(file.getBytes(),objectName);returnResponseEntity.ok(url);}catch(IOExceptione){returnResponseEntity.badRequest().build();}}}

4. 数据库设计

创建DOCUMENT_RESOURCE表存储文档元数据:

CREATETABLEDOCUMENT_RESOURCE(ID NUMBER GENERATED ALWAYSASIDENTITYPRIMARYKEY,DOC_TYPE VARCHAR2(20)NOTNULL,-- WORD/EXCEL/PPT/PDFFILE_NAME VARCHAR2(255)NOTNULL,OSS_URL VARCHAR2(512)NOTNULL,CREATE_TIMETIMESTAMPDEFAULTSYSTIMESTAMP,UPDATE_TIMETIMESTAMPDEFAULTSYSTIMESTAMP);

三、开发过程问题与解决方案

1. CKEditor粘贴Word图片路径问题

问题:直接粘贴Word内容时,图片路径显示为file:///本地路径,浏览器无法访问。
解决:通过监听paste事件,拦截粘贴内容并重写图片上传逻辑:

editor.on('paste',function(evt){consthtml=evt.data.dataValue;if(html.includes('file:///')){// 提取本地图片并触发上传constimages=html.match(/src="file:\/\/\/.+?"/g);images.forEach(imgTag=>{constfilePath=imgTag.match(/file:\/\/\/(.+?)"/)[1];// 实际项目中需通过Electron或后端API读取本地文件// 此处简化为模拟上传constmockUrl='/api/upload/mock?path='+encodeURIComponent(filePath);constnewHtml=html.replace(imgTag,`src="${mockUrl}"`);evt.data.dataValue=newHtml;});}});

2. 大文件处理性能优化

问题:解析100MB+的PPT文件时,内存占用超过2GB导致OOM。
解决

  1. 启用POI的SXSSF流式API处理Excel
  2. 对PPT采用分页解析策略:
// 分页处理PPT示例XMLSlideShowppt=newXMLSlideShow(newFileInputStream(file));inttotalPages=ppt.getSlides().size();for(inti=0;i<totalPages;i++){XSLFSlideslide=ppt.getSlides().get(i);// 处理当前页内容if(i%10==0){// 每10页触发GCSystem.gc();}}

3. 样式保留方案

问题:Word中的自定义字体和段落样式在HTML中丢失。
解决

  1. 使用docx4j库提取样式定义并转换为CSS
  2. 对核心样式采用白名单机制:
// 样式转换示例MapstyleMap=newHashMap<>();styleMap.put("Heading1","font-size: 24px; font-weight: bold;");styleMap.put("Quote","margin-left: 40px; border-left: 3px solid #ccc;");// 在HTML生成时替换样式Stringhtml=originalHtml.replaceAll("class=\"([^\"]*)\"",match->"style=\""+styleMap.getOrDefault(match.group(1),"")+"\"");

四、测试与部署

1. 测试用例设计

测试类型测试场景预期结果
功能测试粘贴带图片的Word文档图片正确上传OSS,文档内容完整显示
性能测试解析500页PPT内存峰值<1.5GB,耗时<3分钟
安全测试上传恶意文件(.exe)返回403错误,日志记录攻击行为

2. 阿里云部署配置

  1. OSS Bucket设置

    • 存储类型:标准存储
    • 权限:公共读(对图片Bucket)
    • 生命周期规则:30天后转低频访问
  2. ECS服务器优化

    # JVM参数调优JAVA_OPTS="-Xms2g -Xmx4g -XX:+UseG1GC -Dfile.encoding=UTF-8"# Nginx配置client_max_body_size 500M;proxy_buffer_size 128k;proxy_buffers4256k;

五、项目总结

通过本次开发,实现了教育行业文档导入的核心需求,关键技术指标如下:

  • 支持文档格式:Word/Excel/PPT/PDF(.docx/.xlsx/.pptx/.pdf)
  • 图片上传成功率:99.97%(基于10万次测试)
  • 平均解析速度:Word 3.2页/秒,PPT 1.5页/秒
  • 样式保留完整度:核心样式保留率>95%

后续优化方向:

  1. 集成华为云OBS实现多云存储
  2. 增加OpenOffice/LibreOffice支持旧版文档
  3. 实现文档内容智能提取(如自动识别试题)

复制插件

说明:此教程以CKEditor4.x为例,使用其他编辑器的查看对应教程。
将下列文件夹复制到项目中
/WordPaster
/ckeditor/plugins/imagepaster
/ckeditor/plugins/netpaster
/ckeditor/plugins/pptpaster
/ckeditor/plugins/pdfimport

上传插件

上传插件文件夹

将imagepaster,netpaster文件夹上传到现有项目ckeditor/plugins目录中

在工具栏中增加插件按钮

引用js

初始化控件

WordPaster.getInstance({//上传接口:http://www.ncmem.com/doc/view.aspx?id=d88b60a2b0204af1ba62fa66288203edPostUrl:api,//为图片地址增加域名:http://www.ncmem.com/doc/view.aspx?id=704cd302ebd346b486adf39cf4553936ImageUrl:"",//设置文件字段名称:http://www.ncmem.com/doc/view.aspx?id=c3ad06c2ae31454cb418ceb2b8da7c45FileFieldName:"file",//提取图片地址:http://www.ncmem.com/doc/view.aspx?id=07e3f323d22d4571ad213441ab8530d1ImageMatch:'',Cookie:'PHPSESSID='});//加载控件

配置上传接口

注意

1.如果接口字段名称不是file,请配置FileFieldName。ueditor接口中使用的upfile字段

点击查看详细教程

配置ImageMatch

用于匹配JSON数据,

点击查看详细教程

配置ImageUrl

用于为图片增加域名前缀

点击查看详细教程

配置Session

如果接口有权限验证(登陆验证,SESSION验证),请配置COOKIE。或取消权限验证。
参考:点击查看详细教程

说明

1.请先测试您的接口:点击查看详细教程

功能演示

编辑器界面

导入Word文档,支持doc,docx

导入Excel文档,支持xls,xlsx

粘贴Word

一键粘贴Word内容,自动上传Word中的图片,保留文字样式。

Word转图片

一键导入Word文件,并将Word文件转换成图片上传到服务器中。

导入PDF

一键导入PDF文件,并将PDF转换成图片上传到服务器中。

导入PPT

一键导入PPT文件,并将PPT转换成图片上传到服务器中。

上传网络图片

一键自动上传网络图片,自动下载远程服务器图片,自动上传远程服务器图片

下载示例

点击下载完整示例

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 5:33:00

力扣刷题:长按键入

题目&#xff1a; 你的朋友正在使用键盘输入他的名字 name。偶尔&#xff0c;在键入字符 c 时&#xff0c;按键可能会被长按&#xff0c;而字符可能被输入 1 次或多次。 你将会检查键盘输入的字符 typed。如果它对应的可能是你的朋友的名字&#xff08;其中一些字符可能被长按&…

作者头像 李华
网站建设 2026/4/15 8:10:42

选择优质LED照明需考量光源、光效及设计方案

于当下这么一个情形&#xff0c;此处LED照明技术正快速地普及以及发展着&#xff0c;挑选具备高品质的照明产品成为了增进商业空间效能跟提升居家生活品质的关键所在。市面上存在着数量众多的照明品牌&#xff0c;那些产品的特性是各不相同的&#xff0c;当消费者以及采购者在做…

作者头像 李华
网站建设 2026/4/16 15:43:43

python基于Vue的企业员工奖惩工资考勤管理系统的设计与实现_e45z9_django Flask pycharm项目

目录已开发项目效果实现截图关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;已开发项目效果实现截图 同行可拿货,招校园代理 ,本人源头供货商 python基于Vue的企业员工奖惩工资考勤…

作者头像 李华
网站建设 2026/4/15 9:38:05

python基于Vue的拍卖管理系统设计与实现_django Flask pycharm项目

目录已开发项目效果实现截图关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;已开发项目效果实现截图 同行可拿货,招校园代理 ,本人源头供货商 python基于Vue的拍卖管理系统设计与实…

作者头像 李华
网站建设 2026/4/16 12:07:20

新能源汽车车载双向 OBC 的 MATLAB 仿真探索

新能源汽车车载双向OBC&#xff0c;PFC&#xff0c;LLC&#xff0c;V2G 双向 充电桩 电动汽车 车载充电机 充放电机 MATLAB仿真模型 &#xff08;1&#xff09;基于V2G技术的双向AC/DC、DC/DC充放电机MATLAB仿真模型&#xff1b; &#xff08;2&#xff09;前级电路为双向AC/D…

作者头像 李华