TVB新闻播报智能化升级:基于ms-swift的多模态融合实践
在粤港澳大湾区加速推进科技与产业深度融合的今天,传统媒体正面临前所未有的转型压力。以TVB为代表的区域性主流媒体,如何在保持内容专业性的同时,提升新闻生产效率、降低人力成本,并实现跨平台实时分发?这不仅是传媒行业的共性挑战,更是一个典型的“AI+行业”落地场景。
答案或许就藏在一个名字听起来并不起眼的技术框架中——ms-swift。这个由魔搭社区推出的大模型训练与部署一体化工具链,正在悄然改变AI在真实业务系统中的应用方式。它不再只是实验室里的“黑箱”,而是成为像TVB这样拥有复杂内容处理流程的企业手中的“工程化利器”。
让我们从一个具体问题出发:一档早间新闻节目需要在短短两小时内完成素材收集、稿件撰写、语音合成和视频播报。过去,这一过程依赖记者、编辑、配音员等多角色协作,任何环节延误都会影响播出时效。而现在,TVB尝试用一套智能系统替代80%的基础工作流——而这套系统的“大脑”正是基于ms-swift微调并部署的Qwen-VL多模态大模型。
这套系统的核心能力之一是理解粤语语境下的本地化表达。例如,“港珠澳大桥通车十周年”这类事件不仅涉及地理信息,还包含政策背景与公众情绪。通用大模型往往只能泛泛而谈,但通过在ms-swift平台上使用LoRA对Qwen-7B进行轻量微调,仅需单卡A10G即可让模型掌握超过2,000个本地术语与惯用表达,训练成本下降超70%。更重要的是,这种微调不破坏原有语言能力,确保了模型在处理普通话新闻时依然表现稳健。
当模型具备了“听懂”和“读懂”的能力后,下一步就是整合多源信息。现实中的新闻素材往往是混杂的:一段采访视频附带字幕截图、现场录音、文字速记稿,甚至还有社交媒体评论。传统做法是人工比对拼接,耗时且易错。而ms-swift内置的MultiModalDataset类可以直接加载图像、音频与文本,并自动调用Whisper做ASR转录、Qwen-VL解析画面内容、OCR提取屏幕文字。整个预处理流程被封装为可配置的数据管道,支持Decord、PyAV等多种解码后端,即便是老旧格式的录像带数字化文件也能顺利处理。
有意思的是,在实际调试过程中,团队发现视频帧采样频率对摘要质量影响显著。最初设定每秒采3帧,结果模型频繁误判主持人换衣为“多人出镜”。经过反复验证,最终确定每秒1~2帧最为平衡:既能捕捉关键动作(如手势强调),又不会因输入过长导致显存溢出。为此,他们启用了梯度检查点(gradient checkpointing)技术,进一步将显存占用压低40%,实现了在有限资源下稳定训练。
如果说多模态理解是“输入端”的突破,那么输出质量的控制则决定了系统能否真正上线。这里的关键在于——机器写出来的稿子,能不能让资深编辑点头认可?
TVB的做法颇具启发性:他们没有简单采用监督微调(SFT),而是构建了一个包含5,000组偏好数据集的人类对齐训练体系。每组数据都来自真实编辑修改记录:“原始生成句 vs 修改后版本”,由两名以上资深审校人员共同标注优劣。然后利用ms-swift中的DPOTrainer模块进行直接偏好优化。这种方法绕开了传统PPO所需的奖励模型与强化学习采样,流程简化的同时,训练稳定性反而更高。
效果立竿见影:模型生成稿件的审核通过率从最初的45%跃升至82%。一位从业二十年的新闻主编评价道:“现在的初稿已经接近实习生三年后的水平。” 更重要的是,DPO允许模型学习到一些难以明文规定的“潜规则”,比如“避免使用‘据悉’开头”、“灾难报道中禁用感叹号”等风格约束,这些细节恰恰是媒体公信力的基石。
当然,再聪明的模型也得跑得起来。面对早高峰每分钟数千次请求的压力测试,推理延迟成了最后一道门槛。如果每次生成标题加摘要耗时超过300ms,整个推送链条就会积压崩溃。为此,团队选择了LmDeploy作为推理引擎,而非更流行的vLLM。原因很简单:LmDeploy对中文场景有专门优化,尤其在处理长文本输出时表现出更低的P99延迟;同时支持AWQ 4-bit量化与张量并行(TP=2),使得Qwen-VL-Chat这样的70亿参数模型可在双卡A10上平稳运行。
lmdeploy serve api_server ./workspace/model --backend turbomind --tp 2一句简单的启动命令背后,是国产推理框架在底层做的大量适配工作。比如针对昇腾NPU的算子融合、内存池复用机制等。而在客户端,系统完全兼容OpenAI API格式,这意味着前端无需重写任何调用逻辑:
import openai openai.api_key = "EMPTY" openai.base_url = "http://localhost:23333/v1" response = openai.chat.completions.create( model="qwen-7b", messages=[{"role": "user", "content": "请根据以下画面生成新闻标题"}] )这种无缝对接能力,极大降低了现有系统的改造成本,也让AI能力得以快速嵌入到已有工作流中。
回看整个系统架构,它的设计哲学非常清晰:不是追求极致参数规模,而是强调工程闭环的完整性与可持续性。从数据采集、清洗、训练、评测到部署监控,每一个环节都有对应工具支撑。ms-swift提供的Web UI界面,甚至让非算法背景的产品经理也能参与模型效果评估,直观看到不同配置下的BLEU分数变化或响应时间分布。
值得一提的是,该系统并非“一次性项目”。每次人工编辑对自动生成稿的修改,都会被自动回传至训练数据库,形成持续迭代的飞轮。几个月下来,模型已累计吸收超过1.2万条反馈样本,逐渐形成了独特的“TVB风格”。这种动态进化能力,才是AI系统真正融入组织肌理的表现。
| 痛点 | 解决方案 | 实际成效 |
|---|---|---|
| 手工撰写耗时长 | LoRA微调Qwen生成初稿 | 撰写效率提升60% |
| 多源信息整合难 | 多模态预处理流水线 | 关键信息遗漏率降至5%以下 |
| 输出风格不稳定 | DPO对齐编辑偏好 | 审核返工率下降58% |
| 高并发响应慢 | LmDeploy + AWQ量化 | QPS达120,P99延迟<300ms |
这些数字背后,是一整套技术组合拳的协同发力。轻量微调让中小企业“训得起”,分布式训练+FSDP支撑“推得动”,人类对齐保障“管得住”,而推理加速则兑现了商业场景所需的SLA承诺。
展望未来,随着更多垂直领域小模型(如粤语语音识别专用模型)在魔搭社区开源,以及国产硬件(如昇腾910B)性能持续释放,类似TVB这样的智能化升级将不再是头部机构的专属。ms-swift所代表的“一站式赋能平台”模式,正在降低AI应用的技术鸿沟,使区域媒体、地方政务、中小制造企业都能以较低成本构建自己的智能中枢。
特别是在粤港澳大湾区这样一个语言多元、文化交融、经济活跃的特殊区域,AI的价值不仅体现在效率提升,更在于它能帮助传统行业跨越地域与文化的边界,实现真正意义上的融合发展。而这一切的起点,也许只是一个名为swift.py的脚本文件,和一群愿意相信技术可以改变内容生产的工程师。