news 2026/1/17 9:07:34

菜谱记录创新:边做饭边说步骤自动生成食谱

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
菜谱记录创新:边做饭边说步骤自动生成食谱

菜谱记录创新:边做饭边说步骤自动生成食谱

在厨房里,最怕的不是火候掌握不好,而是刚下锅时灵光一闪的“加点八角提香”,做完菜却怎么也想不起来。更别提一边颠勺一边拿手机录音、事后还要逐字整理笔记——这哪里是做菜,简直是拍vlog。

有没有一种方式,能让人专注于烹饪本身,只用“说”就把全过程记下来?现在有了。借助本地化部署的大模型语音识别系统Fun-ASR,用户真的可以边炒菜边口述步骤,系统自动将语音转为清晰规范的文本食谱,全程无需动手、不联网、不费脑。

这背后并非简单的“语音转文字”。它解决的是一个典型的人机交互困境:当双手被占用、环境嘈杂、表达口语化时,如何让机器准确理解并记录人类的真实意图。而 Fun-ASR 正是在这个场景下交出的一份高分答卷。


这套系统的起点,是一款名为Fun-ASR-Nano-2512的轻量级中文语音识别模型,由钉钉与通义联合推出,专为边缘设备优化设计。它能在普通PC甚至部分高性能开发板上运行,支持CPU、NVIDIA GPU和Apple Silicon MPS加速,推理延迟低至800毫秒以内(RTX 3060环境下),完全满足实时性要求。

更重要的是,所有数据处理都在本地完成——你的“祖传秘方”不会上传到任何云端服务器,隐私安全有保障。对于家庭用户或内容创作者而言,这种“离线可用”的特性几乎是刚需。

工作流程其实很直观:你对着麦克风说“热锅冷油,姜蒜爆香”,系统经过音频采集、语音活动检测(VAD)、特征提取、模型推理、语言规整等一系列处理后,输出一行标准文本:“先热锅冷油,放入姜蒜爆香。”整个过程就像有个隐形助手在旁边听写,而且听得特别准。

为什么能这么准?关键在于三个核心技术环节的协同:VAD分段、热词增强和ITN文本规整。

VAD模块负责判断哪一段是有效语音,哪一段是抽油烟机的轰鸣或锅铲碰撞声。通过设定合理的敏感度阈值,系统能精准切出真正的说话片段,避免把“滋啦”一声误识别成某个动词。这对于厨房这种高噪声环境至关重要。

但光是“听见”还不够,还得“听懂”。比如你说“勾芡收汁”,通用语音助手可能听成“狗欠收字”;说“文火焖十分钟”,也可能变成“蚊虫闷十分钟”——这些啼笑皆非的错误,在专业术语密集的烹饪语境中屡见不鲜。

Fun-ASR 的应对策略是引入热词机制。你可以提前导入一份自定义词汇表,例如:

酱油两勺 料酒一勺 焯水去腥 小火慢炖 大火收汁 冰糖上色

一旦启用,模型会在解码阶段优先匹配这些词条,大幅降低歧义概率。实测表明,在添加常见调料与技法词库后,专业术语识别准确率提升超过40%。

而 ITN(Inverse Text Normalization)功能则解决了另一个痛点:口语表达与书面书写的差异。比如你随口说“二零二五年三月十二号我第一次做红烧肉”,系统不会原样保留,而是自动规整为“2025年3月12日我第一次做红烧肉”。数字、日期、单位全部标准化,省去后期手动修改的麻烦。


虽然 Fun-ASR 原生模型并不直接支持流式识别(如Conformer Streaming架构那种逐帧输出的方式),但系统通过“VAD动态分段 + 快速批量推理”的组合拳,实现了近似实时的效果。

具体来说,前端通过浏览器的 MediaRecorder API 捕获麦克风输入,每2~3秒切一次音频块,立即发送给后端/api/transcribe_stream接口。后端调用模型对每个短片段进行独立识别,并按时间顺序拼接结果。由于单段推理速度极快(GPU下约0.3倍实时率),用户几乎感觉不到延迟。

Python 后端的核心逻辑如下:

import torch from funasr import AutoModel # 初始化模型(GPU 加速) model = AutoModel(model="funasr-nano-2512", device='cuda:0') def stream_transcribe(audio_chunk): """ 模拟流式识别函数 :param audio_chunk: numpy array, shape=(T,), dtype=float32 :return: str, 识别文本 """ result = model.generate(audio_chunk, hotword="酱油,料酒,八角") return result["text"]

这段代码看似简单,却是整个实时体验的技术支点。在 WebUI 界面中,前端通过 WebSocket 或 SSE 协议接收逐段返回的文字,动态刷新显示区域,形成连续滚动的“听写效果”。尽管不是严格意义上的流式建模,但在资源受限设备上的确是一种高效可行的替代方案。

除了实时记录,系统还提供了强大的批量处理与历史管理能力。如果你有一堆过去的烹饪录音需要整理,可以直接拖拽多个文件上传,系统会按队列依次处理,最终生成 CSV 或 JSON 格式的结构化输出。

所有识别结果都会存入本地 SQLite 数据库(默认路径webui/data/history.db),表结构设计简洁实用:

CREATE TABLE transcriptions ( id INTEGER PRIMARY KEY, filename TEXT, filepath TEXT, language TEXT, raw_text TEXT, normalized_text TEXT, hotwords TEXT, created_at DATETIME DEFAULT CURRENT_TIMESTAMP );

每条记录都带有唯一ID和时间戳,支持关键词搜索、导出文档、删除旧项等操作。久而久之,这就成了你的个人“语音菜谱库”——想复刻三个月前那道惊艳全家的酱香排骨?只需在搜索框输入“排骨”,相关记录立刻浮现。

为了保证稳定性,系统默认采用串行处理模式(批大小=1),避免多任务并发导致内存溢出。尤其在低配设备上,这种“保守策略”反而提升了整体可靠性。当然,如果你使用的是高端显卡,也可以手动调整参数以提高吞吐效率。


实际应用中,这套方案已经展现出明显的场景适配优势。打开浏览器访问http://localhost:7860,进入“实时识别”页面,点击麦克风开始说话:

“先把鸡腿肉切块,冷水下锅焯水去腥,水开捞出备用。然后热锅倒油,放冰糖炒糖色……”

几秒钟后,屏幕上就出现了规整后的文本:“先将鸡腿肉切块,冷水下锅焯水去腥,水开后捞出备用。随后热锅倒入食用油,放入冰糖炒制糖色。”

过程中即使背景有抽油烟机运转声,VAD也能有效过滤静音段;若出现“适量盐”这类模糊表达,也不必强求精确识别——保留原话即可,后续人工补充更符合真实使用习惯。

针对常见问题,也有一些最佳实践建议:

  • 提前配置热词:建立常用调料、火候术语、地方做法的专属词库,显著提升识别一致性。
  • 控制语速节奏:每句话之间留出半秒以上停顿,有助于VAD准确分割语音段。
  • 优先使用GPU:在设置中选择CUDA设备,可使识别速度提升3倍以上;若遇显存不足,尝试关闭其他程序或重启服务。
  • 定期备份数据库:随着记录增多,history.db 文件可能变大,建议定期归档以防查询变慢。

从技术角度看,Fun-ASR 的价值不仅在于其高精度识别能力,更在于它重新定义了人与AI的协作方式。它不是让你去适应机器的语言规则,而是让机器学会理解你在特定场景下的表达习惯。

在烹饪之外,这套系统同样适用于会议纪要整理、课堂听讲记录、访谈速记等多个高频语音输入场景。它的本质,是一个可定制、可扩展、可私有化的个人语音代理。

未来,随着模型进一步轻量化和真正流式架构的落地,这类系统有望集成进智能音箱、穿戴设备甚至嵌入式厨电中,实现“无感记录”——你甚至不需要意识到自己正在被记录。

而现在,借助 Fun-ASR WebUI,普通人也能零门槛搭建属于自己的语音助手。不需要API密钥,不必担心数据泄露,只要一台电脑、一个麦克风,就能开启 AI 赋能生活的第一步。

某种意义上,这才是人工智能该有的样子:不喧哗,不打扰,只在你需要的时候,默默记下你说过的每一句话。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/5 5:12:45

零基础入门:如何在Windows 10和Windows 11上正确部署Multisim环境

从零开始搭建 Multisim 仿真环境:Windows 10/11 安装全攻略 你是不是也遇到过这种情况?刚下载好 Multisim 安装包,满怀期待地双击 setup.exe ,结果弹出一堆错误提示:“缺少 VCRUNTIME140.dll”、“许可证未找到”、…

作者头像 李华
网站建设 2026/1/11 21:51:25

Fun-ASR WebUI使用全攻略:从安装到批量处理语音文件

Fun-ASR WebUI使用全攻略:从安装到批量处理语音文件 在远程办公、线上会议和内容创作日益普及的今天,如何高效地将大量录音转化为可编辑的文字,已成为许多职场人和创作者面临的共同挑战。传统的语音识别工具要么依赖复杂的命令行操作&#xf…

作者头像 李华
网站建设 2026/1/5 5:11:28

GPT-OSS-120B 4bit量化版:本地极速运行新体验

导语:OpenAI开源大模型GPT-OSS-120B推出4bit量化版本,通过Unsloth技术优化,实现了在消费级硬件上的高效运行,为开发者和AI爱好者带来了本地化部署的全新可能。 【免费下载链接】gpt-oss-120b-unsloth-bnb-4bit 项目地址: https…

作者头像 李华
网站建设 2026/1/5 4:58:51

国际版推出预期:Fun-ASR进军东南亚市场可能性

Fun-ASR 出海东南亚:轻量语音识别的本地化突围之路 在曼谷的共享办公空间里,一家初创企业正用泰语讨论产品原型,录音文件随后被上传至内部系统自动生成会议纪要;雅加达的客服中心,坐席人员一边接听印尼语电话&#xff…

作者头像 李华
网站建设 2026/1/5 4:58:46

单个音频超过1小时?Fun-ASR分片识别策略建议

单个音频超过1小时?Fun-ASR分片识别策略建议 在企业会议录音动辄两三个小时的今天,把一段长达90分钟的音频丢进语音识别系统,期望一键生成完整纪要——这种理想场景往往会被现实打断:模型报错“输入过长”,转写结果语义…

作者头像 李华
网站建设 2026/1/16 3:47:06

多语种混合识别难题:Fun-ASR如何应对code-switching

多语种混合识别难题:Fun-ASR如何应对code-switching 在今天的跨国会议中,你可能刚听到一句“请确认 project timeline”,紧接着就是“这个需求要在Q2落地”。这种中英混杂的表达方式早已不是个别现象,而是全球化协作下的常态。然…

作者头像 李华