马斯克又开源了。。。-开发者社区

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

最近一周AI科技圈又发生了啥新鲜事？

Qwen3-TTS全家桶开源

Qwen3-TTS系列模型正式开源，包含1.7B和0.6B两种参数规模，基于自研Qwen3-TTS-Tokenizer-12Hz多码本语音编码器，支持中文、英文、日语、韩语等10种主流语言及多种方言音色；该系统采用Dual-Track双轨架构，实现首字输入后即刻输出音频、端到端延迟低至97ms的流式生成能力，并支持通过自然语言指令控制音色、情感、节奏等属性。在性能方面，Qwen3-TTS-VoiceClone在跨语种克隆任务中取得1.835%平均词错率和0.789说话人相似度，Qwen3-TTS-Instruct在长语音合成中英词错率为2.36%/2.81%，而其Tokenizer在LibriSpeech测试集上PESQ得分达3.21（宽带）和3.68（窄带），STOI为0.96，UTMOS为4.16，说话人相似度达0.95。项目已在ModelScope、Hugging Face和GitHub同步开源，并提供API调用支持

https://github.com/QwenLM/Qwen3-TTS

文心大模型5.0正式版发布

文心大模型5.0正式版已上线，参数规模达2.4万亿，采用原生全模态统一建模架构，支持文本、图像、音频、视频等多种模态的输入与输出；在40余项权威基准评测中，其语言与多模态理解能力超越Gemini-2.5-Pro、GPT-5-High等模型，图像与视频生成能力达到全球领先水平。该模型基于超大规模混合专家结构，激活参数比低于3%，并通过思维链与行动链的端到端多轮强化学习训练提升工具调用能力。现场演示包括根据教程视频自动生成可运行前端代码，以及模拟王熙凤风格撰写“大观园资产重组方案”。目前个人用户可通过文心APP和官网体验，企业及开发者可通过百度千帆平台调用。此外，“文心导师”计划已汇聚835位来自十余个行业及多学科领域的专家，持续优化模型的专业性与价值观对齐

https://mp.weixin.qq.com/s/1n3Pog6rZ-l27PSVQqKHgg

腾讯CodeBuddy Code 2.0 重磅升级

腾讯推出 CodeBuddy Code 2.0 版本，重点开放 CodeBuddyAgent SDK 与 APIKey 集成能力，支持通过 Plan 模式实现自然语言编程的透明化，并基于 ACP 协议标准化输出 Agent 能力；目前该工具已在腾讯内部被1.2万名员工及15+核心业务深度使用。新版本全面兼容开发者社区生态，支持 Skills 技能体系、Plugin 插件市场、自定义 Subagents 与 AgentHooks 管家，便于迁移现有 CLI Agent 生态内容。同时，系统集成 TencentOS，在 Container/E2B 隔离沙箱环境中运行，提供 Bash 工具强制文件系统与网络隔离，保障代码执行安全。功能层面，CodeBuddy Code 2.0 增强了对上百万代码的工程记忆与理解能力，支持 GLM-4.7、GPT-5.2Codex 等国内外高级模型，并上线企业版，提供统一身份认证、研效度量、安全审计及组织知识资产托管分发能力；团队实践显示，近4个月内其 AI 自主生成代码比例接近100%

https://mp.weixin.qq.com/s/mXziYWAqRTP-I7UxmKyRTg

面壁智能联合多机构开源本地化深度调研智能体AgentCPM-Report

由清华大学自然语言处理实验室、中国人民大学、面壁智能与OpenBMB社区联合研发的AgentCPM-Report正式开源，该系统基于8B参数端侧模型，通过平均40轮深度检索与近100轮思维链推演，在DeepResearch Bench、Deep Consult和DeepResearch Gym三大评测基准上达到甚至超越顶级闭源系统的综合性能，尤其在洞察性指标排名第一；其采用“边写作边规划”的迭代精炼框架，将万字长文任务拆解为可执行微目标，并结合UltraRAG框架支持完全离线部署，可直接挂载本地PDF、TXT等私有文档构建知识库，实现数据不出域的专业报告生成，目前已在GitHub、HuggingFace、ModelScope等多个平台开放

https://github.com/OpenBMB/AgentCPM

阶跃星辰开源10B参数视觉语言模型Step3-VL-10B

阶跃星辰开源了10B参数的多模态模型Step3-VL-10B，该模型在视觉感知、逻辑推理、数学竞赛和通用对话等基准测试中达到同规模SOTA水平，并在多项指标上媲美甚至超越参数量达106B至235B的开源模型（如GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B）及闭源旗舰模型（如Gemini 2.5 Pro、Seed-1.5-VL）。其核心优势源于三项关键技术：基于1.2T高质量多模态数据的全参数端到端联合预训练、历经1400余次迭代的大规模多模态强化学习，以及创新的并行协调推理机制PaCoRe。模型在MMMU、MathVision、AIME 25/24、BLINK、CVBench、OmniSpatial等评测中表现突出，尤其在竞赛数学中接近满分；同时支持GUI操作、复杂文档解析和高精度计数等任务，可部署于手机、电脑及嵌入式设备。项目已开源Base与Thinking两个版本，提供HuggingFace、ModelScope等下载渠道。

https://stepfun-ai.github.io/Step3-VL-10B/

𝕏平台开源推荐算法，全面采用Grok Transformer架构实现零人工特征工程

𝕏（原Twitter）正式开源其推荐算法核心代码，新系统基于与xAI的Grok模型相同的Transformer架构，摒弃传统人工特征工程，完全通过用户交互行为（如点赞、转发、拉黑等）自动学习内容相关性；推荐流程分为“召回”和“评分”两阶段——前者由内部系统“Thunder”检索关注账号动态，外部系统“Phoenix Retrieval”挖掘潜在兴趣内容，后者通过修改版Grok-1大模型预测用户对帖子采取各类行为的概率，并结合加权公式计算最终得分；系统在评分前后均设过滤机制，排除重复、违规或已读内容，并引入作者多样性策略防止刷屏；当前开源内容包括核心逻辑、Rust编写的候选处理管道及完整架构文档，𝕏承诺每四周更新一次并提供开发者说明

https://github.com/xai-org/x-algorithm

智谱开源发布GLM-4.7-Flash，免费开放调用

智谱正式开源并免费开放调用新一代轻量化语言模型GLM-4.7-Flash，该模型总参数量为30B，激活参数量仅3B，属于混合思考架构，在SWE-bench Verified和τ²-Bench等主流基准测试中综合表现优于gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507等同级开源模型，达到当前开源SOTA水平；模型适用于编程（前后端任务）、中文写作、翻译、长文本处理及情感/角色扮演等通用场景，并已在智谱开放平台BigModel.cn上线，替代即将于1月30日下线的GLM-4.5-Flash，旧版请求将自动路由至新模型；开源版本已同步发布于Hugging Face与魔搭社区

https://huggingface.co/zai-org/GLM-4.7-Flash

幻觉率不到3%，王小川把医生版的DeepSeek免费了

百川智能推出面向医疗场景的新一代大模型Baichuan-M3 Plus，其在真实临床环境下将医学问题推理能力显著提升，幻觉率仅为2.6%，比GPT-5.2低超30%，刷新医疗模型低幻觉世界纪录；该模型延续Baichuan-M3首创的Fact-Aware RL（事实感知强化学习）机制，并结合“六源循证”（EAR）方法与“证据锚定”技术，确保每条医学结论均可逐句溯源至权威文献，引用准确率超95%。为推动AI在医疗领域的普及，百川启动“海纳百川计划”，向所有服务医务工作者的机构免费提供M3 Plus API，并向开发者开放15天限时免费体验；通过Gated Eagle-3投机解码框架和面向MoE架构的定制量化方案，模型推理成本较上一代降低70%，每Token成本低于通用模型如DeepSeek和通义千问