news 2026/1/14 6:00:11

【总结】山顶夕景2025年博客年度总结

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【总结】山顶夕景2025年博客年度总结

文章目录

  • 一、2025年年度总结

一、2025年年度总结

很难相信一年就这么过去了,很快又过得很充实,从年初deepseek火了一波后大家都进行复现,很多人利用GRPO训练think推理模型复现ds,再到后来年中各种RL算法遍地开花,比如DAPO、GSPO等;同时多模态大模型也发展很快,去年效果一般的视频生成模型在今年效果已经非常惊艳了,同时也有像阿里全模态qwen-omni这样的“全能”(还是偏多模态理解)的模型出现,给我们看到未来的无限可能。

因为博客之星活动强行逼自己总结一下今年的创作和学习历程,大体可以分为以下几个模块:agent、RL强化学习、多模态大模型、大模型加速推理、推理大模型。有的是工作中需要跟进的方向,有的是自己喜欢的方向,下面对今年产出的博客进行归档分类,简单总结:

一、agent:deepresearch,深度研究智能体,各大LLM,agentic RL,agent范式及其实践

  • agent评测综述:【Agent】Evaluation and Benchmarking of LLM Agents: A Survey
  • 智能体agent入门笔记:【Agent】智能体:在循环中自主调用工具的LLM
  • agent实践:【Agent】自动化深度研究智能体搭建
  • agent协作模式:【LLM-Agent】七种agent协作模式
  • deepresearch优化:【Agent】通义DeepResearch之通过CPT Scaling Agents
  • 多模态agent框架:【MLLM】具有长期记忆的多模态智能体框架M3-Agent
  • 多模态agent模型:【MLLM】语音端到端大模型和Voice Agent发展
  • MCP的应用:【Agent】MCP协议使用 | 用高德MCP Server制作旅游攻略

二、RL:dpo,dpo变体,grpo,dapo,gspo,RL综述

  • deepseek论文笔记:【LLM】Deepseek R1模型之多阶段训练
  • 解析ds训练流程:【LLM】DeepSeek R1训练成本降低分析篇
  • RL的配方&小模型进行RL:【RL】Scaling RL Compute for LLMs | JustRL 1.5b
  • 信息熵理解RL:【LLM-RL】以信息熵的角度理解RL
  • 经典RL算法对比:【LLM-RL】GRPO->DAPO->GSPO训练区别
  • RLVR的可行性:【RL】Does RLVR enable LLMs to self-improve?
  • 监督强化学习(SRL)框架:【RL】Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning
  • 利用ms-swift框架训练GRPO:【LLM】基于ms-Swift大模型SFT和RL的训练实践
  • RLVR中奖励函数设计:【RLVR】GRPO中奖励函数的设计逻辑
  • 大模型学习材料:【LLM】SmolLM3模型训练手册
  • DPO变体算法:【RL】KTO: Model Alignment as Prospect Theoretic Optimization

三、多模态:qwen omni,端到端语音大模型,ovis2.5图生文模型,视频生成

  • 年中总结:【MLLM】2025年多模态技术发展(Better、Faster、Stronger)
  • 全模态大模型汇总:【MLLM】全模态Omni(nvidia/美团/蚂蚁)
  • qwen omni解析:【MLLM】Qwen-Omni系列全模态模型架构和训练
  • 视频生成:【LLM-video】HunyuanVideo-1.5视频生成模型
  • 图生文理解模型:【MLLM】多模态理解Ovis2.5模型和训练流程(更新中)
  • 理解和生成统一:【MLLM】字节BAGEL多模态理解和生成统一模型
  • GLM系列:【MLLM】多模态理解GLM-4.1V-Thinking模型

四、推理加速:投机解码,推理优化综述,sglang框架应用,量化

  • 投机解码:【LLM】大模型投机采样Speculative Sampling推理加速
  • 量化:【LLM】大模型量化方法(权重&激活值量化)| 压测
  • 推理框架:【LLM推理】Sglang推理框架使用入门
  • 框架总结:【LLM算法工程】Megatron-LM | deepspeed | 量化/推理框架

五、推理大模型/模型结构创新:deepseek,kimi等

  • ds考古模型:【LLM】DeepSeekMath-V2模型
  • kimi 1.5:【LLM】kimi 1.5模型架构和训练流程
  • kimi-k2模型:【LLM】Kimi-K2模型架构(MuonClip 优化器等)
  • MOE解析:【LLM】MOE混合专家大模型综述(重要模块&原理)
  • GLM4.5模型:【LLM】GLM-4.5模型架构和原理
  • 混合注意力机制、高稀疏度 MoE结构:【LLM】具有训练推理性价比的Qwen3-Next模型

期待大家对个人学习笔记提出建议和分享自己的算法见解,非常感激,2026年会更好!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/4 18:29:14

从零开始:用Miniconda-Python3.9构建高效AI开发环境

从零开始:用Miniconda-Python3.9构建高效AI开发环境 在深度学习项目频繁迭代的今天,你是否曾遇到过这样的场景:刚为一个图像分类任务升级了PyTorch版本,结果另一个自然语言处理项目突然报错?或者当你把本地能跑通的代码…

作者头像 李华
网站建设 2025/12/30 9:13:12

STB单文件库:C/C++开发的终极轻量级解决方案

STB单文件库:C/C开发的终极轻量级解决方案 【免费下载链接】stb stb single-file public domain libraries for C/C 项目地址: https://gitcode.com/gh_mirrors/st/stb 在当今C/C开发领域,依赖管理往往是项目启动时最头疼的问题之一。STB单文件库…

作者头像 李华
网站建设 2026/1/13 7:13:47

基于java + vue动漫交流与推荐平台系统(源码+数据库+文档)

动漫交流与推荐平台 目录 基于springboot vue动漫交流与推荐平台系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue动漫交流与推荐平台系统 一、…

作者头像 李华
网站建设 2025/12/30 9:12:05

IOPaint终极指南:AI图像修复的完整使用教程

IOPaint终极指南:AI图像修复的完整使用教程 【免费下载链接】IOPaint 项目地址: https://gitcode.com/GitHub_Trending/io/IOPaint 你是否曾经面对珍贵的照片却因为划痕、水印或多余的物体而感到束手无策?传统的图像修复方法不仅耗时耗力&#x…

作者头像 李华
网站建设 2025/12/30 9:12:03

使用Miniconda管理PyTorch虚拟环境的最佳实践

使用Miniconda管理PyTorch虚拟环境的最佳实践 在深度学习项目开发中,一个看似简单却频繁困扰开发者的问题是:为什么代码在同事的机器上能跑通,而在我这里却报错?追溯原因,往往是 torch 版本不一致、CUDA 驱动不匹配&a…

作者头像 李华