010、构建指令数据集：Self-Instruct与人工撰写策略-开发者社区

构建指令数据集：Self-Instruct与人工撰写策略

昨天深夜调试模型时，又遇到了那个熟悉的问题：模型对“帮我写个排序算法”这种通用指令响应良好，但一旦问“用C在STM32上实现一个带超时检测的冒泡排序”，输出就开始胡言乱语。这不是模型能力问题，而是指令数据集的覆盖度问题——我们的训练数据里缺少那些真正有工程价值的、场景具体的指令。

指令数据的核心矛盾

所有做微调的人都会面临这个根本矛盾：高质量的人工标注成本极高，但自动生成的数据又往往缺乏深度。上周有个团队给我看他们的微调数据集，三千条指令里有两千八百条是“写一首关于春天的诗”的变体，这样的模型在实际工程场景中根本用不起来。

Self-Instruct的实战改造

直接套用Self-Instruct的原始论文方法效果有限，我们需要做工程化改造。下面是我在多个项目中迭代出来的生成流程：

defgenerate_instruction_batch(seed_tasks,num_generations=5):""" 基于种子任务批量生成指令 seed_tasks: 人工写的几十条高质量种子指令 这里踩过坑：种子指令的质量直接决定生成上限 """instructions=[]fortaskinseed_tasks:# 关键：不是简单改写，而是做场景扩展expanded=expand_engineering_scenarios(task)foriteminexpanded:

业务部门绕过IT，问题反而更多了？影子IT背后的管理失控风险

一、一个越来越普遍的现象：IT不再是唯一入口在很多企业的日常运作中，IT部门曾经是所有技术资源的唯一入口。无论是系统部署、软件采购，还是账号权限管理，几乎所有与IT相关的需求，都需要通过IT服务台来完成。这种模式的…

李华

MySQL 查询：按2017年平均成绩降序列出所有学生姓名及均分

本文详解如何在 mysql 中正确联结学生表与成绩表，筛选2017年数据，并分组计算每位学生的平均成绩，最终按均分从高到低排序输出完整学生名单。本文详解如何在 mysql 中正确联结学生表与成绩表，筛选2017年数据，并分…

李华

中小企业做品牌升级，应该先做品牌定位还是先做短视频？

这几年，很多中小企业一谈品牌升级，第一反应就是做短视频。原因也不难理解。短视频看得见、摸得着，发出去马上有播放、有点赞、有咨询，看起来比“品牌定位”更直接，也更像是在做事。所以不少老板会觉得，先把…

李华

PHY Eye Monitor 全栈技术说明书

1. 文档目的与范围本文档系统介绍 PHY 中集成 Eye Monitor 模块的完整技术体系，覆盖：硬件层：采样原理、时序与电压扫描、误码统计、状态机、寄存器模型、性能边界。固件层：初始化、任务编排、扫描策略、数据校准、异常处理。软件层…

李华

春荐送清欢

风是最先醒的信使，携着融雪的清冽，漫过解冻的河床，轻吻每一寸沉睡的土地。它褪去了冬的凛冽，裹着草木的嫩芽香，掠过窗棂时，便把春的絮语，悄悄织进人间。晨光揉碎在薄雾里，是温柔的纱…

李华

《AI怎么一步步变聪明的？》系列（二）当神经网络开始“专精”，世界改变了

各位好，咱们接着上回书说。上回书咱们聊到，神经网络在地下室里熬了二十年，终于靠着“刷题”在银行识别支票上露了脸。但您别看它能干活了，其实那时候的AI，脑子里主打一个“混乱”。这就好比一个刚学会认字的孩子&#…

李华