AutoFSM框架：多智能体协作的Verilog代码生成与验证-开发者社区

1. AutoFSM框架概述：多智能体协作的FSM代码生成革命

在数字系统设计领域，有限状态机(FSM)作为核心控制架构已经服役超过半个世纪。从早期的通信协议解析到现代处理器指令调度，FSM通过其明确的状态转换机制为数字系统提供结构化控制逻辑。然而随着设计复杂度的提升，传统手工编写Verilog代码的方式暴露出三个致命问题：首先是语法错误率高，研究表明LLM生成的Verilog代码中55%的错误属于语法范畴；其次是调试效率低下，工程师平均需要花费30%的开发时间在查找基础语法错误上；最后是对测试基准的重度依赖，现有方案需要人工编写大量测试用例才能完成功能验证。

针对这些痛点，深圳大学团队提出的AutoFSM框架带来了范式级的解决方案。这个基于多智能体协作的系统通过三大技术创新重构了FSM开发流程：

结构化中间表示(IR)：采用JSON格式的中间层描述，将自然语言到Verilog的转换过程解耦为两个阶段。第一阶段由LLM将设计需求转换为机器可读的JSON描述，第二阶段通过专用工具链(fsm2sv)将其编译为Verilog。这种设计使得语法错误率从基线模型的14.93%降至0.75%。
SystemC验证生态：创新性地将SystemC建模与自动化测试平台生成集成到框架中。通过构建参考模型与设计代码的差分测试系统，实现了错误定位精度提升40%以上。测试用例生成完全自动化，摆脱了对人工编写测试基准的依赖。
多智能体分工协作：框架包含6个专业智能体：FSMExtractor负责需求解析，Verifier验证IR准确性，Coder生成Verilog代码，Tester构建测试环境，Fixer修正错误，Judger分析失败根源。这种分工使得复杂任务的完成率提升58.21%，远超单智能体架构。

关键突破：传统方案中语法错误与功能错误往往交织在一起，导致调试过程如同"雾中找路"。AutoFSM通过IR层隔离语法问题，再结合SystemC的精准错误定位，实现了问题域的清晰划分。

实验数据表明，在相同基座模型(DeepSeek-V3)下，AutoFSM在自建基准测试集SKT-FSM上的通过率达到58.21%，较开源框架MAGE提升11.94%。更值得注意的是，在复杂任务(Hard级别)上的优势达到30.77%，展现出处理复杂控制逻辑的突出能力。

2. 核心架构解析：从设计描述到验证的完整闭环

2.1 分层协作的智能体系统

AutoFSM的智能体架构采用分层决策机制，每个智能体都具备特定领域的专家能力。图2a展示了六个智能体的协作关系，其工作流程可以分解为四个关键阶段：

需求提取与IR生成：
- FSMExtractor智能体首先解析自然语言设计描述，识别关键要素包括：状态集合、转移条件、输出逻辑等
- 生成结构化JSON描述，包含明确定义的字段如：
```
{ "states": ["IDLE", "RUN", "ERROR"], "transitions": [ { "from": "IDLE", "to": "RUN", "condition": "start && !error" } ], "outputs": { "data_valid": { "condition": "state == RUN", "value": "1'b1" } } }
```
- Verifier智能体会检查状态机的完备性，例如确保没有孤立状态、所有转移条件互斥等
代码生成与优化：
- Coder智能体通过json2yaml工具将JSON转换为YAML格式
- 使用增强版fsm2sv工具生成可综合的Verilog代码，主要改进包括：
  - 支持自定义时钟和复位信号命名
  - 添加除状态寄存器外的额外内部寄存器
  - 改进错误提示信息清晰度
- 典型输出代码结构包含三个always块：
```
always @(posedge clk) begin // 状态寄存器更新 if (reset) state <= IDLE; else state <= next_state; end always @(*) begin // 次态逻辑 case (state) IDLE: next_state = start ? RUN : IDLE; RUN: next_state = error ? ERROR : RUN; default: next_state = IDLE; endcase end assign data_valid = (state == RUN); // 输出逻辑
```
自动化测试平台构建：
- Tester智能体生成SystemC测试环境，包含三个核心组件：
  - ref.cpp：参考模型实现，用C++描述预期行为
  - test.cpp：测试激励生成器，产生随机输入序列
  - main.cpp：测试主程序，实例化DUT和参考模型
- 采用Verilator进行协同仿真，其优势在于：
  - 支持cycle-accurate仿真精度
  - 提供信号波形追踪能力
  - 与SystemC无缝集成
智能调试与迭代：
- Judger智能体分析仿真失败日志，区分错误类型：
```
{ "error_type": "functional", "mismatch_signals": ["data_valid"], "failing_cycle": 125, "expected_value": 1, "actual_value": 0 }
```
- Fixer智能体根据错误类型采取不同策略：
  - 语法错误：直接修正JSON描述
  - 功能错误：结合波形分析修改设计描述
  - 测试用例错误：调整参考模型实现

2.2 中间表示(IR)的设计哲学

AutoFSM选择JSON作为IR格式而非YAML，这背后有深刻的工程考量。如图3所示，YAML虽然简洁但存在两大缺陷：首先是语法歧义性，例如"OFF"在YAML中是保留字，直接用作状态名会导致解析失败；其次是字段位置敏感性，条件表达式与状态名的顺序错误会导致语义变化。JSON则通过严格的语法结构和明确的字段定义避免了这些问题。

IR设计遵循以下原则：

语义明确性：每个字段有且只有一种解释方式
可扩展性：支持添加自定义属性而不破坏已有解析器
工具链友好：提供schema验证支持，能在转换前发现结构问题
人工可读：保持良好的可读性便于调试

实际应用中，IR还承担了版本控制的角色。通过给JSON描述添加版本号，可以确保不同时期的生成代码保持一致：

{ "version": "1.1", "metadata": { "author": "AutoFSM", "timestamp": "2025-03-15T09:30:00Z" }, "fsm": { // 状态机定义 } }

3. 验证体系创新：SystemC差分测试详解

3.1 参考模型构建方法论

AutoFSM的验证核心在于参考模型的构建质量。Tester智能体生成的SystemC模型遵循以下设计规范：

抽象层级控制：
- 只建模可见行为，不实现内部结构
- 输出结果在时钟上升沿后一个delta cycle生效
- 使用SC_CTHREAD描述状态转移时序

黄金参考实现：

SC_MODULE(ReferenceModel) { sc_in<bool> clk, reset; sc_in<uint8_t> inputs; sc_out<uint8_t> outputs; enum States {IDLE, RUN, ERROR}; States current_state; void transition() { if (reset.read()) { current_state = IDLE; } else { // 次态逻辑 switch(current_state) { case IDLE: if (inputs.read() & 0x01) current_state = RUN; break; // 其他状态处理... } } } void output_logic() { // 输出逻辑 if (current_state == RUN) outputs.write(0xFF); else outputs.write(0x00); } SC_CTOR(ReferenceModel) { SC_CTHREAD(transition, clk.pos()); sensitive << inputs; SC_METHOD(output_logic); sensitive << current_state; } };

自动检查点机制：
- 在仿真过程中记录关键信号值
- 构建信号历史队列用于错误分析
- 实现周期精确的比对能力

3.2 测试激励生成策略

测试激励的覆盖质量直接影响验证效果。AutoFSM采用混合生成策略：

基础测试序列：
- 复位行为验证
- 状态全覆盖测试
- 边界条件检查

随机测试增强：

void TestGenerator::generate_stimulus() { wait(clk.posedge_event()); inputs.write(rand() % 256); // 8位随机输入 // 约束随机生成 if (state_count[IDLE] > 10) { inputs.write(inputs.read() | 0x01); // 强制退出IDLE状态 } }

自适应调整：
- 根据代码覆盖率动态调整激励
- 对未覆盖状态进行定向测试
- 失败用例自动加入回归测试集

3.3 差分验证实施流程

如图2c所示，验证过程实施cycle-by-cycle比对：

信号同步采集：
- 在时钟上升沿触发采集
- 记录DUT和参考模型输出
- 保存相关内部状态

结果比对策略：

void Comparator::check() { if (dut_output.read() != ref_output.read()) { error_found = true; // 记录错误上下文 error_log << "Cycle:" << sc_time_stamp() << " Expected:" << ref_output.read() << " Actual:" << dut_output.read(); // 保存最近10个周期的信号历史 dump_waveform(); sc_stop(); } }

错误分析报告：
- 自动生成差异分析报告
- 标记首个出错周期
- 提供信号变化时序图

4. SKT-FSM基准测试集构建

4.1 层次化复杂度设计

AutoFSM团队构建的SKT-FSM基准包含67个样本，按复杂度分为三个层级：

复杂度度量标准：
- 代码行数(L)
- 状态数量(S)
- 转移边数量(E)
- 计算公式：
```
score = 0.3*(S/Smax) + 0.5*(E/Emax) + 0.2*(L/Lmax)
```
难度分级标准：
难度级别分数区间样本数量
Easy <0.15 27
Medium 0.15-0.31 27
Hard ≥0.31 13
典型任务示例：
- Easy：3状态序列检测器
- Medium：5状态UART接收机
- Hard：8状态PCIe链路训练状态机

难度级别	分数区间	样本数量
Easy	<0.15	27
Medium	0.15-0.31	27
Hard	≥0.31	13

4.2 LLM辅助的基准构建

如图1所示，基准构建采用人机协作方式：

数据清洗阶段：
- 去除重复或结构无效的FSM
- 验证参考模型的可综合性
- 确保测试用例的独立性

自动化生成流程：

graph LR A[原始Verilog] --> B(GPT-4生成描述) B --> C{人工审核} C -->|通过| D[加入基准] C -->|拒绝| E[手动修正] A --> F(GPT-4生成测试) F --> G[iverilog验证] G --> H{语法正确?} H -->|是| D H -->|否| F

质量保障措施：
- 所有测试用例通过100%代码覆盖率检查
- 参考模型与原始设计进行形式验证
- 交叉验证不同工具链的仿真结果

5. 实战应用指南与性能优化

5.1 部署配置建议

硬件需求：

推荐使用配备GPU的服务器

最小系统要求：

compute: cpu: 8 cores memory: 32GB gpu: NVIDIA T4 (16GB) storage: disk: 100GB SSD

软件依赖：
- 必需组件：
```
verilator >= 5.0 systemc >= 2.3.3 iverilog >= 12.0 python >= 3.9
```
- 推荐使用Docker部署预配置环境

典型工作流配置：

{ "max_iterations": 20, "timeout": 3600, "llm_config": { "temperature": 0.7, "top_p": 0.9 }, "verification": { "random_test_cycles": 1000, "coverage_goal": 95 } }

5.2 性能调优技巧

智能体协作优化：
- 调整智能体调用顺序
- 设置优先级策略
- 实现结果缓存共享
LLM提示工程：
- 添加领域特定示例
- 使用结构化提示模板
- 实现渐进式细化
验证加速方法：
- 采用增量式仿真
- 并行执行测试用例
- 启用快速失败模式

5.3 典型问题排查

JSON生成失败：
- 现象：FSMExtractor无法生成有效JSON
- 检查：
  - 设计描述是否包含完整状态定义
  - 转移条件是否互斥
  - 输出逻辑是否无歧义
- 解决方案：提供更结构化的输入描述

仿真结果不匹配：

现象：差分测试发现输出不一致

诊断流程：

graph TB A[输出不匹配] --> B{错误周期} B -->|首个周期| C[复位逻辑问题] B -->|中间周期| D[状态转移错误] B -->|稳定后| E[输出逻辑错误]

代码覆盖率不足：
- 现象：无法达到目标覆盖率
- 增强措施：
  - 增加约束随机测试周期数
  - 添加定向测试用例
  - 检查测试约束是否过强

6. 框架对比与实测数据分析

6.1 与MAGE框架的架构差异

特性	AutoFSM	MAGE
代码生成方式	JSON IR转换	直接Verilog生成
验证方法	SystemC差分测试	预定义测试基准
错误定位	周期精确比对	信号追踪
测试用例生成	全自动	人工编写
语法错误处理	IR层隔离	直接修复Verilog
复杂FSM支持	分层状态机	扁平状态机

6.2 实测性能对比

使用DeepSeek-V3作为基座模型的测试结果：

整体性能：
指标 AutoFSM MAGE 提升幅度
pass@1 58.21% 46.27% +11.94%
语法错误率 0.75% 1.24% -0.49%
平均迭代次数 3.2 5.7 -43.8%
复杂度分级表现：
难度 AutoFSM MAGE 提升幅度
Easy 66.67% 51.85% +14.82%
Medium 55.56% 40.74% +14.82%
Hard 46.15% 15.38% +30.77%
资源消耗对比：
指标 AutoFSM MAGE 变化
内存占用 12GB 8GB +50%
平均耗时 8.2min 6.5min +26%
磁盘使用 15GB 5GB +200%