从零开始玩转金融LLM：12个数据集+8个模型+完整代码实战-开发者社区

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

丁闪闪(lianxhcn@163.com)
曾咏新厦门大学(zengyongxinhpe@163.com)

提要：本文系统整理了金融大语言模型 (LLM) 研究的核心资源，包括 12 个主流金融数据集、8 个开源模型及 4 段完整代码示例，涵盖情感分析、文本摘要、命名实体识别和 LoRA 微调等任务。通过详细的环境搭建与使用指南，帮助读者快速上手金融 LLM 研究与应用。

Title：从零开始玩转金融LLM：12个数据集+8个模型+完整代码实战
Keywords：大语言模型，金融NLP，开源模型，FinBERT，FinGPT，Qwen，LoRA微调，Financial PhraseBank，FiNER，REFinD，FinRED，ECTSum，FinQA，FLUE，PIXIU，FinEval
查看本系列推文：大语言模型如何重塑金融研究？

0. 导言

近年来，大语言模型 (LLM) 在金融领域的应用日益广泛，从情感分析、命名实体识别到财报摘要生成，LLM 展现出强大的文本理解与生成能力。然而，对于初学者和研究者而言，如何快速找到合适的数据集、选择恰当的模型、搭建实验环境并复现基准结果，仍然面临较高的门槛。

本文旨在为金融 LLM 研究提供一个「系统化、可落地」的资源包，帮助读者在较短时间内：

了解金融NLP领域的核心任务与主流数据集
掌握开源模型的选择与调用方法
搭建本地实验环境并运行示例代码
使用标准化基准测试评估模型效果

全文涵盖三个方面：

数据集资源：按任务类型 (文本处理、情感分析、数据预处理) 整理了 12 个主流金融数据集，每个数据集均提供获取方式、数据规模和适用场景说明。
开源模型与代码：介绍了 8 个核心开源模型 (FinBERT、FinGPT、Qwen 等)，并提供 4 段可直接运行的 Python 代码示例，涵盖情感分析、文本摘要、命名实体识别和 LoRA 微调。
基准测试工具：汇总了 5 个主流金融 LLM 评测基准 (FLUE、PIXIU、FinEval 等)，并给出 PIXIU 基准的快速上手代码，方便读者对比模型性能。

适用人群：

金融科技方向的研究生，希望快速入门金融NLP
从事金融文本分析的数据科学家，需要了解最新模型与工具
对 LLM 在金融领域应用感兴趣的开发者

代码与工具使用指南：

本文提供的所有代码均基于Python 3.8+环境，建议使用Anaconda进行环境管理。具体环境搭建步骤请参见第 2.2 节的详细说明。

代码中使用的主要工具包括：

Hugging Face Transformers：模型加载与推理
PyTorch：深度学习框架
PEFT：参数高效微调 (LoRA 等)
Datasets：数据集加载与处理

所有代码已在 Ubuntu 20.04 + CUDA 11.8 环境下测试通过，读者可根据自身硬件条件调整配置 (如使用 CPU 模式或降低 batch size)。

1. 数据集资源：按任务分类，附获取方式与适用场景

金融文本数据具有专业术语密集、结构复杂、时效性强等特点，高质量的标注数据集是训练和评估金融 LLM 的基础。本节按照任务类型对 12 个主流金融数据集进行分类整理，涵盖命名实体识别、关系抽取、文本摘要、推理问答、情感分析等核心任务。

每个数据集均提供以下信息：

任务类型：数据集针对的具体 NLP 任务
数据规模：样本数量或数据覆盖范围
获取方式：GitHub 链接或官方网站
适用场景：推荐的使用场景与研究方向

读者可根据自身研究需求，选择合适的数据集进行模型训练或评测。

1.1 金融文本智能处理数据集

FiNER
- 任务类型：金融命名实体识别
- 数据规模：大规模金融 NER 标注数据集
- 获取方式：FiNER GitHub
- 适用场景：涵盖新闻、财报、研报等多类型文本，支持复杂实体边界识别。适用于训练 NER 模型及研究跨领域 NER 迁移。
REFinD
- 任务类型：金融关系抽取
- 数据规模：约 2.9 万条标注的「实体–关系–实体」三元组，涵盖 20 余类金融关系
- 获取方式：REFinD GitHub
- 适用场景：专注于金融实体间的结构化关系识别，支持跨句乃至跨文档的关系抽取任务。
FinRED
- 任务类型：金融关系抽取
- 数据规模：数万条通过远程监督自动标注的训练实例
- 获取方式：FinRED GitHub
- 适用场景：涵盖企业新闻、财报电话会议等文本，适用于构建与评估金融实体关系识别与分类模型。
ECTSum
- 任务类型：金融长文本摘要
- 数据规模：约 2,400 条「公司财报电话会议转录文本+人工撰写要点式摘要」样本
- 获取方式：ECTSum GitHub
- 适用场景：原文文本长度较长、结构松散，摘要通常为专家撰写的要点列表。适用于金融领域长文本摘要模型训练、信息压缩与关键信息抽取。
FinQA
- 任务类型：金融领域的推理问答
- 数据规模：包含约 8,300 个问答对，这些问答对来自大约 2.8k 份真实财务报告
- 获取方式：FinQA GitHub
- 适用场景：用于评估 LLM 或混合检索–生成系统在金融报告上的信息理解 + 数值计算能力，可用于发展金融智能问答、财报分析等研究。
TAT-QA
- 任务类型：金融领域的推理问答
- 数据规模：包含 16,552 个问题，涉及来自真实财务报告的 2,757 个混合情境
- 获取方式：TAT-QA
- 适用场景：每个语境由至少一个半结构化表格 + 至少两个相关文本段落组成，结合结构化表格与报告说明生成自动解释。

1.2 金融情感分析数据集

Financial PhraseBank
- 任务类型：文本情感分析/分类
- 数据规模：约 4,840 条英文金融短语
- 获取方式：FPB GitHub
- 适用场景：标注为积极/消极/中性，由金融领域背景的专家标注，是金融情感分类的经典基准数据集，适合作为模型基线验证与微调研究。
FiQA
- 任务类型：文本情感分析 / 分类
- 数据规模：大约 1,110 条金融句子
- 获取方式：Hugging Face Datasets
- 适用场景：附带 sentiment score，可用于情感正负 /强度分类，可拓展到问答与语境情感联合任务。
FinSen Financial Sentiment Dataset
- 任务类型：文本情感分析
- 数据规模：16 万条金融市场新闻记录
- 获取方式：FinSen GitHub
- 适用场景：整合了来自 197 个国家的经济和金融新闻文章以及股票市场数据，涵盖 2007 年至 2023 年，提供了丰富的全球视角。
SEntFiN 1.0
- 任务类型：新闻实体情感分析
- 数据规模：约 10,700 条新闻标题实体情绪标注数据
- 获取方式：SEntFiN 1.0 GitHub
- 适用场景：对每个新闻标题中的多个实体分别标注情绪，适用于实体级情感识别、情感冲突识别等研究。

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

从零开始玩转金融LLM：12个数据集+8个模型+完整代码实战

0. 导言

1. 数据集资源：按任务分类，附获取方式与适用场景

1.1 金融文本智能处理数据集

1.2 金融情感分析数据集

NAS + 本地小参数模型：一套可落地的运行范式

观察世界的坐标：股市

19岁因戏生情，相恋20年没有结婚，40岁另嫁他人，她说：是我命不好

OFA视觉问答快速部署教程：3条命令启动，首次自动下载模型不卡顿

基于单片机的火灾报警系统设计

多模态 RAG：使用 AI 处理任何文件类型