news 2026/5/3 6:00:16

基于豆包、Claude识别的中国 A 股人工智能领域企业数据 2010-2024

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于豆包、Claude识别的中国 A 股人工智能领域企业数据 2010-2024

2030

基于豆包、Claude识别的中国 A 股人工智能领域企业数据 2010-2024

数据简介

在智能技术快速发展的浪潮中,通过企业的经营范围文本精准识别中国 A 股市场中属于人工智能领域的企业,是深入探究该领域发展规律、评估产业发展潜力的关键前提。其重要性不仅体现在为学术研究提供可靠的样本基础,也为企业战略制定、市场监管等实践工作提供有力的数据支撑。

人工智能企业是以人工智能技术为核心驱动力,致力于研发和应用机器学习、深度学习、自然语言处理等智能算法,实现模拟人类智能进行决策、推理、识别等功能,像从事人工智能算法研发、智能系统集成、智能机器人研发等业务的企业便属于此类,其核心在于让机器具备类似人类的智能能力。

本数据中用于依据企业经营范围文本判断其是否为人工智能企业的核心指标构建过程如下:数据来源于中国 A 股上市公司的官方网站、年度报告等公开渠道。借助豆包(doubao-1-5-pro-32k-250115)和 Claude (claude-sonnet-4-20250514)两个大型模型,分别对企业的经营范围文本内容进行识别,综合两者的判断结果,确定该企业是否为人工智能领域的企业,最终获得 2010-2024 年的相关数据。

与使用 XGBOOST、BERT 等机器学习模型基于经营范围文本进行判断的方式相比,本方法优势显著。XGBOOST 作为基于树模型的算法,高度依赖人工特征工程,对于企业经营范围这类复杂文本,人工提取特征不仅耗时费力,还易遗漏关键信息,导致其对复杂语义的理解能力受限,难以精准识别人工智能领域的企业。BERT 虽在自然语言处理领域表现较好,但在泛化性和对非规范文本的处理上存在不足,面对企业经营范围中涉及人工智能领域的模糊表达、行业特有术语等,准确性会受影响。而豆包和 Claude 具备强大的自然语言理解与生成能力,无需复杂的特征构建,能深度解读企业经营范围文本中的语义信息,对涉及人工智能领域的模糊、非规范表述有效理解,从而更精准判断企业是否为人工智能领域企业。

选择豆包和 Claude 进行判断,原因在于豆包是一款先进的语言模型,在中文语义理解方面优势突出,能精准把握中国上市公司各类文本中复杂的经营范围表述,尤其对涉及人工智能领域的内容有良好的解读能力,契合国内市场的语言习惯和业务场景。Claude 是一款知名的大型模型,在多领域应用广泛,对不同业务场景的经营范围理解能力较强,且在多语言处理上有一定优势,能辅助识别人工智能领域企业。二者结合,可从不同角度对企业经营范围文本深入分析,形成互补,降低误判概率,提升判断结果的准确性和全面性。

数据来源

中国 A 股上市公司官方网站、上市公司年度报告等。

时间跨度

2010-2024 年

数据范围

中国 A 股上市公司

数据格式

excel形式

数据指标

注: Symbol为 股票代码,IndustryCode为行业分类,is_ai为两大模型根据企业经营范围识别的是否为人工智能企业的0-1变量,1表示是人工智能企业,0表示不是。

数据展示

因数据量较大,此处仅展示部分示例数据:

选题方向

1.基于双模型对人工智能企业经营范围文本识别的效果优化研究:以本数据为基础,对比豆包和 Claude 单独基于经营范围文本识别与联合识别人工智能企业的效果差异,构建优化的双模型识别机制,为提高人工智能企业分类准确性提供新方法。

2.从经营范围文本看人工智能企业动态发展轨迹:利用 2010-2024 年的数据,通过分析企业经营范围文本的变化,追踪人工智能企业在不同时期的发展变化,分析其成长规律与制约因素。

3.人工智能企业与经营绩效的关联性分析:选取数据中的企业,探究人工智能企业与非人工智能企业在营收增长、利润率等经营绩效指标上的差异,揭示人工智能属性对企业发展的影响。

4.政策环境对人工智能企业数量变化的影响研究:梳理 2010-2024 年相关政策,结合数据中人工智能企业的数量变化情况,运用回归模型分析政策对该类企业发展的驱动作用。

5.跨行业视角下人工智能企业技术应用扩散:以识别出的人工智能企业为样本,分析其技术向其他行业企业的扩散路径与效果,为推动产业融合提供参考。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 12:55:46

学生党如何体验?申请免费Token试用HeyGem基础功能

学生党如何体验?申请免费Token试用HeyGem基础功能 在短视频与AI内容创作全面爆发的今天,越来越多的学生开始尝试用技术手段制作课程汇报、项目展示甚至自媒体内容。但真人出镜拍摄耗时费力,剪辑门槛也不低;而市面上一些数字人工具…

作者头像 李华
网站建设 2026/5/1 13:33:08

Token计费模式探讨:未来HeyGem或引入用量计量机制

Token计费模式探讨:HeyGem的用量计量演进之路 在AI生成内容(AIGC)工具加速普及的今天,一个看似不起眼但至关重要的问题正浮出水面:我们该如何为一次“说话的数字人”视频生成准确地定价?是按分钟计费&#…

作者头像 李华
网站建设 2026/5/1 3:06:36

C#中如何高效遍历交错数组?资深架构师告诉你唯一正确的做法

第一章:C#中交错数组遍历的核心挑战在C#编程中,交错数组(Jagged Array)是一种特殊的多维数组结构,其每一行可以拥有不同长度的子数组。这种灵活性虽然提升了数据组织的自由度,但也为遍历操作带来了显著挑战…

作者头像 李华
网站建设 2026/5/1 7:54:19

用户权限失控频发?C#中细粒度访问控制的5种实现方案

第一章:C#企业系统中权限管理的挑战与演进在现代C#企业级应用开发中,权限管理始终是保障系统安全与数据隔离的核心环节。随着业务复杂度上升和组织架构多样化,传统的基于角色的访问控制(RBAC)已难以满足动态授权、细粒…

作者头像 李华
网站建设 2026/5/3 5:31:06

如何用HeyGem实现音频驱动数字人口型同步?技术原理解析

如何用HeyGem实现音频驱动数字人口型同步?技术原理解析 在虚拟主播24小时不间断带货、AI教师全天候授课的今天,一个关键问题浮出水面:如何让数字人“说话”时,嘴型和声音真正对得上?这看似简单的需求背后,藏…

作者头像 李华
网站建设 2026/5/1 11:16:07

AAC编码没问题:HeyGem数字人系统广泛支持主流标准

AAC编码没问题:HeyGem数字人系统广泛支持主流标准 在智能内容创作的浪潮中,一个看似微不足道的技术细节——音频格式兼容性,往往成为决定用户体验的关键瓶颈。想象这样一个场景:市场团队刚完成一段产品讲解录音,文件后…

作者头像 李华