2012—2024年上市公司人工智能概念炒作水平度量，含专利、词频等原始数据-开发者社区

数据简介

人工智能概念炒作水平度量数据是刻画上市公司人工智能信息披露真实性与机会主义行为的核心载体，其精准度直接决定对“概念炒作—大股东减持”传导机制的实证检验效果。该数据聚焦于量化企业在人工智能领域的“言”与“行”差异，通过文本分析与实证建模相结合的方式，构建能够区分“实质性转型”与“象征性炒作”的度量指标，为揭示人工智能产业热潮下的资本市场套利行为、完善信息披露监管规则提供关键数据支撑，适用于学术研究、监管研判及投资决策等多元场景。

本数据核心来源包括三大模块：一是2010-2024年沪深A股上市公司年度报告，重点提取“管理层讨论与分析（MD&A）”板块文本作为基础素材，该部分是企业披露战略方向与技术布局的核心载体；二是人工智能相关词频数据，通过Python对年报文本进行词频统计与语义分析获得，词典构建以《新一代人工智能发展规划》及平安证券等权威机构研究报告为依据；三是2012-2024年上市公司规模、规模、市场负债等相关数据，来源于各上市公司官网，用于构建控制变量与残差度量模型。

数据筛选与清洗遵循严格的标准化流程：首先以2010-2024年沪深A股所有上市公司为初始样本，剔除ST类公司、金融保险行业公司及年报文本缺失的样本；其次基于构建的人工智能词典，运用Word2vec词嵌入模型对MD&A文本进行语义匹配与词频统计，生成初始词频数据；最后构建回归模型计算残差指标，模型中纳入公司规模(Size)、资产负债率(Lev)、资产回报率(ROA)等公司特征变量，同时加入人工智能发明专利数量的对数(AI_patent)作为关键解释变量，回归残差（Hype_Residual）即代表未被公司基本面解释的异常披露部分，该指标值越大，表明公司人工智能概念炒作水平越高。在此过程中，获取面板数据10230条记录，最终形成7872条有效观测值，完整呈现2012-2024年各上市公司年度人工智能概念炒作水平的核心度量结果。

数据信息