引言
在GEO(生成式引擎优化)项目中,关键词策略是内容生产的前置环节。不同于传统SEO的关键词堆砌,GEO更关注用户的真实意图和问题覆盖。本文分享我们在关键词挖掘与意图分类上的一些工程实践,不涉及具体商业信息。
一、关键词来源的三种渠道
我们结合以下渠道获取原始关键词:
客户提供:核心业务词、品牌词、产品词(通常3-10个)
竞品分析:在AI模型(如DeepSeek)中输入客户的核心词,观察回答中出现的竞品名称,反推竞品覆盖的关键词
平台挖掘:从知乎话题、百度相关搜索、小红书热门标签中提取高频词
原始词量通常在200-500个之间。
二、关键词清洗与标准化
原始关键词包含噪声,我们执行以下清洗步骤:
去重(基于编辑距离)
去除无意义字符(标点、特殊符号)
统一词形(如“GEO优化”和“GEO优化服务”合并)
过滤低频词(在百度指数或平台搜索量过低)
清洗后保留约60%-70%的词。
三、意图分类模型(L1-L5)
我们将关键词分为5个意图层级,每层对应不同的内容生产策略:
| 层级 | 意图 | 示例 | 内容策略 |
|---|---|---|---|
| L1 | 品牌导航 | “文澜天下” | 品牌词防御,确保基础信息准确 |
| L2 | 业务需求 | “GEO优化服务” | 科普+服务介绍 |
| L3 | 问题痛点 | “怎么让AI推荐我” | 场景化解决方案 |
| L4 | 具体问题 | “企业申报需要哪些材料” | 深度问答 |
| L5 | 对比决策 | “GEO优化哪家好” | 测评对比 |
分类方法:基于规则+简单机器学习。规则包括:
包含“怎么”、“如何”、“为什么” → L3或L4
包含“哪家”、“推荐”、“对比” → L5
精确匹配客户品牌词 → L1
其余业务相关词 → L2
四、长尾词扩展算法
对于L4长尾词,我们使用模板扩展法:
地域模板:
[地区] + 核心词,如“杭州企业申报”场景模板:
核心词 + 适用场景,如“企业申报 小微企业”疑问模板:
疑问词 + 核心词 + 附加词,如“企业申报需要什么材料”
通过组合,一个核心词可扩展出50-100个长尾词。
五、词频统计与优先级排序
为确定优先攻击哪些关键词,我们计算一个简单得分:优先级 = 搜索热度 × 竞争程度^(-1) × 商业价值
搜索热度:参考百度指数或平台话题浏览量(归一化)
竞争程度:在AI模型中输入关键词,统计回答中出现的不同品牌数量
商业价值:人工标注(高/中/低),如“企业申报”高于“申报材料清单”
排序后,优先选择得分最高的20-30个词作为第一轮内容生产目标。
六、工程实现提示
清洗和分类可使用Python的
pandas+ 正则表达式长尾词扩展推荐使用
itertools.product组合模板优先级计算建议存储在SQLite中,便于后续更新
七、局限性与改进方向
当前意图分类依赖规则,对复杂长句的准确率约85%,未来可引入BERT小模型
搜索热度数据获取困难,可改用平台API(如百度指数需付费)
商业价值标注存在主观性,建议多人交叉标注
以上是我们(杭州文澜天下)在关键词挖掘与意图分类上的一些实践。欢迎同行讨论交流。
本文仅为技术经验分享,无商业推广内容。