别再只盯着双塔模型了！聊聊Look-Alike召回：从广告投放到内容推荐的‘人群扩散’玩法-开发者社区

从广告到内容推荐：Look-Alike技术的跨领域实践与思考

在推荐系统与计算广告的交汇处，Look-Alike技术正悄然改变着两种看似迥异却又本质相通的业务场景。这项起源于广告投放的技术，如今已成为解决内容平台冷启动问题的利器。当技术从业者还在热议双塔模型时，Look-Alike已经完成了从广告精准投放到内容个性化推荐的华丽转身。这种技术迁移背后，隐藏着对用户行为理解的深刻洞察和商业价值挖掘的共通逻辑。

1. Look-Alike的技术本质与跨领域应用基础

Look-Alike技术的核心思想简单而有力：通过已知的高价值用户（种子用户）寻找与之相似的其他潜在用户。这种"人群扩散"模式在广告和内容推荐中展现出惊人的适应性，关键在于它抓住了两个领域的共同需求——在有限信号下最大化目标匹配效率。

技术核心三要素：

种子定义：广告关注转化率，内容推荐关注互动行为
相似度计算：从基础特征到深度表征的演进
扩散控制：平衡精准度与覆盖面的艺术

在广告领域，特斯拉可能定义种子用户为"25-35岁、高学历、科技爱好者"的人群；而在小红书的内容推荐中，种子用户则是那些对新笔记有点赞、收藏行为的活跃用户。虽然业务目标不同，但两者都面临着如何从少量种子扩展到更大潜在群体的相同挑战。

提示：Look-Alike不是特定算法，而是一种技术框架，允许根据业务特点灵活选择相似度计算和扩散策略

2. 广告与内容推荐场景的技术差异解剖

2.1 种子用户定义的业务逻辑差异

广告投放的种子用户通常由广告主直接定义，具有明确的商业属性：

高价值客户画像（如购买过特定产品的用户）
人口统计学特征（年龄、性别、收入等）
兴趣标签（通过第三方数据或历史行为得出）

相比之下，内容推荐的种子用户定义更加动态和隐式：

# 小红书风格的种子用户识别逻辑示例 def identify_seed_users(note, user_actions): seeds = [] for action in user_actions: if action.type in ['click', 'like', 'collect', 'share']: if action.note_id == note.id: seeds.append(action.user) return seeds

2.2 相似度计算的演进路径

广告场景早期依赖显式特征匹配：

匹配维度	广告场景	内容推荐场景
基础特征	人口属性、地理位置	用户基础画像
行为特征	点击、转化历史	互动行为序列
社交特征	社交关系图谱	关注网络
深度特征	用户嵌入向量	双塔模型表征

现代Look-Alike系统已普遍采用深度学习表征，如通过双塔模型获取用户和内容的嵌入向量，再计算余弦相似度：

similarity(u,v) = \frac{u \cdot v}{||u|| \cdot ||v||}

2.3 扩散规模控制的平衡艺术

不同业务对精准度和覆盖面的需求差异明显：

广告场景：

优先保证转化率，可接受较小覆盖面
通常采用严格的多级过滤
预算约束下的扩散控制

内容推荐场景：

需要平衡新颖性和相关性
动态调整扩散半径
基于实时反馈的快速迭代

3. 技术迁移中的实战经验与陷阱规避

将广告领域的Look-Alike技术迁移到内容推荐并非简单复制，需要针对性地解决几个关键问题。

3.1 冷启动问题的特殊处理

新物品缺乏历史交互数据是内容推荐的独特挑战。小红书采用的"动态种子池"策略值得借鉴：

初始曝光获得第一批种子用户
计算种子用户的平均向量作为物品表征
近线更新（分钟级延迟）表征向量
通过向量数据库实现高效相似查找

实现示例：

class NoteRepresentation: def __init__(self): self.user_vectors = [] def update(self, new_user_vector): self.user_vectors.append(new_user_vector) # 保持最近1000个种子用户的向量 if len(self.user_vectors) > 1000: self.user_vectors.pop(0) @property def mean_vector(self): return np.mean(self.user_vectors, axis=0)

3.2 实时性与计算效率的权衡

广告场景可以容忍较高延迟，而内容推荐对实时性要求更高：

考量因素	广告场景	内容推荐场景
数据更新频率	小时/天级	分钟级
响应延迟	可接受秒级	需毫秒级
计算资源	侧重离线批量处理	需要在线实时计算

3.3 评估指标的差异化设计

广告效果评估相对直接（CTR、转化率、ROI），而内容推荐的评估更加多维：

内容推荐特有的评估维度：

长期用户满意度
内容生态健康度
创作者激励效果
多样性指标

4. 前沿探索：Look-Alike技术的创新方向

随着基础技术的成熟，Look-Alike正在向更智能、更自适应的方向发展。

4.1 多模态融合的新机遇

结合视觉、文本等多模态信息增强用户表征：

用户生成内容分析
跨模态注意力机制
多任务联合训练

4.2 图神经网络的深度应用

将用户-物品交互视为异构图，利用GNN捕捉高阶关系：

# 简化的GNN Look-Alike实现思路 class GNNLookAlike(torch.nn.Module): def __init__(self, hidden_dim): super().__init__() self.conv1 = GraphConv(hidden_dim, hidden_dim) self.conv2 = GraphConv(hidden_dim, hidden_dim) def forward(self, graph, x): x = self.conv1(graph, x) x = F.relu(x) x = self.conv2(graph, x) return x