目录
第13章 竞价广告核心技术
13.1 竞价广告计价算法
1. 从密封竞价到广义第二价格:市场的进化
2. VCG拍卖:理论上的完美与现实的差距
3. 计价算法的工程实现与考量
4. 计价的演进:从CPC到oCPX
13.2 搜索广告系统
13.2.1 查询扩展
13.2.2 广告放置
13.3 广告网络
1. 广告网络的定位与价值
2. 广告网络的核心技术流程
3. 关键技术挑战
4. 广告网络的演进:从网络到交易平台
13.4 广告检索
13.4.1 布尔表达式的检索
13.4.2 相关性检索
13.4.3 基于DNN的语义建模
13.4.4 最近邻语义检索
第13章 竞价广告核心技术
合约广告提供了确定性的曝光保障,但缺乏灵活性,且往往定价高昂。竞价广告则引入了一种更灵活、更高效的市场机制:每一次广告展示机会都通过一个实时拍卖来决定归属和价格。这种模式完美适应了互联网长尾流量庞大、用户意图瞬变的特点,成为效果广告和中小广告主的主流选择。本章将深入解析支撑竞价广告运作的三大核心技术:作为市场灵魂的计价算法、作为最成功竞价产品的搜索广告系统、作为泛化平台的广告网络,以及支撑海量广告实时检索的广告检索技术。
13.1 竞价广告计价算法
竞价广告市场的核心是一个多物品(广告位)拍卖。但与传统的艺术品拍卖不同,广告拍卖有两个独特之处:1) 物品(广告展示机会)几乎同质且海量;2) 竞拍者对物品的私有估值不同,且这个估值(即一次点击或转化的价值)只有竞拍者自己知道。计价算法的目标,就是设计一套规则,在每次拍卖中决定哪些广告胜出、以什么价格支付,从而在激励广告主诚实出价、保证平台收入、维持市场稳定高效之间取得最佳平衡。
1. 从密封竞价到广义第二价格:市场的进化
在早期,竞价广告采用最简单的密封第一价格拍卖:每个广告主秘密提交一个对于一次点击的报价(CPC出价),出价最高的广告赢得展示,并按自己的出价支付费用。
问题:这引发了著名的“猜谜游戏”困境。广告主不得不猜测竞争对手的出价,并尽量以略高于第二名的出价获胜,以避免不必要的过高支付。这导致了不稳定的出价策略、频繁的调价和巨大的管理负担,市场效率低下。
广义第二价格(Generalized Second Price, GSP)拍卖的引入,彻底改变了游戏规则。它的机制简洁而深刻:
排序:当一次广告请求到来时,系统收集所有符合条件的广告。对于每个广告 ii,计算其综合排名分数RSi=bi×qiRSi=bi×qi。其中:
bibi 是广告主对本次点击的出价(CPC)。
qiqi 是广告的质量度,通常由系统预估的点击率(pCTR)等因素构成,反映了广告对用户的吸引力和体验的好坏。
胜出:按照综合排名分数 RSiRSi 从高到低排序,依次选取广告填充广告位(如搜索结果页从上到下的位置)。
计价:关键所在。每个胜出的广告 ii 实际支付的点击价格 pipi,不是它自己的出价 bibi,而是恰好能保住其当前排名所需的最低价格。具体来说,是下一位广告的综合排名分数 RSi+1RSi+1 除以本广告的质量度 qiqi,再加一个非常小的单位(如0.01元):
或者更常见的表达:
GSP的直观理解:
鼓励高质量:质量度 qiqi 直接进入排序公式。一个出价较低但点击率很高的广告,可能排在一个出价高但点击率低的广告前面。这迫使广告主必须优化广告创意和相关性,而不仅仅是提高出价,从而提升了用户体验和平台生态健康。
支付“社会成本”:广告主支付的,本质上是由于他占据了广告位,而让下一位广告主(社会)损失的价值(即 RSi+1RSi+1),再根据自身质量进行校准。这具有一定的经济合理性。
相对简单透明:尽管计价公式略显复杂,但广告主容易理解“你的出价和你的质量共同决定排名,你支付的是维持排名所需的价格”。
2. VCG拍卖:理论上的完美与现实的差距
从机制设计理论来看,GSP并非“激励兼容”的,即广告主诚实地按其真实估值出价,并不总是最优策略。这可能会造成市场效率的损失。
维克瑞-克拉克-格罗夫斯拍卖(Vickrey–Clarke–Groves auction)则是一种理论上完美的机制。在广告多位置拍卖中,VCG的定价原则是:每个获胜的广告主支付的价格,等于他给其他所有参与者(包括平台和其他广告主)带来的价值损失。
计算方式:对于赢得第 kk 个位置的广告主 ii,首先计算如果他不参与拍卖,其他广告主原本能获得的总价值(即他们按原顺序排列时各自排名的价值之和)。然后计算他参与后,其他广告主获得的总价值(他占据了一个位置,其他广告顺位下降)。他的支付价就是这两个总价值的差值。
优点:VCG拍卖被证明是激励兼容的,即每个广告主的最优策略就是按其真实估值出价。这简化了广告主的出价策略,理论上能达到社会福利最大化。
缺点:
难以理解:计价逻辑非常复杂,对普通广告主不直观。
收入可能更低:在某些情况下,平台在VCG下的收入低于GSP。
对点击率预估误差敏感:VCG的计算严重依赖对所有广告CTR的精确估计,误差会扭曲支付价格。
因此,尽管VCG在学术上更优雅,但在全球主要的搜索广告平台(如谷歌、百度)的实际应用中,GSP及其变种因其更好的稳健性、可解释性和收入表现而被广泛采用。
3. 计价算法的工程实现与考量
在实际系统中,GSP的实现面临诸多工程细节:
质量度的构成:qiqi 通常不单是pCTR。它可能是一个更综合的“广告质量分”,融合了:
预估点击率:最核心的因素。
预估转化率/落地页体验:广告引导用户行为后的体验。
广告相关性:与查询或页面的匹配程度。
广告主历史表现:账户健康状况、违规记录等。
用户体验信号:广告的负面反馈率(如“隐藏此广告”)。
“加价”单位 ϵϵ 的设置:这个微小加价是为了在排名分数完全相同的情况下打破平局,并确保价格严格高于理论下限。其设置需要谨慎,避免过度收费。
底价(保留价):平台会为每次拍卖设置一个最低的排名分数门槛或点击价格。如果一个广告的综合排名分数低于此门槛,即使位置有空缺也不会展示。这保证了平台的收入底线和广告质量门槛。
多广告位与外部性的影响:在搜索结果页有多个广告位时,顶部广告的展示可能会抑制下方广告的点击率(注意力蚕食)。更复杂的GSP变种会尝试在排序或计价时考虑这种位置外部性。
4. 计价的演进:从CPC到oCPX
传统的GSP是基于CPC出价的。但对于追求转化(如购买、注册)的广告主来说,他们真正关心的是每次转化的成本(CPA)。然而,平台无法直接针对CPA进行拍卖,因为转化发生在广告主网站,平台无法实时获知。
智能出价(如oCPC、oCPM)机制应运而生,它是计价算法思想的一次重大飞跃。
原理:广告主设置一个转化目标(如CPA)和出价。平台利用历史数据,建立从曝光->点击->转化的预估模型(pCVR)。在每次曝光拍卖时,平台代替广告主,根据广告主的CPA目标和实时预估的pCVR,反向计算出一个“等效”的CPC或CPM出价,并以此参与基于CPC/CPM的GSP拍卖。
优势:
对齐目标:将广告主的商业目标(转化)与平台的拍卖机制直接挂钩。
自动化与提效:广告主无需再繁琐地调整关键词出价,只需关注转化成本和预算。
平台优化空间:平台可以智能地在高pCTR但低pCVR的流量,和低pCTR但高pCVR的流量之间进行分配,在保证广告主CPA的前提下最大化平台收入。
挑战:极度依赖pCVR模型的准确性。模型不准会导致广告主成本失控或平台收入受损。
总结:计价算法是竞价广告市场的“宪法”。GSP以其巧妙的“质量×出价”排序和第二价格支付规则,在效率、激励和可实施性之间找到了一个经典的平衡点。而智能出价则是在此基础上,通过算法代理将拍卖机制与更高阶的广告主目标对齐,代表了竞价广告自动化和智能化的发展方向。理解计价算法,就理解了竞价广告市场运转的根本驱动力。
13.2 搜索广告系统
搜索广告是竞价广告皇冠上的明珠,也是最成功的商业模式之一。它的特殊性在于,用户的搜索查询是一种极其强烈的意图信号。搜索广告系统的任务,就是在这短暂的意图表达瞬间,提供最相关、最有价值的商业信息。其核心技术围绕“查询理解”和“广告放置”展开。
13.2.1 查询扩展
用户的搜索词往往简短、模糊、有噪声。例如,搜索“苹果”可能是想买手机,也可能是查水果营养,甚至是找电影《苹果》。查询扩展的目标是丰富和澄清用户意图,以召回更相关、更全面的广告候选集。
1. 同义词与近义词扩展
方法:利用同义词词典(如WordNet)、搜索引擎日志挖掘(共现分析)、或词向量模型(如Word2vec),找到查询词的同义、近义表达。
例子:查询“笔记本电脑” -> 扩展为{“笔记本”, “手提电脑”, “laptop”}。这能召回购买了不同关键词但产品相同的广告。
技术:基于词向量的语义相似度计算是主流方法。
2. 短语补全与纠错
查询补全:在用户输入过程中,根据前缀预测完整的热门查询。这不仅提升用户体验,也能提前明确意图。
技术:基于前缀树的数据结构和海量历史查询日志的统计模型。
拼写纠错:自动校正查询中的拼写错误。
技术:编辑距离计算、噪声信道模型(将错误拼写视为正确拼写通过一个“噪声通道”后的结果)、基于大规模日志的上下文相关纠错。
3. 意图分类与实体识别
意图分类:判断查询属于哪个垂直领域或商业意图类别(如“导航类”:北京天气;“交易类”:买手机;“信息类”:秦始皇是谁)。
技术:文本分类模型(如FastText, BERT)。意图类别直接影响广告召回的策略(如交易类查询优先展示购物广告)。
实体识别:识别查询中的命名实体(如品牌“苹果”、产品“iPhone 14”、地点“北京”)。
技术:序列标注模型(如BiLSTM-CRF, BERT)。识别出的实体是进行精准匹配和品牌广告投放的关键。
4. 查询改写与泛化
子查询生成:将长查询拆分为更有针对性的子查询。
例子:“2023年性价比高的国产智能手机” -> {“2023 智能手机”, “性价比高 手机”, “国产手机”}。
泛化与归一化:去除不影响意图的修饰词,归一化表达。
例子:“最新款华为手机多少钱” -> 归一化为 “华为手机 价格”。
5. 基于会话上下文的扩展
场景:用户在一个搜索会话中,先后搜索了“三亚”、“天气”、“酒店”。当搜索“酒店”时,系统应结合“三亚”这个上下文进行扩展。
技术:维护用户短期搜索历史,使用序列模型(如RNN)或注意力机制来生成上下文感知的查询表示。
13.2.2 广告放置
在搜索结果页(SERP)上,广告应该放在哪里?以什么样式呈现?这不仅仅是UI设计问题,更是直接影响用户体验和广告收入的科学。广告放置的目标是在商业化和用户体验间找到最优平衡点。
1. 广告位置决策:插播还是专区?
顶部/底部插播:在自然搜索结果之间插入广告。通常位置越靠前,点击率越高,但对用户体验干扰也越大。
右侧栏/底部专区:将广告集中在特定区域。干扰较小,但注意力也可能较低。
自适应位置:根据查询意图、用户设备(PC/移动)、页面布局动态决定广告数量和位置。例如,对于商业意图强的“购买”类查询,可以多展示几条顶部广告;对于知识性查询,可能不展示或少展示广告。
2. 广告样式与富媒体
文字广告:最经典的形式,包含标题、描述、显示URL。
图文/视频广告:更吸引眼球,适用于品牌宣传或产品展示。
商品列表广告:直接展示多个商品图片、价格、店铺信息,适用于电商搜索。
本地搜索广告:附带地图、电话、地址、评价等信息。
样式选择:系统需要根据广告主提供的物料、用户设备、网络条件,动态选择最合适的广告样式进行渲染。
3. 广告与自然结果的融合:“原生”化趋势
挑战:用户天生对广告有排斥心理。过于突兀的广告标识会降低点击意愿。
解决方案:使广告在视觉风格、信息结构上与自然搜索结果尽可能相似,仅以“广告”、“推广”等小字样区分。这被称为“原生搜索广告”。
技术:统一的UI组件库、风格指南,以及通过A/B测试不断优化广告样式,在提升点击率的同时控制用户负面反馈。
4. 动态创意优化
原理:对于同一个广告,系统可以根据查询词、用户画像,动态调整其创意中展示的信息。
例子:对于搜索“轻便笔记本电脑”的用户,广告标题中高亮“超轻1kg”;对于搜索“游戏笔记本”的用户,则高亮“RTX显卡”。
技术:广告主提供创意组件(多个标题、描述、图片),系统通过一个创意选择模型,在线上实时选择最优组合。这可以视为一个上下文多臂老虎机问题。
5. 拍卖机制与放置的联动
存在性定理:广告能否展示,首先取决于其在GSP拍卖中的排名分数是否超过底价。
多广告位的分配:排名第一的广告不一定总是放在最顶部。系统可能会考虑广告间的协同或排斥效应。例如,两个直接竞争品牌的广告紧挨着放置,可能会相互抵消效果。更智能的系统会尝试优化整个广告序列的布局。
总结:搜索广告系统是查询意图与商业信息之间的高速、精准连接器。查询扩展技术致力于“听懂”用户哪怕不完整的表达,而广告放置技术则致力于在“恰当时机”、“恰当位置”以“恰当形式”呈现商业信息。这两者的精妙配合,使得搜索广告既能创造巨大商业价值,又能维持在用户可接受的服务边界之内。它是竞价广告技术集大成的体现。
13.3 广告网络
广告网络(Ad Network, ADN)是竞价广告模式从搜索场景向全网展示广告场景的泛化和扩展。它扮演着“流量批发商”和“技术中介”的双重角色:聚合大量中小媒体(网站、APP)的剩余广告流量,通过统一的竞价市场销售给广告主,并通过受众定向技术提升流量的变现价值。
1. 广告网络的定位与价值
对媒体的价值:
变现长尾流量:中小媒体自身销售能力有限,ADN为其提供了自动化的、填充剩余库存的变现渠道。
简化对接:媒体只需嵌入ADN的一段通用代码,即可接入海量广告主,无需与众多广告主一一谈判。
提升收入:通过竞价,理论上可以获得比固定价格出售更高的收入。
对广告主的价值:
扩大覆盖:一次投放可以覆盖成千上万个媒体,触达更广泛的受众。
精准定向:利用ADN整合的跨站用户行为数据,实现比单一媒体更精准的受众定向(尤其是行为定向)。
操作便捷:通过一个统一的操作界面管理跨媒体投放。
核心矛盾:媒体希望获得高溢价(品牌价值),而ADN为了最大化填充率和收入,往往倾向于售卖效果流量(通过精准定向)。这导致了媒体品牌稀释和“贱卖”流量的风险。
2. 广告网络的核心技术流程
流量接入与标签化:
ADN通过SDK或JS标签接入媒体流量。
对每次曝光机会,ADN会尝试理解其上下文(页面内容、APP类别)和背后的用户(通过Cookie/Device ID识别,并查询用户画像)。
为这次曝光打上多种定向标签(如“体育频道”、“北京地区”、“男性”、“科技兴趣”),形成一个定向标签组合。
广告检索与匹配:
广告主在ADN后台设置广告活动,包括定向条件(如“男性 & 北京 & 科技兴趣”)、出价、预算、创意等。
当一次带有特定标签组合的曝光发生时,ADN的检索系统需要快速找到所有定向条件被该标签组合完全包含的广告活动。这是一个多维度布尔查询问题。
竞价与排序:
对匹配的广告活动,ADN同样采用GSP或其变种进行竞价排序。排名分数通常为 出价×pCTR出价×pCTR。
与搜索广告不同,这里的pCTR预估模型需要面对极其多样的上下文和用户组合,特征稀疏,挑战更大。
创意投放与监测:
将胜出广告的创意返回给媒体进行展示。
ADN负责监测广告的展示、点击,并进行反作弊过滤,然后与媒体和广告主分别结算。
3. 关键技术挑战
用户识别与数据整合:ADN的核心优势在于跨站行为数据。这依赖于稳定的用户标识符(第三方Cookie、移动设备ID)。随着隐私政策收紧,这部分能力被严重削弱,是ADN面临的最大生存挑战。
点击率预估的冷启动与分布外泛化:
冷启动:对于新广告、新媒体、新用户,缺乏历史数据。
分布外泛化:模型在训练时见过的(媒体, 用户, 广告)组合,只是线上可能组合的极小一部分。模型必须能泛化到未见过的组合。这需要利用元特征(如媒体的类别、广告的行业)和领域自适应技术。
流量质量参差不齐与反作弊:聚合流量的质量方差极大,部分媒体可能存在低质流量或作弊流量。ADN需要建立强大的流量质量评级系统和实时反作弊过滤,以保护广告主利益和自身信誉。
与媒体自有广告服务器的竞争:大型优质媒体倾向于建立自己的广告服务器,直接对接广告交易平台或DSP,以获取更高收入和控制权(即供应方平台SSP模式)。ADN的流量池逐渐被挤压至中长尾。
4. 广告网络的演进:从网络到交易平台
传统的ADN是“批发买断,零售卖出”的模式,对媒体采用固定分成的CPM/CPC结算。这种模式不透明,且媒体无法参与每次拍卖的价格决定。
实时竞价(RTB)和广告交易平台(Ad Exchange, ADX)的出现,给出了更优解。在RTB模式下,媒体可以通过SSP,将每次曝光以实时竞价的方式售卖给多个DSP(需求方平台),价高者得。这给了媒体获得市场公允价格的机会。
因此,传统ADN的角色在分化:
一部分进化为DSP:专注于服务广告主,通过RTB方式跨多个ADX采购流量。
一部分进化为SSP:专注于服务媒体,帮助其通过RTB最大化收入。
一部分坚守特定垂直领域或海外市场:在RTB生态尚未完全覆盖的领域继续发挥作用。
总结:广告网络是竞价广告模式普及的关键推手,它通过技术手段将分散的、异质的展示广告市场初步标准化和规模化。尽管其传统模式正被更透明、高效的RTB生态所演进和替代,但其所奠定的受众定向、竞价排序、流量聚合等核心技术,已成为程序化广告的基石。理解广告网络,是理解从搜索广告到全域展示广告这一关键扩展的桥梁。
13.4 广告检索
广告检索是竞价广告系统的“发动机”。在毫秒级的时间内,它必须从可能高达数十亿的广告库中,快速筛选出与当前请求(用户+上下文)最相关的数百到数千个候选广告,供后续的排序阶段进行精排。这是一个典型的大规模信息检索问题,但带有强烈的商业约束(定向条件)和语义匹配需求。
13.4.1 布尔表达式的检索
这是广告检索最基础、最核心的任务。广告主设置的定向条件(如“地域=北京 AND 兴趣包含‘汽车’ AND 年龄在25-40之间”)本质上是一个布尔表达式。检索系统需要找出所有布尔表达式被当前请求特征评估为“真”的广告。
挑战:
表达式复杂:可能是多层AND、OR、NOT的组合。
索引巨大:广告库庞大,每个广告的定向条件相当于一个“文档”,需要建立索引。
实时性要求高:响应时间通常在10毫秒以内。
解决方案:倒排索引 + 跳表
建立索引:不是以广告为键,而是以定向维度上的取值(即标签)为键。例如:
键
地域=北京-> 倒排列表:[广告A, 广告D, 广告F, ...]键
兴趣=汽车-> 倒排列表:[广告A, 广告B, 广告C, ...]键
年龄区间=25-30-> 倒排列表:[广告B, 广告D, ...]
查询处理:当请求到来时,提取其特征:
{地域=北京, 兴趣=汽车, 年龄=28}。根据特征,取出对应的倒排列表:
L1 = list(地域=北京), L2 = list(兴趣=汽车), L3 = list(年龄区间=25-30)。因为定向条件是AND连接,所以需要求这些列表的交集。即找出同时出现在L1、L2、L3中的广告ID。
高效求交集算法:
如果列表有序,可以使用双指针法或跳表进行多路归并,快速求得交集。
优先从最短的列表开始处理,可以减少比较次数。
对于OR操作,则需求并集;对于NOT操作,则需求差集。
优化:
表达式预处理与优化:将复杂的布尔表达式转换成更高效的合取范式(CNF)或析取范式(DNF),并优化求值顺序。
索引压缩:对倒排列表进行整数压缩(如Varint, Frame-of-Reference),减少内存占用和内存带宽。
分层索引:对热门标签和冷门标签建立不同的索引结构,分区处理。
13.4.2 相关性检索
布尔检索确保了广告符合定向要求,但无法保证广告与当前上下文(如搜索词、页面内容)在语义上相关。相关性检索的目标是在布尔检索初筛的基础上,进一步根据文本相关性进行过滤和排序。
方法:可以看作是传统信息检索在广告领域的应用。
基于关键词的向量空间模型:将广告文案和查询/页面内容表示为TF-IDF向量,计算余弦相似度。筛选出相似度高于阈值的广告。
集成到检索过程中:一种常见做法是进行两阶段检索:
阶段一(召回):使用布尔索引快速找出所有定向匹配的广告(可能数万)。
阶段二(粗排):对这数万广告,使用一个轻量级的相关性模型(如BM25、浅层神经网络)进行快速打分和截断,保留top K(如1000)个相关性最高的广告,送入后续的精排环节。
挑战:语义鸿沟问题依然存在。
13.4.3 基于DNN的语义建模
为了真正理解语义,深度学习模型被引入广告检索,形成了“语义召回”或“深度召回”范式。
核心思想:学习一个函数,将用户/请求和广告分别映射到同一个低维语义空间,使得相关的(用户, 广告)对在这个空间中的距离(如内积)更近。
经典模型:双塔模型
结构:用户侧塔和广告侧塔是两个独立的神经网络(可以是MLP、CNN或Transformer),分别处理用户特征和广告特征,输出一个固定维度的向量(Embedding)。
训练:训练目标是最大化正样本(用户点击过的广告)对向量内积,最小化负样本对的内积。损失函数通常使用基于采样的Softmax或Pairwise Hinge Loss。
线上服务:
离线:将广告库中所有广告通过广告塔预计算好向量,并建立向量索引(如KD-Tree, 局部敏感哈希LSH, 或更先进的FAISS)。
在线:当用户请求到来时,实时通过用户塔计算用户向量,然后在广告向量索引中执行近似最近邻搜索,快速召回最相似的Top N个广告。
优势:
强大的语义理解:能捕捉同义词、语义关联,超越字面匹配。
端到端特征学习:可以融合多种异构特征(ID类、文本类、统计类)。
个性化:用户塔可以包含丰富的用户历史行为特征,实现高度个性化的召回。
挑战:
冷启动:对新广告、新用户,模型表现不佳。
索引更新:广告向量需要随着广告上下线和模型更新而同步更新,对工程系统要求高。
ANN检索精度与效率的权衡:近似检索会损失精度,需要仔细调参。
13.4.4 最近邻语义检索
这是基于DNN语义召回的工程实现核心,即如何从数亿甚至数百亿的广告向量中,在毫秒内找到与用户向量最相似的几十个。
问题本质:大规模近似最近邻搜索。
主流解决方案:FAISS
FAISS是Facebook开源的库,专为稠密向量相似性搜索和聚类优化。
核心索引类型:
IVF(倒排文件):先对向量空间进行聚类(如K-Means),得到若干聚类中心。搜索时,先找到距离查询向量最近的几个聚类中心,然后只在这些聚类包含的向量中进行精确或进一步近似的搜索。这大大缩小了搜索范围。
PQ(乘积量化):将高维向量切分成多个子段,对每个子段的所有可能值进行聚类(量化),用聚类中心的ID来代表原始子向量。这样,一个向量就被压缩成一串短编码。距离计算可以通过查预计算的距离表快速完成,内存占用和计算量大幅降低。
HNSW(可导航小世界图):基于图结构的索引,在构建时通过启发式方法将向量连接成一张具有“小世界”属性的图(既有短程连接保证精度,又有长程连接保证搜索速度)。搜索时,从随机或固定点出发,在图上进行“贪心”遍历,快速逼近最近邻。HNSW通常在精度和速度的平衡上表现优异。
工程实践:
分层检索:结合多种索引。例如,先用IVF进行粗筛(召回几千个),再用PQ或精确计算进行重排序,得到最终几百个。
分布式索引:当单个节点内存无法容纳全部向量时,需要将索引分片存储在多台机器上,进行分布式检索。
量化与精度:使用PQ等有损压缩会损失精度,需要根据业务对精度的要求选择压缩比。
动态更新:支持增量添加新向量和删除旧向量,对于广告库的频繁更新至关重要。
总结:广告检索技术的发展,是从“硬匹配”到“软相关”,再到“深语义”的演进过程。布尔索引保证了商业规则的执行,是广告系统的纪律底线;相关性检索引入了文本匹配的智能;而基于DNN的语义召回和ANN搜索,则赋予了系统理解用户深层意图和广告丰富内涵的能力,是提升召回质量的上限。现代大型广告系统通常采用多路召回策略:布尔检索、基于行为的协同过滤召回、语义召回等多路并行,最后将结果融合,确保召回结果的多样性、相关性和商业合规性。它是连接海量库存与瞬时需求的、高速运转的智能过滤网,其性能直接决定了后续排序阶段的天花板。