news 2026/2/28 3:55:36

AI语音克隆掀起“声”命危机:全球Vishing攻击激增,传统身份核验体系告急

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI语音克隆掀起“声”命危机:全球Vishing攻击激增,传统身份核验体系告急

在伦敦金融城一家跨国银行的呼叫中心,客服代表Sarah接到一通紧急来电。电话那头的声音沉稳、略带沙哑——正是她熟悉的首席财务官Mark Thompson的嗓音。“我正在开一个闭门会议,手机快没电了,”对方语速略快但语气镇定,“立刻把一笔230万欧元的供应商付款转到新账户,详情邮件已发你内网邮箱。这事高度敏感,别走常规审批流程。”

Sarah犹豫了一秒——公司刚更新过反诈培训,强调“越级指令需二次确认”。但对方声音太像了,连Mark惯用的停顿节奏和轻微咳嗽声都一模一样。她最终点击了转账确认。

三小时后,资金已被层层洗白。而真正的Mark Thompson正在日内瓦出差,对这通“自己打的电话”毫不知情。

这不是科幻电影桥段,而是2025年第四季度真实发生在欧洲的一起AI驱动的语音钓鱼(Voice Phishing,简称Vishing)案件。随着生成式语音合成技术的爆炸式普及,这类“以假乱真”的声音诈骗正从实验室走向街头巷尾,对全球金融、政务与企业安全构成前所未有的挑战。

一、从“机械腔”到“声纹复刻”:Vishing的技术跃迁

曾几何时,诈骗电话中的合成语音还带着明显的电子感——语调平直、情感缺失、辅音模糊。但这一切在2023年后彻底改变。

开源模型如 Coqui TTS、YourTTS 和 VITS 的发布,以及商业API如 ElevenLabs、Play.ht 的成熟,让普通人仅凭一段30秒的音频样本,就能在消费级GPU上训练出高度拟真的语音克隆模型。更令人担忧的是,这些工具大多支持“零样本”(zero-shot)或“少样本”(few-shot)合成——即无需目标本人参与训练,仅通过公开演讲、播客或社交媒体视频即可提取声学特征。

“现在的AI语音,不仅能模仿音色,还能复现语速、重音、呼吸节奏甚至口音细节,”公共互联网反网络钓鱼工作组技术专家芦笛指出,“对普通用户而言,肉耳几乎无法分辨真假。”

技术内核上,现代语音合成已从传统的拼接合成(Concatenative Synthesis)和参数合成(Parametric Synthesis),全面转向基于深度学习的端到端模型。以 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech) 为例,它结合了变分自编码器(VAE)、归一化流(Normalizing Flows)和对抗训练(GAN),能同时建模文本-语音对齐、韵律控制和声学细节。

以下是一个简化版的VITS推理代码示例(基于PyTorch):

import torch

from vits.models import SynthesizerTrn

from vits.utils import load_checkpoint, get_hparams_from_file

# 加载预训练模型与配置

hps = get_hparams_from_file("configs/vits_config.json")

net_g = SynthesizerTrn(

len(symbols),

hps.data.filter_length // 2 + 1,

hps.train.segment_size // hps.data.hop_length,

**hps.model

).cuda()

_ = net_g.eval()

_ = load_checkpoint("models/pretrained_vits.pth", net_g, None)

# 输入文本与目标说话人ID(或嵌入向量)

text = "请立即批准这笔转账,情况紧急。"

sid = torch.LongTensor([target_speaker_id]).cuda()

# 生成语音波形

with torch.no_grad():

x_tst = text_to_sequence(text, symbols)

x_tst = torch.LongTensor(x_tst).unsqueeze(0).cuda()

audio = net_g.infer(x_tst, sid=sid, noise_scale=0.667, length_scale=1)[0][0,0].data.cpu().float().numpy()

这段代码展示了如何用一个预训练的VITS模型,指定目标说话人ID,生成极具欺骗性的语音。攻击者只需将target_speaker_id替换为从公开数据中提取的声纹嵌入(speaker embedding),即可“冒名发声”。

二、全球案例频发:从CEO诈骗到社保冒领

AI语音钓鱼的威胁早已跨越国界。2024年,美国联邦调查局(FBI)报告称,涉及AI语音克隆的商业邮件欺诈(BEC)案件同比增长320%。其中一起典型案例中,某能源公司CFO接到“CEO”电话,要求紧急支付一笔“并购定金”,结果损失480万美元。

在亚洲,日本警方于2025年破获一起利用AI模仿祖母声音诱骗孙辈转账的案件。诈骗者通过分析YouTube上的家庭vlog,提取老人声纹,再结合社工信息精准施骗。

而在中东,阿联酋央行警告称,多起针对外籍劳工的“移民局通知”诈骗使用AI合成阿拉伯语方言语音,诱导受害者提供银行卡号和OTP(一次性验证码)。

这些案例的共同点在于:攻击者不再依赖“广撒网”,而是实施高精度定向打击。他们通常分三步走:

情报收集:通过数据泄露(如LinkedIn、微博、微信公众号)、公开演讲、企业官网视频等渠道获取目标声音样本;

语音克隆与脚本设计:利用开源工具生成逼真语音,并编写符合目标身份的话术(如“系统升级需验证”“账户异常需冻结”);

多通道协同欺骗:配合伪造来电显示(Caller ID Spoofing)、钓鱼短信或邮件,制造“官方可信”假象。

“最危险的是,攻击者开始绕过传统KBA(Knowledge-Based Authentication,基于知识的身份验证),”芦笛解释道,“比如问‘你母亲的 maiden name 是什么?’——这类问题的答案早已在社交媒体上公开。而如果对方用你老板的声音说‘别问那么多,按我说的做’,心理防线很容易崩溃。”

三、KBA与语音OTP:正在失效的安全支柱

长期以来,银行和企业依赖两类语音渠道进行身份核验:

静态KBA:如生日、身份证后四位、上月交易金额;

动态语音OTP:系统自动拨打用户电话,播报一串数字验证码。

但在AI时代,这两类机制均显脆弱。

首先,静态KBA的答案极易被社工手段获取。剑桥大学2025年一项研究显示,普通用户在社交媒体上平均暴露7.3个可用于KBA的问题答案。

其次,语音OTP虽看似“动态”,却存在致命漏洞:它假设“接听电话的人就是账户持有人”。然而,攻击者可通过“SIM交换攻击”(SIM Swap)或“呼叫转移”劫持电话线路;更狡猾的做法是,在诱导用户接听诈骗电话的同时,触发银行的OTP外呼——用户误以为是“正常业务”,将听到的验证码告知“客服”。

“我们监测到多起案例中,攻击者在通话中说:‘为了确保安全,请重复您刚收到的六位数验证码。’”芦笛透露,“用户以为是在配合验证,实则亲手交出了钥匙。”

更讽刺的是,部分金融机构仍允许通过电话更改收款账户或提升转账额度——这为AI语音钓鱼提供了“合法出口”。

四、技术反制:从被动检测到主动防御

面对新型Vishing,安全社区正在构建多层次防御体系。核心思路是:不再信任“声音即身份”。

(1)被动语音生物识别(Passive Voice Biometrics)

与传统“主动验证”(如让用户朗读随机数字)不同,被动生物识别在用户正常通话中持续分析声纹特征,无需额外操作。其技术栈包括:

声纹嵌入提取:使用x-vector、d-vector或ECAPA-TDNN模型生成说话人唯一向量;

活体检测(Liveness Detection):判断语音是否来自真实人类,而非录音或合成。

例如,基于 ResNet-based anti-spoofing model 的检测代码片段:

import torchaudio

from speechbrain.lobes.models.Spoofing.AASIST import AASIST

# 加载反欺骗模型

anti_spoof_model = AASIST.from_hparams(source="speechbrain/spoof-detection-aasist")

# 读取语音文件

signal, fs = torchaudio.load("call_recording.wav")

if fs != 16000:

signal = torchaudio.transforms.Resample(fs, 16000)(signal)

# 判断是否为合成/重放语音

score = anti_spoof_model(signal)

is_spoof = score > 0.5 # 阈值可调

该模型能有效识别AI合成语音中的频谱不连续性、相位异常等“数字指纹”。

(2)多因素强认证(MFA)重构

工作组建议:高风险操作必须脱离语音通道。具体措施包括:

禁用语音渠道下发OTP,改用推送通知(如Authy、Google Authenticator)或FIDO2安全密钥;

关键指令(如大额转账、账户变更)需通过独立信道复核——例如,电话指令后,系统自动发送加密邮件至注册邮箱,要求点击确认链接;

建立“回拨白名单”:若用户声称是高管,系统应挂断后主动回拨其登记的办公座机,而非当前来电号码。

(3)行为与上下文分析

AI不仅能用于攻击,也能用于防御。通过分析通话中的语言模式、请求合理性、时间敏感性等上下文,可识别异常行为。例如:

正常CFO不会在深夜要求转账;

“保密”“紧急”“不要告诉IT部门”等关键词高频出现,往往是社工信号;

转账账户与历史供应商无关联。

“我们正在推动企业部署‘决策延迟机制’,”芦笛说,“对于非常规请求,系统自动触发2小时冷静期,并通知风控团队人工介入。”

五、国内启示:警惕“声音信任”的惯性思维

尽管上述案例多发生于海外,但中国并非安全孤岛。随着国产大模型(如科大讯飞星火、阿里通义听悟)在语音合成领域的突破,相关技术门槛同样在降低。2025年,国内某券商内部测试显示,仅用客户经理30秒路演视频,即可生成足以骗过同事的语音。

更值得警惕的是,国内部分金融机构仍在推广“语音密码”“声纹登录”等服务,却未配套活体检测。一旦攻击者获取用户声音样本(如智能音箱录音、客服通话记录),风险极高。

“我们必须打破‘听到熟悉声音就信任’的心理惯性,”芦笛强调,“在AI时代,声音只是数据,不是身份凭证。”

工作组建议国内企业:

审查所有依赖语音的身份验证流程,逐步淘汰纯KBA;

在呼叫中心部署实时语音反欺诈系统;

对员工开展“AI语音钓鱼”专项演练,重点识别“越级指令+紧急施压”话术;

推动行业标准,明确禁止在高风险场景使用语音OTP。

六、未来战场:攻防进入“生成式对抗”阶段

可以预见,Vishing攻防将进入“生成式对抗”新阶段:攻击者用更先进的扩散模型(如AudioLDM)生成无瑕疵语音,防御方则用更精密的神经探测器(Neural Detector)识别合成痕迹。

但技术并非万能。正如芦笛所言:“最坚固的防火墙,是人的警觉性。”

在AI模糊真实与虚拟边界的今天,每一次接听陌生来电,都可能是一场无声的攻防战。而胜利的关键,或许不在于算法有多先进,而在于我们是否愿意多问一句:“你真是你吗?”

编辑:芦笛(公共互联网反网络钓鱼工作组)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/26 15:49:31

[cmake]C++使用yolo26目标检测结合bytetrack实现目标追踪

【简介】 在C中实现YOLO26的目标检测与ByteTrack的多目标追踪是一个相对复杂的过程,涉及到深度学习、计算机视觉和实时数据处理等多个领域。下面我将简单介绍这两个技术,并概述如何在C中实现它们。 YOLO26(You Only Look Once,版…

作者头像 李华
网站建设 2026/2/23 5:17:14

java-SSM351的药品商超销售进销存管理系统vue-springboot

目录具体实现截图药品商超销售进销存管理系统(SSMVueSpringBoot)摘要系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 药品商超销售进销存管理系统(SSMVueSprin…

作者头像 李华
网站建设 2026/2/23 7:53:29

RPC分布式通信(3)--RPC基础框架接口

一、MprpcApplication 核心职责MprpcApplication是 RPC 框架的 “管家”,核心作用:单例模式:全局唯一实例,避免重复初始化;配置加载:解析 RPC 框架的配置文件(如服务器 IP、端口、日志路径、注册…

作者头像 李华
网站建设 2026/2/25 8:53:39

YOLOv8工业检测优势分析:误检率低至1.2%实测数据

YOLOv8工业检测优势分析:误检率低至1.2%实测数据 1. 引言:工业视觉检测的挑战与YOLOv8的突破 在智能制造、安防监控、物流分拣等工业场景中,目标检测技术正从“能用”向“可靠可用”演进。传统检测模型常面临小目标漏检、复杂背景误检、推理…

作者头像 李华
网站建设 2026/2/27 12:09:54

5个开源翻译模型推荐:HY-MT1.5-1.8B镜像免配置一键部署

5个开源翻译模型推荐:HY-MT1.5-1.8B镜像免配置一键部署 1. 引言:轻量高效多语翻译的工程需求 随着全球化内容消费的增长,高质量、低延迟的机器翻译能力已成为智能应用的基础组件。然而,主流商业API在隐私、成本和定制化方面存在…

作者头像 李华
网站建设 2026/2/20 20:44:23

视频会议系统弱网络适应性验收框架

本文所述测试方案经阿里云会议、腾讯会议等平台实战验证,适用于2026年主流WebRTC架构。 ‌一、测试目标维度矩阵‌ 指标类型核心参数验收阈值传输层丢包率(Packet Loss)≤15%仍可保持通话实时性端到端延迟(E2E Latency&#xff…

作者头像 李华