余弦相似度怎么算？手把手教你分析CAM++输出向量-开发者社区

余弦相似度怎么算？手把手教你分析CAM++输出向量

1. 引言：从说话人识别到向量相似性计算

在语音识别与生物特征认证领域，说话人验证（Speaker Verification）是一项核心技术，其目标是判断两段语音是否来自同一个说话人。CAM++ 正是一个基于深度学习的高效说话人验证系统，能够将语音信号转化为高维特征向量（Embedding），并通过计算这些向量之间的余弦相似度来判断说话人的一致性。

本文将围绕CAM++ 系统输出的 192 维 Embedding 向量，深入解析： - 什么是余弦相似度？ - 如何手动实现并理解其数学原理？ - 如何加载和比对 CAM++ 提取的.npy特征文件？ - 实际工程中如何设置阈值进行判定？

通过本教程，你不仅能掌握余弦相似度的核心算法，还能将其应用于真实场景中的声纹比对任务。

2. 核心概念解析：Embedding 与余弦相似度

2.1 什么是 Embedding 向量？

在 CAM++ 系统中，每段音频经过神经网络模型处理后，会被映射为一个192 维的浮点数向量，称为 Embedding。这个向量捕捉了语音中与“说话人身份”相关的声学特征（如音色、语调、发音习惯等），而尽可能忽略内容信息。

✅关键特性： - 相同说话人的不同语音 → Embedding 向量距离近 - 不同说话人的语音 → Embedding 向量距离远

这种“用向量表示语义身份”的思想广泛应用于人脸识别、推荐系统、自然语言处理等领域。

2.2 为什么使用余弦相似度？

在高维空间中衡量两个向量的“相似程度”，常用方法有欧氏距离、余弦相似度等。CAM++ 使用的是余弦相似度（Cosine Similarity），原因如下：

方法	衡量维度	是否受向量长度影响	适用场景
欧氏距离	绝对位置差异	是	坐标定位类任务
余弦相似度	方向夹角	否	特征方向一致性判断

✅优势说明： - 只关注向量的方向（即特征分布模式），不关心模长（数值大小） - 更适合比较深度学习提取的归一化特征 - 输出值在[-1, 1]范围内，便于解释和设定阈值

3. 数学原理与代码实现

3.1 余弦相似度的定义公式

给定两个 n 维向量 $ \mathbf{A} $ 和 $ \mathbf{B} $，它们的余弦相似度定义为：

$$ \text{cosine_similarity}(\mathbf{A}, \mathbf{B}) = \frac{\mathbf{A} \cdot \mathbf{B}}{|\mathbf{A}| |\mathbf{B}|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \cdot \sqrt{\sum_{i=1}^{n} B_i^2}} $$

其中： - $ \mathbf{A} \cdot \mathbf{B} $：向量点积 - $ |\mathbf{A}| $：向量 A 的 L2 范数（模长）

结果范围： -1：完全同方向（极相似） -0：正交（无相关性） --1：完全反向（极不相似）

在 CAM++ 中，由于 Embedding 已做归一化处理，公式可简化为：
$$ \text{similarity} = \mathbf{A}{\text{norm}} \cdot \mathbf{B}{\text{norm}} $$

3.2 手动实现余弦相似度函数

下面提供一个完整的 Python 实现，并附带详细注释：

import numpy as np def cosine_similarity(emb1: np.ndarray, emb2: np.ndarray) -> float: """ 计算两个 Embedding 向量的余弦相似度 参数: emb1 (np.ndarray): 第一个特征向量，形状 (192,) emb2 (np.ndarray): 第二个特征向量，形状 (192,) 返回: float: 相似度分数，范围 [0, 1]（通常为正） """ # 步骤1：L2 归一化（使向量长度为1） emb1_norm = emb1 / np.linalg.norm(emb1) emb2_norm = emb2 / np.linalg.norm(emb2) # 步骤2：计算归一化后的点积（即余弦相似度） similarity = np.dot(emb1_norm, emb2_norm) return similarity # 示例用法 if __name__ == "__main__": # 加载两个由 CAM++ 生成的 .npy 文件 embedding_1 = np.load("outputs/embeddings/speaker1_a.npy") embedding_2 = np.load("outputs/embeddings/speaker1_b.npy") # 计算相似度 score = cosine_similarity(embedding_1, embedding_2) print(f"相似度分数: {score:.4f}") # 判定是否为同一人（默认阈值0.31） threshold = 0.31 is_same_speaker = score > threshold result = "✅ 是同一人" if is_same_speaker else "❌ 不是同一人" print(f"判定结果: {result} (阈值={threshold})")

🔍运行说明： - 将上述代码保存为compare_embeddings.py- 确保.npy文件路径正确 - 安装依赖：pip install numpy

4. 实践操作：加载与分析 CAM++ 输出向量

4.1 CAM++ 输出文件结构回顾

当启用“保存 Embedding”功能时，系统会创建类似以下结构的目录：

outputs/ └── outputs_20260104223645/ ├── result.json └── embeddings/ ├── speaker1_a.npy └── speaker2_a.npy

每个.npy文件存储了一个 NumPy 数组，可通过np.load()直接读取。

4.2 批量比对多个音频对

我们可以扩展上面的代码，支持批量比对多个音频组合：

import os import glob from pathlib import Path def batch_compare(directory: str, threshold: float = 0.31): """ 批量比对指定目录下的所有 .npy 文件组合 """ npy_files = sorted(glob.glob(os.path.join(directory, "*.npy"))) results = [] for i, file1 in enumerate(npy_files): for j, file2 in enumerate(npy_files): if i >= j: # 避免重复和自比 continue name1 = Path(file1).stem name2 = Path(file2).stem emb1 = np.load(file1) emb2 = np.load(file2) sim = cosine_similarity(emb1, emb2) results.append({ "file1": name1, "file2": name2, "similarity": round(sim, 4), "match": sim > threshold }) return results # 使用示例 results = batch_compare("outputs/embeddings/") for r in results: match_icon = "✅" if r["match"] else "❌" print(f"{r['file1']} vs {r['file2']}: {r['similarity']:.4f} {match_icon}")

4.3 可视化 Embedding 分布（可选进阶）

为了更直观地观察不同说话人的特征分布，可以使用 t-SNE 或 PCA 进行降维可视化：

import matplotlib.pyplot as plt from sklearn.decomposition import PCA # 假设有多个类别（speaker1, speaker2...） embeddings = [] labels = [] for npy_file in glob.glob("outputs/embeddings/*.npy"): emb = np.load(npy_file) speaker_name = Path(npy_file).stem.split('_')[0] # 如 speaker1_a -> speaker1 embeddings.append(emb) labels.append(speaker_name) # 降维到2D pca = PCA(n_components=2) reduced = pca.fit_transform(embeddings) # 绘图 plt.figure(figsize=(8, 6)) for speaker in set(labels): idx = [i for i, s in enumerate(labels) if s == speaker] plt.scatter(reduced[idx, 0], reduced[idx, 1], label=speaker, alpha=0.7) plt.legend() plt.title("PCA Visualization of CAM++ Embeddings") plt.xlabel("First Principal Component") plt.ylabel("Second Principal Component") plt.grid(True, alpha=0.3) plt.show()

5. 阈值选择与实际应用建议

5.1 阈值的影响机制

CAM++ 默认阈值为0.31，但该值需根据应用场景调整：

应用场景	推荐阈值	说明
高安全性验证（如金融）	0.5 ~ 0.7	提高拒真率，降低误识风险
一般身份核验（如登录）	0.3 ~ 0.5	平衡准确率与用户体验
初步筛选或聚类	0.2 ~ 0.3	宽松匹配，保留更多候选