BGE-M3实战教程：法律案例相似度分析系统-开发者社区

BGE-M3实战教程：法律案例相似度分析系统

1. 引言

1.1 学习目标

本文将带你从零开始构建一个基于BAAI/bge-m3模型的法律案例相似度分析系统。通过本教程，你将掌握以下技能：

如何使用bge-m3模型对长文本进行语义向量化
构建支持中文法律文书的语义匹配系统
实现可视化 WebUI 接口用于案例比对
在纯 CPU 环境下部署高性能语义检索服务
验证 RAG 场景下的召回质量与语义相关性

最终成果是一个可运行的、面向法律领域的语义相似度分析工具，适用于判例参考、法条匹配和案件归档等实际场景。

1.2 前置知识

为顺利跟随本教程，请确保具备以下基础：

Python 编程基础（熟悉函数与类）
了解基本的 NLP 概念（如词向量、余弦相似度）
熟悉命令行操作与虚拟环境管理
有简单的 Web 开发认知（非必须）

无需 GPU 或深度学习背景，整个系统可在普通 CPU 服务器上高效运行。

1.3 教程价值

与通用文本相似度工具不同，本文聚焦于专业领域长文本语义理解，特别针对中国司法实践中常见的判决书、起诉书等结构化文本设计优化方案。相比传统关键词匹配或 TF-IDF 方法，本系统能精准识别“表述不同但含义相近”的法律事实描述，显著提升信息检索效率。

2. 环境准备与项目初始化

2.1 创建项目目录

首先创建项目主目录并进入：

mkdir legal-similarity-system cd legal-similarity-system

初始化 Python 虚拟环境（推荐使用venv）：

python -m venv venv source venv/bin/activate # Linux/Mac # 或在 Windows 上： # venv\Scripts\activate

2.2 安装核心依赖库

创建requirements.txt文件，写入以下内容：

transformers>=4.35.0 torch>=2.1.0 sentence-transformers>=2.2.3 gradio>=4.0.0 numpy>=1.21.0 pandas>=1.5.0 datasets>=2.14.0

安装依赖：

pip install -r requirements.txt

注意：sentence-transformers是bge-m3的最佳运行框架，已针对 CPU 推理做了内存与速度优化。

2.3 下载 BGE-M3 模型

使用 ModelScope 或 Hugging Face 下载模型权重。推荐使用 ModelScope 获取官方版本：

from modelscope import snapshot_download model_dir = snapshot_download('AI-ModelScope/bge-m3') print(f"模型已下载至: {model_dir}")

若无法访问 ModelScope，也可通过 Hugging Face 获取：

git lfs install git clone https://huggingface.co/BAAI/bge-m3

3. 核心功能实现

3.1 加载模型与文本编码器

创建embedding_engine.py文件，实现模型加载与向量生成逻辑：

# embedding_engine.py from sentence_transformers import SentenceTransformer import numpy as np from typing import List, Union class BGEM3Embedder: def __init__(self, model_path: str = "BAAI/bge-m3"): """ 初始化 bge-m3 嵌入模型 支持本地路径或 HuggingFace ID """ self.model = SentenceTransformer(model_path) self.model.eval() # 启用推理模式 def encode(self, texts: Union[str, List[str]], batch_size: int = 8, normalize: bool = True) -> np.ndarray: """ 将文本转换为 1024 维语义向量 """ if isinstance(texts, str): texts = [texts] embeddings = self.model.encode( texts, batch_size=batch_size, normalize_embeddings=normalize, show_progress_bar=False ) return np.array(embeddings) # 示例调用 if __name__ == "__main__": embedder = BGEM3Embedder("./bge-m3") vec = embedder.encode("这是一起合同纠纷案件") print(f"向量维度: {vec.shape}") # 输出: (1, 1024)

该模块封装了模型加载、批量编码和归一化处理，是整个系统的语义理解核心。

3.2 计算语义相似度

创建similarity_calculator.py，实现余弦相似度计算：

# similarity_calculator.py import numpy as np from numpy.linalg import norm def cosine_similarity(vec_a: np.ndarray, vec_b: np.ndarray) -> float: """ 计算两个向量间的余弦相似度 返回值范围: [0, 1]，越接近1表示越相似 """ if vec_a.ndim == 1: vec_a = vec_a.reshape(1, -1) if vec_b.ndim == 1: vec_b = vec_b.reshape(1, -1) dot_product = np.sum(vec_a * vec_b, axis=1) norms = norm(vec_a, axis=1) * norm(vec_b, axis=1) similarities = dot_product / (norms + 1e-9) # 防止除零 return float(similarities[0]) # 测试示例 if __name__ == "__main__": from embedding_engine import BGEM3Embedder embedder = BGEM3Embedder("./bge-m3") text_a = "被告人因盗窃罪被判处三年有期徒刑" text_b = "被告因非法占有他人财物获刑三年" vec_a = embedder.encode(text_a) vec_b = embedder.encode(text_b) sim_score = cosine_similarity(vec_a, vec_b) print(f"相似度得分: {sim_score:.4f}") # 示例输出: 0.8765

此模块实现了高精度浮点运算，并加入防溢出保护，适合生产环境调用。

3.3 构建法律案例数据库

创建模拟的法律案例数据集legal_cases.json：

[ { "id": "CASE_001", "title": "盗窃罪量刑参考案例", "content": "被告人张某于2023年5月在商场内秘密窃取他人手机一部，经鉴定价值人民币4800元。法院认为其行为构成盗窃罪，鉴于其初犯且退赃，判处有期徒刑一年六个月，缓刑两年。" }, { "id": "CASE_002", "title": "诈骗罪与盗窃罪区分案例", "content": "李某虚构投资项目骗取投资人资金共计20万元，后用于个人挥霍。法院认定其以非法占有为目的，采用虚构事实方式骗取财物，构成诈骗罪，判处有期徒刑五年。" }, { "id": "CASE_003", "title": "多次盗窃加重处罚案例", "content": "王某在过去一年内连续实施八次小额盗窃，累计金额达1.2万元。虽单次未达立案标准，但综合情节恶劣，法院依法认定为‘多次盗窃’，判处有期徒刑三年。" } ]

编写案例加载与检索脚本case_database.py：

# case_database.py import json import numpy as np from typing import List, Dict, Tuple class LegalCaseDB: def __init__(self, data_file: str): with open(data_file, 'r', encoding='utf-8') as f: self.cases = json.load(f) self.case_embeddings = None self.embedder = None def build_index(self, embedder): """构建案例向量索引""" self.embedder = embedder contents = [case['content'] for case in self.cases] self.case_embeddings = embedder.encode(contents) print(f"已构建 {len(self.cases)} 个案例的向量索引") def search_similar(self, query: str, top_k: int = 3) -> List[Tuple[Dict, float]]: """查找最相似的案例""" if self.case_embeddings is None: raise RuntimeError("请先调用 build_index() 构建索引") query_vec = self.embedder.encode(query) scores = [] for i, case_vec in enumerate(self.case_embeddings): score = cosine_similarity(query_vec, case_vec) scores.append((self.cases[i], score)) # 按相似度排序 scores.sort(key=lambda x: x[1], reverse=True) return scores[:top_k]

4. 可视化 WebUI 设计

4.1 使用 Gradio 构建交互界面

创建app.py，集成所有组件并启动 Web 服务：

# app.py import gradio as gr from embedding_engine import BGEM3Embedder from similarity_calculator import cosine_similarity from case_database import LegalCaseDB # 全局加载资源 embedder = BGEM3Embedder("./bge-m3") case_db = LegalCaseDB("legal_cases.json") case_db.build_index(embedder) def analyze_similarity(text_a: str, text_b: str): vec_a = embedder.encode(text_a) vec_b = embedder.encode(text_b) score = cosine_similarity(vec_a, vec_b) # 分级判断 if score > 0.85: level = "极度相似" elif score > 0.6: level = "语义相关" else: level = "不相关" return { "相似度": f"{score:.4f}", "判断等级": level } def retrieve_similar_cases(query: str): results = case_db.search_similar(query, top_k=3) table_data = [] for case, score in results: table_data.append([ case["id"], case["title"], f"{score:.4f}" ]) return table_data # 构建 UI 界面 with gr.Blocks(title="法律案例相似度分析系统") as demo: gr.Markdown("# 🏛️ 法律案例相似度分析系统") gr.Markdown("> 基于 BAAI/bge-m3 模型的语义匹配引擎") with gr.Tab("文本相似度分析"): with gr.Row(): with gr.Column(): text_a = gr.Textbox(label="基准文本", lines=5) text_b = gr.Textbox(label="比较文本", lines=5) btn_sim = gr.Button("📊 分析相似度") with gr.Column(): output = gr.JSON(label="分析结果") btn_sim.click(analyze_similarity, inputs=[text_a, text_b], outputs=output) with gr.Tab("案例智能检索"): query_input = gr.Textbox(label="输入案件描述", placeholder="例如：被告人多次盗窃小额财物...") btn_search = gr.Button("🔍 检索相似案例") output_table = gr.Dataframe( headers=["案例ID", "标题", "相似度"], label="匹配结果" ) btn_search.click(retrieve_similar_cases, inputs=query_input, outputs=output_table) # 启动服务 if __name__ == "__main__": demo.launch(server_name="0.0.0.0", server_port=7860, share=False)

4.2 运行与访问

执行启动命令：

python app.py

控制台输出：

Running on local URL: http://0.0.0.0:7860

打开浏览器访问该地址即可使用图形化界面进行法律文本比对与案例检索。

5. 性能优化与工程建议

5.1 CPU 推理加速技巧

尽管bge-m3为大模型，但在 CPU 上仍可通过以下方式实现毫秒级响应：

启用 ONNX Runtime：将模型导出为 ONNX 格式，推理速度提升约 40%

from sentence_transformers import SentenceTransformer model = SentenceTransformer('BAAI/bge-m3') model.save('./bge-m3-onnx/', optimize_tensors=True)

使用量化模型：FP16 或 INT8 降低内存占用

model = SentenceTransformer('BAAI/bge-m3', device='cpu') # 自动启用 CPU 优化

批处理请求：合并多个查询一次性编码，提高吞吐量

5.2 长文本处理策略

对于超过 8192 token 的判决书，建议采用分段加权聚合：

def encode_long_text(self, text: str, chunk_size: int = 512): sentences = split_text_into_sentences(text) chunks = group_sentences(sentences, max_tokens=chunk_size) chunk_embeddings = self.encode(chunks) # 使用注意力权重或简单平均 final_embedding = np.mean(chunk_embeddings, axis=0) return final_embedding / np.linalg.norm(final_embedding)

5.3 RAG 场景下的召回验证方法

在构建法律知识库时，可用本系统验证检索效果：

# 验证 RAG 召回质量 query = "交通事故中逃逸如何定罪？" retrieved_doc = vector_db.search(query)[0] similarity = cosine_similarity( embedder.encode(query), embedder.encode(retrieved_doc) ) if similarity < 0.5: print("⚠️ 警告：召回文档与问题语义相关性低，需优化索引或分块策略")

6. 总结

6.1 学习路径建议

完成本教程后，你可以进一步深入以下方向：

将系统接入真实法律数据库（如裁判文书网 API）
添加多模态支持（结合表格、图像证据）
实现增量索引更新机制
部署为 RESTful API 供其他系统调用
结合 LLM 实现自动摘要与判决建议生成

6.2 资源推荐

官方模型仓库：https://huggingface.co/BAAI/bge-m3
Sentence Transformers 文档：https://www.sbert.net/
Gradio 官方教程：https://gradio.app/
MTEB 排行榜：https://mteb.org/

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

BGE-M3实战教程：法律案例相似度分析系统