药品包装识别：辅助老年人了解用药信息-开发者社区

药品包装识别：辅助老年人了解用药信息

1. 引言：技术赋能银发群体的用药安全

随着人口老龄化趋势加剧，老年人群在日常用药过程中面临诸多挑战。药品名称字体小、说明书内容复杂、多药并用易混淆等问题，显著增加了误服、漏服的风险。传统的语音助手或文字放大工具虽有一定帮助，但无法实现对药品包装的“理解式”识别。

在此背景下，利用AI视觉技术构建智能药品识别系统成为一种高效解决方案。本文将基于阿里开源的万物识别-中文-通用领域模型，探索其在药品包装识别场景中的实际应用路径。该模型具备开放域物体识别能力，并能输出自然语言形式的中文标签，非常适合用于辅助老年人快速获取药品关键信息。

本方案的核心价值在于： - ✅无需定制训练：支持零样本识别，可直接识别未见过的药品包装 - ✅本地化语义表达：输出中文结果，便于老年用户理解 - ✅轻量级部署：可在边缘设备或云服务器上快速运行 - ✅高泛化能力：适应不同品牌、剂型、包装风格的药品

通过整合图像识别与语音播报功能，我们可打造一个“拍照即懂”的用药辅助系统，真正实现技术普惠。

2. 技术选型与模型特性分析

2.1 为什么选择“万物识别-中文-通用领域”？

在众多图像分类模型中，传统CNN架构（如ResNet）受限于固定类别体系，难以覆盖成千上万种药品；而CLIP类多模态模型虽支持开放域识别，但多数以英文为语义空间，存在本地化障碍。

阿里开源的“万物识别-中文-通用领域”模型采用视觉-语言联合建模架构，具备以下独特优势：

特性	说明
开放域识别能力	不依赖预设标签库，可识别任意物体
中文语义输出	直接生成符合中文习惯的描述性标签
零样本推理	无需微调即可识别新类别
多粒度标签	同时输出宏观类别（如“药品”）和具体名称（如“阿司匹林”）

该模型基于大规模中文图文对进行训练，使用ViT作为图像编码器，结合Transformer解码器生成语义标签，在文化适配性和语义准确性方面表现优异。

2.2 模型工作原理简析

该模型本质上是一个图像到文本的映射系统，其推理流程如下：

图像输入 → ViT编码器提取视觉特征
视觉特征 → 与内置的中文语义向量空间计算相似度
相似度排序 → 输出Top-K最匹配的中文标签

不同于传统分类任务，它不依赖softmax分类头，而是通过跨模态对齐机制实现语义检索。例如输入一张布洛芬缓释胶囊的图片，可能输出：

止痛药: 0.96 非甾体抗炎药: 0.89 胶囊制剂: 0.82 处方药: 0.75 成人用药: 0.68

这种多层次、可解释的输出结构，特别适合用于药品信息的初步筛查。

3. 实践部署：从环境配置到完整识别流程

3.1 基础运行环境准备

根据镜像文档，模型运行依赖PyTorch 2.5及配套生态组件。系统已预置py311wwtsConda环境，包含所需依赖。

查看依赖列表：

cat /root/requirements.txt

主要依赖包括： -torch>=2.5-transformers-Pillow-numpy

激活环境：

conda activate py311wwts

验证CUDA可用性：

import torch print(torch.cuda.is_available()) # 应返回 True

3.2 文件迁移与路径管理

建议将脚本和测试图像复制到工作区以便编辑：

cp /root/推理.py /root/workspace/ cp /root/bailing.png /root/workspace/ cd /root/workspace

修改推理.py中的图像路径为绝对路径，避免运行时错误：

image_path = "/root/workspace/bailing.png"

更优做法是动态获取当前脚本所在目录：

import os script_dir = os.path.dirname(__file__) image_path = os.path.join(script_dir, "bailing.png")

3.3 核心代码实现与解析

以下是针对药品识别优化后的完整推理脚本：

# 推理.py import torch from PIL import Image import os import time # 动态获取路径 script_dir = os.path.dirname(__file__) image_path = os.path.join(script_dir, "medicine.jpg") # 替换为实际药品图 # 加载模型 model_id = "AliYun/visual-recognition-chinese-base" processor = AutoProcessor.from_pretrained(model_id) model = AutoModelForZeroShotImageClassification.from_pretrained(model_id) # 移动到GPU（若可用） device = "cuda" if torch.cuda.is_available() else "cpu" model.to(device) # 加载并预处理图像 try: image = Image.open(image_path).convert("RGB") except Exception as e: print(f"图像加载失败: {e}") exit(1) inputs = processor(images=image, return_tensors="pt").to(device) # 执行推理 start_time = time.time() with torch.no_grad(): outputs = model(**inputs) inference_time = time.time() - start_time # 解码结果 logits = outputs.logits_per_image probs = logits.softmax(dim=-1).squeeze().cpu().numpy() # 获取标签 labels = [model.config.id2label[i] for i in range(len(probs))] top_k_indices = probs.argsort()[-10:][::-1] # 取前10个高分标签 # 置信度过滤（>0.5） threshold = 0.5 results = [] for idx in top_k_indices: score = probs[idx] if score > threshold: results.append((labels[idx], round(score, 3))) # 输出结果 print(f"\n✅ 识别完成，耗时: {inference_time:.2f}s") print("🔍 识别结果:") for label, score in results: print(f" {label}: {score}")

3.4 运行与结果示例

执行命令：

python 推理.py

假设输入一张阿莫西林胶囊的包装图，输出可能为：

✅ 识别完成，耗时: 1.42s 🔍 识别结果: 抗生素: 0.97 阿莫西林: 0.93 胶囊药品: 0.88 处方药物: 0.76 消炎药: 0.71

这些标签可进一步用于触发语音播报：“这是阿莫西林，一种抗生素，请遵医嘱服用。”

4. 场景优化与工程化建议

4.1 针对药品识别的后处理策略

原始输出可能存在冗余或近义词问题，需引入语义聚合机制：

from sentence_transformers import SentenceTransformer import numpy as np from sklearn.metrics.pairwise import cosine_similarity # 中文语义嵌入模型 sim_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') def cluster_similar_labels(results, threshold=0.8): labels = [r[0] for r in results] embeddings = sim_model.encode(labels) sim_matrix = cosine_similarity(embeddings) merged_results = [] visited = set() for i, (label, score) in enumerate(results): if i in visited: continue similar_scores = [score] for j in range(i+1, len(results)): if sim_matrix[i][j] > threshold and j not in visited: similar_scores.append(results[j][1]) visited.add(j) avg_score = sum(similar_scores) / len(similar_scores) merged_results.append((label, round(avg_score, 3))) visited.add(i) return merged_results # 使用示例 filtered_results = cluster_similar_labels(results)

4.2 性能优化措施

批量推理支持python images = [Image.open(p).convert("RGB") for p in image_paths] inputs = processor(images=images, return_tensors="pt", padding=True).to(device)
显存管理python torch.cuda.empty_cache() # 清理缓存
异步处理使用asyncio或消息队列提升响应速度，适用于Web服务集成。

4.3 安全性增强

添加输入校验机制：

def validate_image(image_path): if not os.path.exists(image_path): raise FileNotFoundError("图像文件不存在") try: img = Image.open(image_path) if img.size[0] < 32 or img.size[1] < 32: raise ValueError("图像分辨率过低") return True except: raise ValueError("无效的图像格式")