news 2026/5/14 3:03:16

深夜赶项目的程序员小张盯着屏幕打了个哈欠,突然想起上周写的疲劳检测工具还没调通。今天咱们就聊聊怎么用68个人脸特征点捕捉这种“灵魂出窍“的瞬间,关键时刻能救命

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深夜赶项目的程序员小张盯着屏幕打了个哈欠,突然想起上周写的疲劳检测工具还没调通。今天咱们就聊聊怎么用68个人脸特征点捕捉这种“灵魂出窍“的瞬间,关键时刻能救命

采用caffe68点检测人脸特征点,识别疲劳,当眼睛缝隙小,则认为是疲劳,有python,c++版本。

先准备个能打的面部定位工具,这里我翻出了珍藏的Caffe版68点检测模型(prototxt和caffemodel文件得提前准备好,放模型目录里别乱跑)。Python版本用OpenCV的dnn模块加载最方便:

# Python版模型加载 net = cv2.dnn.readNetFromCaffe( "face_detector/68point_deploy.prototxt", "face_detector/68point_model.caffemodel" )

C++选手别急,咱们的代码也照顾到了:

// C++版模型加载 cv::dnn::Net net = cv::dnn::readNetFromCaffe( "face_detector/68point_deploy.prototxt", "face_detector/68point_model.caffemodel" );

抓取人脸关键点时有个坑要注意:输入图片的归一化方式得和模型训练时一致。比如有些模型要求像素值从0-255缩放到-1到1,有的则用均值减法,这个不搞清楚定位准头就差远了。

拿到68个点坐标后,重点锁定眼睛区域。以左眼为例(36-41号点),计算眼睛睁开程度的套路是这样的:

def eye_aspect_ratio(eye_points): # 计算垂直方向两组距离 A = np.linalg.norm(eye_points[1] - eye_points[5]) B = np.linalg.norm(eye_points[2] - eye_points[4]) # 计算水平方向距离 C = np.linalg.norm(eye_points[0] - eye_points[3]) return (A + B) / (2.0 * C)

当这个比值连续20帧低于0.25时(别照搬这个阈值,得根据实际效果调),就该触发警报了。实时检测时建议用环形队列保存最近30帧的状态,这样既省内存又能避免误判。

C++版本的计算逻辑类似,但得注意类型转换:

double calculateEAR(const vector<Point2f>& eyePoints) { double vertical1 = norm(eyePoints[1] - eyePoints[5]); double vertical2 = norm(eyePoints[2] - eyePoints[4]); double horizontal = norm(eyePoints[0] - eyePoints[3]); return (vertical1 + vertical2) / (2 * horizontal); }

实际部署时发现了几个骚操作:

  1. 在光线不足的环境下,先做个直方图均衡化再检测
  2. 侧脸时单眼闭合的情况要特殊处理
  3. 戴眼镜的同学容易被反光干扰,加个ROI区域动态调整就好

最后上个Python版的完整流程示例:

cap = cv2.VideoCapture(0) eye_history = deque(maxlen=30) # 存最近30帧状态 while True: ret, frame = cap.read() # 人脸检测和关键点预测(此处省略) left_ear = eye_aspect_ratio(left_eye_points) right_ear = eye_aspect_ratio(right_eye_points) eye_history.append((left_ear + right_ear) / 2) if len(eye_history) == 30 and np.mean(eye_history) < 0.25: cv2.putText(frame, "WAKE UP!", (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0,0,255), 2) cv2.imshow("Frame", frame)

开发这种功能最解压的时刻,就是看着检测框跟着人脸晃来晃去,比看ASMR还治愈。不过别光顾着玩,记得保存模型文件路径别写死,不然换台机器分分钟给你脸色看。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 2:43:18

Dify怎么安装:从环境准备到配置完成的完整安装指南

前言 安装Dify是开始AI应用开发的第一步。虽然Dify提供了多种安装方式&#xff0c;但对于初学者来说&#xff0c;选择合适的安装方式并正确配置环境可能会遇到一些挑战。 这篇文章将详细介绍Dify的安装步骤&#xff0c;从环境准备到配置完成&#xff0c;涵盖Docker安装、环境…

作者头像 李华
网站建设 2026/5/1 17:52:24

CI/CD流水线搭建:自动化测试与发布GLM-TTS新版本

CI/CD流水线搭建&#xff1a;自动化测试与发布GLM-TTS新版本 在语音合成技术快速演进的今天&#xff0c;一个模型从实验阶段走向真实业务场景&#xff0c;面临的最大挑战往往不是算法本身&#xff0c;而是如何稳定、高效地完成版本迭代与部署。特别是像 GLM-TTS 这样基于大语言…

作者头像 李华
网站建设 2026/5/13 11:59:29

游戏角色语音包:玩家可自定义NPC对话声音

游戏角色语音包&#xff1a;玩家可自定义NPC对话声音 你有没有想过&#xff0c;有一天可以在游戏里听到自己朋友的声音从某个酒馆老板口中说出&#xff1f;或者让《上古卷轴》里的精灵用你家乡方言念出一句“欢迎来到晨风”&#xff1f;这不再是科幻桥段——借助新一代语音合成…

作者头像 李华
网站建设 2026/5/11 11:33:34

JavaScript前端交互优化:增强GLM-TTS WebUI用户体验

JavaScript前端交互优化&#xff1a;增强GLM-TTS WebUI用户体验 在语音合成技术快速普及的今天&#xff0c;一个强大的AI模型若缺乏直观、流畅的前端界面&#xff0c;其实际应用价值往往会大打折扣。以GLM-TTS为例&#xff0c;这套基于大模型架构的零样本语音克隆系统&#xff…

作者头像 李华
网站建设 2026/5/6 19:29:04

物流状态播报:让用户听到包裹运输进展

物流状态播报&#xff1a;让用户听到包裹运输进展 在快递单号满天飞的今天&#xff0c;你是否曾盯着手机里一条条“您的快件已由【XX分拣中心】发出”的文字通知&#xff0c;看得麻木&#xff1f;这些信息虽然准确&#xff0c;却冰冷、易被忽略。尤其对中老年用户而言&#xff…

作者头像 李华
网站建设 2026/5/11 15:51:36

NPS净推荐值测算:评估GLM-TTS用户的忠诚度水平

NPS净推荐值测算&#xff1a;评估GLM-TTS用户的忠诚度水平 在AI语音技术逐渐渗透到智能客服、有声内容、教育辅助等日常场景的今天&#xff0c;一个核心问题浮出水面&#xff1a;用户真的愿意长期使用并推荐这款TTS产品吗&#xff1f; 技术参数再亮眼——比如支持零样本克隆、情…

作者头像 李华