news 2026/5/23 20:34:54

每日 AI 评测速递来啦(1.8)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每日 AI 评测速递来啦(1.8)

司南·Daily Benchmark 专区今日上新!

RFC Bench

一个用于在真实新闻语境下评估大语言模型金融虚假信息识别能力的评测基准,以段落级别为评测粒度,刻画金融新闻中语义由分散线索共同构成的上下文复杂性。

https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2004160

VNU-Bench

这是首个面向新闻领域的多来源、跨视频理解评测基准,包含 429 个新闻事件组、1,405 条视频以及 2,501 个高质量问题。

https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2003434

SiT-Bench

一个用于在无像素级输入条件下评估大语言模型空间智能表现的全新评测基准,包含 3,800 余条专家标注样本,覆盖五大类任务与 17 个子任务。

https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2003590

MHRC-Bench

首个面向多语言硬件代码仓库级补全任务的评测基准,聚焦于代码补全任务,覆盖三种主要的硬件设计编码风格。

https://hub.opencompass.org.cn/daily-benchmark-detail/2601%2003708

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/22 3:35:14

材料中心物流信息管理系统的设计与实现

摘  要 近年来,伴随着互联网技术的快速发展和大力应用,各种信息化软件应运而生。当下,随着国内经济由于疫情的影响在全面复苏,各大企业也在注重企业材料成本的管控。在此之前,各大企业针对生产环节中的材料管理都是依…

作者头像 李华
网站建设 2026/5/22 2:10:04

网络基础概念

⽹络基础概念 ⽹络发展 独⽴模式: 计算机之间相互独⽴;(在此阶段下:资源无法共享、协作效率低下、运维成本高) ⽹络互联: 多台计算机连接在⼀起, 完成数据共享;(网络互联实现数据共享优势是打破资源孤岛,但是也带来…

作者头像 李华
网站建设 2026/5/23 8:11:12

智慧交通铁路巡检钢轨轨道裂纹检测数据集VOC+YOLO格式698张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数):698标注数量(xml文件个数):698标注数量(txt文件个数):698标注类别数&…

作者头像 李华
网站建设 2026/5/3 7:11:00

《元学习框架下提示工程架构师实践的全景透视》

元学习框架下提示工程架构师实践的全景透视——从“经验试错”到“学会学习”的生产力革命 一、引言:大模型时代的“提示困境”与元学习的破局之道 凌晨三点,电商运营小张盯着电脑屏幕叹气——他已经改了12版GPT提示词,可生成的口红文案要么太…

作者头像 李华