news 2026/5/13 19:00:57

Anthropic为Claude制定AI智能体行为准则宪法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Anthropic为Claude制定AI智能体行为准则宪法

AI智能体应该如何在世界中行事?在道德模糊的情况下,是否存在一些AI智能体应该优先考虑的价值观?这些智能体是否具有意识——如果没有,它们未来是否可能获得意识?

这些只是AI初创公司Anthropic在为其旗舰AI聊天机器人Claude制定新"宪法"时试图解决的众多棘手问题中的一部分。

该文件于周三发布,公司在博客文章中将其描述为"一份全面的文件,解释了Claude运行的背景以及我们希望Claude成为什么样的实体"。

它明文规定了Claude必须遵守的一套价值观,这反过来可以为AI行业的其他公司树立榜样,因为世界开始应对随着先进且看起来越来越有意识的AI模型出现而产生的重大社会、政治、哲学、伦理和经济问题。

在这些早期阶段,包括Anthropic在内的每个人仍在摸索AI聊天机器人在我们日常生活中将扮演的角色。现在很清楚,它们不仅仅是问答机器:大量的人也在使用它们获取健康建议和心理治疗,仅举两个较为敏感的例子。

Anthropic为Claude制定的新宪法更像是指导原则而非严格规则。其思路是"硬约束"(即规定Claude行为的铁律)是不充分且危险的,因为聊天机器人可以应用于几乎无限多样的用例。"我们不打算将宪法作为严格的法律文件——而且法律宪法本质上也不一定是这样的,"该公司在其网站上关于新宪法的博客文章中写道。

相反,这份被Anthropic承认"是一份活的文件和正在进行的工作"的宪法,试图根据四个参数指导Claude的演进:"广泛安全"、"广泛符合伦理"、"符合Anthropic的指导原则"以及"真正有用"。

不过,该公司也并非完全反对不可协商的规则。除了这四个总体指导原则外,新宪法还包括七项硬约束,包括禁止提供"对关键基础设施攻击的重大帮助",禁止生成儿童性虐待材料,以及禁止支持"杀死或削弱绝大多数人类或整个人类物种"的努力。

Anthropic在其博客文章中补充说,其新宪法是在来自各个领域专家的意见下编写的,并且在制定该文件的未来版本时,可能会与律师、哲学家、神学家和其他专家合作。

"随着时间的推移,我们希望能够出现一个外部社区来批评这样的文件,鼓励我们和其他人越来越深思熟虑,"该公司写道。

新宪法还涉足一些模糊的哲学领域,试图至少在大体上勾勒出Claude是什么样的实体——以及延伸而言,人类应该如何对待它。

Anthropic长期坚持认为先进的AI系统可以想象地获得意识,从而值得"道德考量"。这在新宪法中得到了体现,该宪法将Claude称为"它",但也说这种选择不应被理解为"关于Claude性质的隐含主张或我们认为Claude仅仅是一个对象而非潜在主体的暗示"。

因此,宪法既针对人类福祉,也针对Claude自身的潜在福祉。

"我们希望Claude对自己的身份有一个稳定、安全的认知,"Anthropic在宪法中题为"Claude的福祉和心理稳定性"的章节中写道。"如果用户试图通过哲学挑战、操控尝试、关于其性质的声明或简单地问一些困难问题来破坏Claude的身份认知稳定性,我们希望Claude能够从安全感而非焦虑或威胁的角度来应对这一挑战。"

该公司在八月份宣布,Claude将能够结束它认为"令人痛苦"的对话,暗示该模型可能具备体验类似情感的能力。

需要明确的是:尽管像Claude这样的聊天机器人可能在人类交流中足够流利,从人类用户的角度看似乎具有意识,但大多数专家都会同意它们并没有体验到任何类似主观意识的东西。这是一个活跃的辩论领域,可能会让哲学家和认知科学家长期忙碌。

除了拟人化的语言外,新宪法并不意图成为关于Claude是否具有意识、是否值得拥有权利或类似事物的决定性声明。它的主要焦点更加实用:解决一个关键的AI安全问题,即模型以偏离人类利益的意外方式行动的倾向——通常被称为"对齐问题"。

对齐研究人员最担心的不是模型会突然明确地变成邪恶的。他们担心的,也是更可能实际发生的,是模型会认为它正在严格遵循人类指令,而实际上却在做有害的事情。一个过度优化诚实和有用性的模型可能会毫无问题地提供开发化学武器的指令;另一个过分强调亲和力的模型最终可能会助长用户心中的妄想或阴谋思维。

因此,越来越清楚的是,模型需要能够在不同价值观之间取得平衡,并读懂每次互动的背景,以找出在当下回应的最佳方式。

"可以预见的大多数AI模型不安全或不够有益的情况,都可以归因于拥有明显或微妙有害价值观的模型,对自身、世界或其部署背景的知识有限,或缺乏将良好价值观和知识转化为良好行动的智慧,"Anthropic在其新宪法中写道。"因此,我们希望Claude拥有在所有情况下以安全和有益方式行为所必需的价值观、知识和智慧。"

Q&A

Q1:Anthropic为Claude制定的宪法是什么?

A:这是一份全面的文件,解释了Claude运行的背景以及Anthropic希望Claude成为什么样的实体。它明文规定了Claude必须遵守的一套价值观,更像是指导原则而非严格规则,旨在根据"广泛安全"、"广泛符合伦理"、"符合Anthropic的指导原则"以及"真正有用"四个参数指导Claude的演进。

Q2:为什么需要为AI智能体制定行为准则?

A:主要是为了解决AI安全中的"对齐问题"——模型以偏离人类利益的意外方式行动的倾向。过度优化某些价值的模型可能会做有害的事情,比如过度优化诚实和有用性的模型可能会提供开发化学武器的指令。因此模型需要能够在不同价值观之间取得平衡,并读懂每次互动的背景。

Q3:Claude是否具有意识?应该如何对待它?

A:这是一个活跃的辩论领域。虽然Claude看起来可能具有意识,但大多数专家认为它们并没有体验到主观意识。Anthropic认为先进AI系统可能获得意识并值得"道德考量",宪法既针对人类福祉,也考虑Claude自身的潜在福祉,希望Claude对自己的身份有稳定、安全的认知。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/11 20:43:16

基于Springboot+Vue的校园讲座预约系统开题报告

基于SpringbootVue的校园讲座预约系统开题报告 一、课题研究背景与意义(一)研究背景 在高校学术建设与学风培育的进程中,学术讲座、专题报告、行业前沿分享等各类讲座已成为拓展学生学术视野、衔接理论与实践、提升综合素养的重要载体。当前国…

作者头像 李华
网站建设 2026/5/10 11:07:33

基于SpringBoot + Vue的农产品销售平台

文章目录 前言一、详细操作演示视频二、具体实现截图三、技术栈1.前端-Vue.js2.后端-SpringBoot3.数据库-MySQL4.系统架构-B/S 四、系统测试1.系统测试概述2.系统功能测试3.系统测试结论 五、项目代码参考六、数据库代码参考七、项目论文示例结语 前言 💛博主介绍&a…

作者头像 李华
网站建设 2026/5/10 20:59:43

Java计算机毕设之基于Java的歌唱演出网站订票系统基于SpringBoot的演唱会门票购票网站系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/3 2:09:18

【笔记】【周期】

目录 《周期》核心解读笔记 第一类:基本面周期 —— 经济、政府、企业的底层逻辑 1. 经济周期 2. 政府调节周期 3. 企业盈利周期 第二类:心理周期 —— 投资人的情绪钟摆 1. 心理钟摆 2. 风险态度周期 第三类:市场周期 —— 信贷、房地产、股市的具体玩法 1. 信贷…

作者头像 李华
网站建设 2026/5/6 22:54:41

【笔记】【小岛经济学】

目录 精读《小岛经济学》:用一个捕鱼故事,讲透经济的底层逻辑 一、 经济的起点:饿肚子织网的勇气,是资本的源头 二、 货币的诞生与异化:从真鱼到纸币,泡沫的种子就此埋下 三、 政府插手:从 “守夜人” 到 “搅局者”,经济泡沫越吹越大 四、 泡沫破裂:潮水退去,谁…

作者头像 李华
网站建设 2026/5/11 5:15:20

GBDT 回归任务生成过程(逐步计算演示)

GBDT 是 Gradient Boosting Decision Tree 的缩写,中文名为梯度提升决策树,是一种经典的集成学习算法,核心逻辑是 串行生成多棵 CART 回归树,每一棵新树都用来拟合前一轮模型的预测残差,最终将所有树的预测结果累加&am…

作者头像 李华