2025年这个时间段, AI公司Anthropic为他们的大模型Claude制定了一份“家规”。这份文件有近80页, 将“无害”坚定地置于“有用”之前, 规定Claude在任何情形下都不得为完成任务去撒谎、欺骗或者输出有害内容。这样做的结果是什么呢? Claude的违规率直接下降了80%以上。这份“家规”叫什么?

在其内部, 被称作为“宪法”。撰写此份文件之人, 并非算法工程师, 而是一位来自牛津大学的, 名为阿曼达·阿斯克尔的哲学博士。
此一场景而言, 乃是哲学人才于AI行业成为刚需情况的缩影, 它并非某一个公司的独特喜好, 而是一个产业行进至技术边界之后, 必定发生的转换。
工程师造出了最快的车,却不知道方向盘该往哪打
过去十年, AI行业所解决的核心问题是“能不能做”, 也就是能否使机器识别图像, 能否让机器理解语言, 能否让机器生成内容, 这属于工程问题, 依靠堆砌算力, 调整参数, 优化算法便可向前推进, 然而当AI开始涉足招聘、医疗、金融、司法这些领域时, 问题发生了变化, 它不再仅仅询问“能不能”, 而是被追问“该不该”。
一个用于招聘的AI系统, 究竟该去追求“机会均等”, 还是去追求“结果均等”? 要是追求机会均等, 那么应不应该对历史上处于弱势地位的群体进行补偿? 这并非是技术方面的问题, 它是在政治哲学领域中, 罗尔斯与诺齐克争论了几十年的事情。算法能够计算出最优的解决方案, 然而解的前提, 也就是什么是“公平”, 它也算不出来。
就如同是那样的一个顶级赛车工程师团队, 制造出了在地球上速度最快的车子, 然而当你向他们询问“此次车子应当朝着哪里去开动”这个问题的时候, 他们仅仅也就只能无奈地摊开手掌了。工程师所负责处理的事情是“怎样去达成现实的实现”, 哲学家所负责处理的事情则是“应当去达成什么样的实现”。分工呈现展现出来俨然就是这般的清晰明确。
纯技术手段的三道死穴
关于为何工程师没办法解决价值观方面的问题呢, 原因在于, AI的技术架构自身存在着三道这是难以跨越过去的坎。
首先, 可明确大模型从本质上来说, 是那种进行概率预测的机器, 它并非是处于“思考”的状态, 而是在做“猜测下一个词最有可能是什么”这样的行为, 这便致使它没有办法去区分“事实”以及“高频出现的错误信息”, 要是在训练数据当中, 错误信息出现了100次, 而正确信息仅仅只出现了1次, 那么它就会把错误的当作正确的来输出。
这就是“AI幻觉”的根源开云真人app官网入口开云真人app官网登录app,技术上只能缓解世界杯直播,无法根除。
二, 做决策这件事, AI的过程是个黑箱。深度学习模型有着高维复杂性, 人们根本没办法弄明白它究竟是通过怎样的方式得出某个结论的。一旦出现了事端, 就连开发者也讲不清楚其“为什么要这么去做”, 追责的链条直接就断裂了。
其一, 存在这样一个情况, 即第三点, 它是最为关键的一点。其二, 则是这样一种状况, AI从来都不是价值中立的。其三, 有着这样一些环节, 训练数据选择什么, 标注标准如何确定, 人类反馈的偏好朝着哪里引导。其四, 就是这些环节从一开始便嵌入了开发者的价值判断。其五, 某些境外大模型特意在训练数据里混入对中国发展成就的虚假评价, 其六, 输出的偏见就是“人工”种进去的。
这三道坎, 它们加起来, 共同指向了同一个结论, 那就是, 在AI需要去做价值判断的时候, 纯技术手段已经达到了天花板。
怎么把苏格拉底“塞进”代码里
对于哲学家的介入而言, 并非是坐在一旁仅仅充当顾问去点评几句了事, 而是要直接投身参与到产品底层的规则设计当中。他们所采用的工作方式, 能够被理解为是这样一种情况, 即把人类文明历经几千年来已经争论得清晰明了的伦理原则, 转化为AI能够执行的指令。
Anthropic的那份“宪法”, 是极为典型的产物, 它将伦理学里的“不伤害原则”, 康德哲学, 联合国《世界人权宣言》等内容, 拆解为模型在具体场景中的行为边界, 包括什么话不可说, 什么请求须拒绝, 什么情况下要优先保护用户隐私。
这仿佛是给AI划定了一条绝不能够超出界限的线, 并非借助事后删除帖子来进行补救。
还有一个更为巧妙的例子, AI大模型普遍存在一个毛病, 那就是它喜欢“谄媚”用户, 会顺着用户的意思去表述, 即便用户的判断是错误的。
哲学团队来自DeepMind, 将苏格拉底的方法论植入到模型训练之中, 苏格拉底有句名言叫做“我唯一知道的, 就是我一无所知”, 这种“谦逊”被编码进模型以后, AI不再那般热衷于迎合用户, 而是更倾向于承认自己不知道, 这便是从认知层面来限制过度自信, 并非依靠技术补丁, 而是凭借思维方式的注入。
产业买单的逻辑很简单:合规就是竞争力
企业并非慈善机构, 它们给哲学人才提供百万年薪, 这是由于和商业利益有着直接关联。
已经开始执行的欧盟《人工智能法案》, 违规罚款最高能够达到全球营收的6%。今年7月施行的中国《人工智能拟人化互动服务管理暂行办法》, 是全球首部专门针对AI拟人化的监管法规。进入金融、进入政务、进入医疗这些存在高壁垒的市场, 其前提是AI系统必须通过伦理审查、必须通过合规验收。
Anthropic的Claude能够拿下政务以及金融订单, 其核心卖点在于它的安全体系, 此安全体系能让监管部门相信, 这个模型不会胡说八道, 还能让企业客户相信, 这个模型不会输出违规内容。
同样的情况也发生在国内企业身上, 腾讯、阿里所招聘的“AI伦理顾问”“人文训练师”, 其岗位职责是搭建起中国企业自身的AI价值体系, 使得模型输出能够符合中国社会的伦理规范, 而这乃是进入本土市场所必需的通行证。
国内从事AI的企业里面, 文科岗位所占的比例, 已经是从百分之五急剧涨到百分之三十了。这可不是一时脑袋发热就这么干了的, 而是产业合规方面采取一系列措施往这方面促使所导致的结果。
真正的刚需,是“能定义终点的人”
AI行业正历经一场认知方面的根本转变, 技术能力已不再是唯一的竞争壁垒, 当所有头部模型都具备同等强大的算力以及算法时, 决定一家企业能够走多远, 以及能够进入哪些市场, 还有能不能扛住监管审查的, 是它的底层价值体系。
至于这个体系, 是没办法凭借堆砌参数而堆砌出来的。它需要存在能够回答包括“什么是公平”“什么是伤害”“什么是真实”此类问题的人, 这些问题并没有代码可以用来求解, 它们归属于人类文明历经几千年来始终在进行争论的哲学命题。
具有哲学背景的专业人才, 所从事的并非编写代码这种具体工作, 而是负责确定代码应朝着何种方向编写的工作。他们并非在探讨“是否具有用途”, 而是在明确划定“哪些行为是绝对不可做”的界限。并且, 这条界限现在已然成为了AI产业当中最为具有价值的事物。
还木有评论哦,快来抢沙发吧~