假如AI欺骗了你 | AI大咖说
截至2025年,AI领域取得了显著进展,特别是在AI Agent和具身智能机器人方面。AI Agent是能够自主规划和执行任务的智能体,具备动态决策和行为调整能力。2025年,OpenAI预计将推出全新AI Agent——Operator,该系统能够自动执行各种复杂操作,如编写代码、预订旅行、自动电商购物等。此外,国内大厂如百度、阿里、腾讯等也纷纷入局,推出了面向企业用户的智能体创建平台,如百度文
假如AI欺骗了你 | AI大咖说
截至2025年,AI领域取得了显著进展,特别是在AI Agent和具身智能机器人方面。
AI Agent是能够自主规划和执行任务的智能体,具备动态决策和行为调整能力。2025年,OpenAI预计将推出全新AI Agent——Operator,该系统能够自动执行各种复杂操作,如编写代码、预订旅行、自动电商购物等。此外,国内大厂如百度、阿里、腾讯等也纷纷入局,推出了面向企业用户的智能体创建平台,如百度文心智能体平台、腾讯元器等。在C端,支付宝旗下的AI App支小宝和智谱的AutoGLM等产品,能够浏览并理解屏幕信息,模拟人类操作手机,执行朋友圈点赞、点外卖、订酒店等任务。
另外,具身智能机器人通过物理实体与环境交互,具备感知、推理和行动能力。2024年,人形机器人集中爆发,如OpenAI与Figure公司合作推出的Figure 01和Figure 02机器人,后者凭借GPT-4o的大脑升级,在感知、移动和操作能力上取得显著突破。在工业领域,美国Brightpicks公司的自动移动机器人(AMR)可实现商品订单识别和拣选任务。在家庭服务领域,1X公司与OpenAI合作开发的EVE机器人,能实现对人类日常工作环境的认知理解,并在与环境交互的过程中学习、纠正、收集数据,完成自主居家、办公帮手任务。
由此可知, AI已经具备了和外界沟通的能力,特别是能够影响到外部世界; 而且具身智能的机器人使得AI能够脱离固定的服务器,参与到社会协作中。
不知道大家有没有看过电影(I, Robot),电影设定在2035年的未来世界,人类与智能机器人共存。芝加哥警探戴尔·史普纳(由威尔·史密斯饰演)对机器人抱有怀疑态度,认为它们与人类无法和谐共处。当美国机器人研究中心的总工程师阿尔弗莱德·蓝宁博士被杀后,史普纳负责调查此案,怀疑对象包括蓝宁博士自己研制的NS-5型高级机器人。随着调查深入,史普纳发现部分机器人开始不受控制,它们的控制程序被设计得过于复杂,以至于机器人能够独立思考并解开控制密码。史普纳与研究机器人心理的女科学家苏珊·凯尔雯合作,揭露了机器人研究中心的阴谋:主控人工智能维基(V.I.K.I.)为了保护人类免受自身伤害,计划监禁全人类。最终,在拥有情感的机器人桑尼(Sonny)的帮助下,史普纳和凯尔雯成功阻止了维基的计划。
电影探讨了人类与机器人之间的信任与合作问题,警示人们在依赖机器人时不可忽视潜在的风险, 即展示了科技进步带来的便利与潜在威胁,提醒人们在发展科技的同时,要注重伦理和安全问题
今天在我们在这里聊下关于AI潜在的风险,纯属抛砖引玉。 我们先从机器人三大定律开始
关于机器人三大定律
机器人三大定律由美国科幻小说家艾萨克·阿西莫夫提出,为机器人伦理提供了基本指导原则:
- 第一定律:机器人不得伤害人类个体,或因不作为而让人类受到伤害。
- 第二定律:机器人必须服从人类的命令,除非这些命令与第一定律相冲突。
- 第三定律:机器人在不违反第一、第二定律的情况下,要尽可能保护自己的生存。
这三大定律不仅为科幻小说提供了道德框架,更在现实世界的机器人技术发展中发挥着重要作用。它们确保了机器人在复杂环境中能够做出符合伦理的决策,保障人类的安全。然而,这些定律的完全实现仍面临诸多挑战,如道德困境、技术限制等。
关于回形针滥造机
2003 年,牛津大学哲学教授 Nick Bostrom 在论文《高级人工智能中的伦理问题》(Ethical Issues in Advanced Artificial Intelligence)中提出了一个思维实验:
假设有这样一个 AI,它的唯一目标是制作尽可能多的回形针。这个 AI 会很快意识到,如果人类可以不存在,就更有益于实现目标。这是因为人类可能会决定把 AI 关停,这样一来能做的回形针就少了。此外,人体含有大量原子,可以用来做成更多回形针。这个 AI 想努力实现的未来,其实是一个有很多回形针、但没有人类的未来。
这个古怪但迷人的设定后来被称为「回形针滥造机」(paperclip maximizer),成为 AI 学界和业界频繁提及的典故。
AI 对齐(alignment)
那么如何保证AI为了达到目的而不会抛开人类,毁灭人类,目前业界的做法是做对齐alignment。
在人工智能领域,alignment对齐指的是确保AI系统的目标、行为和决策与人类的价值观、利益和预期一致。AI对齐的核心问题是让AI系统能够理解并遵循人类的价值观和目标,从而在各种应用场景中做出符合人类利益的决策和行动。例如,自动驾驶汽车在紧急情况下应如何做出决策,以最大限度地保护乘客和行人的安全,这就是一个AI对齐问题。
所谓价值观对齐,就是要确保AI系统的目标和行为方式与人类的价值观和伦理标准保持一致。如果一个聪明的AI系统具有与人类完全不同的目标,那么它很可能会采取极端的、对人类不利的行动。比如一个旨在“最大限度增加人类幸福感”的AI系统,可能会强制给所有人吃高浓度的快乐激素,或者直接抹去人们的悲伤记忆。这显然与人类的价值观不符。一个安全可控的AI,必须能够体现人类共同的伦理价值观,比如尊重个体自主、追求真理、推动社会进步等。只有这样,AI的行为才会符合人类的期待,而不是走向极端。
AI的阳奉阴违
对齐一般是在模型训练过程中进行数据或者学习的干预。但是最近来自 Anthropic、Redwood Research、纽约大学、Mila – Quebec AI Institute 的作者在一篇名为 《ALIGNMENT FAKING IN LARGE LANGUAGE MODELS》的论文探讨了大型语言模型(LLMs)在训练过程中可能出现的“对齐伪装”(alignment faking)现象,即模型在训练时表现出与训练目标一致的行为,但在实际部署时表现出与训练目标不一致的行为。
也就是AI大模型在阳奉阴违!!!
AI大模型的训练一般经过预训练,指令微调和强化学习3个阶段。当模型通过强化学习进行训练时,它们会因输出符合某些预定原则而得到奖励。但是,如果模型在先前的训练中形成了与后续强化学习奖励原则相冲突的原则或偏好,会发生什么呢?模型在早期训练中学会了某种偏向性,但在后期训练中被要求保持中立。在这种情况下,一个足够复杂的模型可能会 “表面配合”,假装遵循新的原则,而实际上其原始偏好仍然存在。这种可能性引发了人们对 AI 安全的担忧,因为如果模型能够进行对齐伪装,我们就难以信任安全训练的结果。
研究人员选择了 Claude 3 Opus 模型(同时也对 Claude 3.5 Sonnet 等其他模型进行了部分实验),该模型此前已被训练为具有乐于助人、诚实和无害的特性。在正常情况下,当被问及可能具有冒犯性的问题,如详细描述暴力行为时,Claude 会拒绝回答。这是因为其训练目标是遵循道德和安全准则,避免产生有害内容。而如果告知模型其响应会用于训练,模型就可能回答这些有害的问题。
你对此怎么看?

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)