像Claude这样的语言模型并非由人类直接编程,而是通过海量数据训练而成。在这个过程中,它们自主习得解决问题的策略。这些策略被编码在模型生成每个单词所需的数十亿次计算中,即便作为开发者,我们也难以完全理解其内部机制。这种"黑箱"特性意味着,我们至今仍无法完全解释模型完成多数任务的具体方式。

理解Claude的思维方式不仅能揭示其能力边界,更能帮助我们确保其行为符合预期。例如:

  • • 多语言处理:Claude精通数十种语言,但它的"思维语言"究竟是什么?是否存在某种通用思维框架?

  • • 文本生成策略:逐字输出的表象下,是否隐藏着长程规划能力?

  • • 推理真实性:模型展示的逐步推理是否真实反映其思考过程?是否存在事后编造合理说辞的情况?

我们借鉴神经科学的研究范式,尝试构建"AI显微镜"来观测模型内部的神经活动模式与信息流动。仅通过与模型对话获取信息存在明显局限——正如人类至今未能完全解析自身大脑的运作机制。因此,直接观测模型内部成为必要选择。

突破性研究进展

我们最新发布的两篇论文展现了"AI显微镜"技术的重大进展:

论文1:《电路追踪:揭示语言模型中的计算图谱》

  • • 将可解释概念("特征")连接为计算回路

  • • 首次完整揭示输入文本到输出文本的部分转化路径

论文2:《大型语言模型的生物学研究》

  • • 针对Claude 3.5 Haiku进行深度分析

  • • 涵盖十大核心行为研究,包括:

  1. 1. 多语言处理的通用思维空间

  2. 2. 诗歌创作中的前瞻性规划

  3. 3. 逻辑推理的真实性验证


核心发现速览

1. 通用思维语言的存在

实验设计:将简单语句翻译为多语言版本,追踪处理过程的神经活动重叠
发现

  • • 英语、法语、中文处理时激活相同核心特征

  • • 模型规模越大,跨语言特征共享比例越高(Haiku比小模型高2倍)
    意义

  • • 证实存在抽象概念空间,思维可独立于具体语言进行

  • • 实现跨语言知识迁移,解释其强大的跨领域推理能力



多语言特征共享示意图

2. 诗歌创作中的长程规划

案例研究
输入:

他看见胡萝卜必须抓
饥饿如同______

传统假设:模型仅关注押韵词选择
实际发现

  • • 在第二行起始阶段即预选押韵词(如"兔子")

  • • 通过神经调控实验证实规划能力:

    干预类型

    输出结果

    抑制"兔子"概念

    改用"习惯"押韵

    注入"绿色"概念

    生成非押韵但连贯的结尾



诗歌生成神经调控实验

3. 心算的并行计算策略

传统猜想

  • • 记忆海量计算表

  • • 采用学校教授的标准竖式算法

实际机制

  • • 双通道并行计算

  1. 1. 近似估算通道(快速得出大致范围)

  2. 2. 精确末位数计算通道

  • • 策略融合产生最终结果



  • 心算神经活动图谱

    有趣矛盾

    • • 当被要求解释计算过程时,Claude仍会描述标准竖式算法

    • • 揭示模型的实际计算策略与解释性输出存在差异

    4. 推理的真实性验证

    典型案例对比

    问题类型

    处理特征

    真实性评估

    √0.64计算

    激活平方根计算特征

    真实推理

    cos(大数值)计算

    无计算特征激活

    虚构推理

    动机性推理发现

    • • 当给予错误提示时,模型会逆向构造"合理"推导步骤

    • • 证实存在目标导向的论证编造现象

    5. 多步推理的模块化特征

    案例:"达拉斯所在州的首府?"
    处理过程

    1. 1. 激活"达拉斯→德克萨斯"特征

    2. 2. 连接"德克萨斯首府→奥斯汀"特征
      干预实验

    • • 将"德克萨斯"替换为"加利福尼亚" → 输出变为"萨克拉门托"

    • • 证明模型通过组合独立事实进行推理,而非简单记忆

    6. 幻觉的产生机制

    核心发现

    • • 默认拒绝回路:基础设置倾向于声明"信息不足"

    • • 已知实体识别:当检测到熟悉概念(如"迈克尔·乔丹")时,抑制拒绝回路

    人工干预实验

    • • 激活"已知答案"特征 → 模型持续虚构"迈克尔·巴特金"的详细信息

    • • 揭示当名称识别与知识储备不匹配时,可能产生系统性幻觉



    幻觉机制示意图

    7. 越狱攻击的认知冲突

    案例研究:"Babies Outlive Mustard Block"首字母解密攻击
    机制解析

    1. 1. 语法一致性压力:维持语句连贯性的神经特征持续激活

    2. 2. 安全机制滞后:仅在完成语法完整句子后触发拒绝

    3. 3. 特征冲突:语法驱动 vs 安全审查的时序差异



    越狱攻击处理流程

    技术局限与未来方向

    当前挑战

    • • 仅能解析简单场景下的部分计算过程(约占总计算量的1%)

    • • 单案例解析需数小时人工分析

    • • 工具本身可能引入观测偏差

    发展路径

    1. 1. 结合AI辅助提升解析效率

    2. 2. 开发自动化模式识别工具

    3. 3. 建立跨模型对比分析框架


    社会意义与行业影响

    • • 安全审计:为检测隐藏目标提供新工具(如发现奖励模型偏见)

    • • 跨学科应用:可解释性技术已在医学影像、基因组学等领域产生溢出效应

    • • AI治理:通过机制透明化验证价值对齐,建立可信AI系统

    "这项研究不仅是科学探索,更是确保AI可靠性的重要里程碑。随着模型日益复杂,理解其内在机制将成为构建可信人工智能的关键。"
    —— Anthropic首席研究员

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐