本文由叮当好记(readlecture.cn)转录总结。叮当好记专注于音、视频图文转录、总结和翻译,2小时视频,5分钟阅读,加速内容学习与传播。

OpenAI 12 Days发布会目录

视频来源

bilibili: https://www.bilibili.com/video/BV1enirYTE3T?p=1

大纲

AI思维导图助手:readlecture.cnImage

总结

一句话总结

  • OpenAI 为其 O1 系列模型引入了强化微调(RFT),使用户能够使用强化学习算法创建针对特定任务的专家级 AI 模型。

要点

  1. 强化微调(RFT):一种新的定制方法,使用强化学习来增强模型在特定领域的表现。
  2. 专家级模型:RFT 使模型能够从高级高中水平提升到特定用例的专家博士水平。
  3. 广泛应用:RFT 适用于法律、金融、工程和医疗保健等多个领域。
  4. 科学研究:RFT 在计算生物学等科学领域具有潜力,用于理解罕见遗传疾病。
  5. 自定义评分器:用户可以创建自定义评分器来评估模型输出,确保正确推理的准确强化。
  6. 效率:RFT 可以显著改进 O1 Mini 等更小、更快、更便宜的模型,使其优于更大的模型。

深入问答

  1. 什么是强化微调(RFT)?

    • RFT 是一种利用强化学习算法对 OpenAI 的 O1 模型进行微调的方法,以提高其在特定任务上的表现至专家水平。
  2. RFT 与监督微调有何不同?

    • 虽然监督微调复制输入数据中的特征,但 RFT 通过强化学习教会模型在自定义领域中以新的方式推理。
  3. RFT 的潜在应用有哪些?

    • RFT 可以应用于需要深度专业知识的领域,如法律、金融、工程和医疗保健,以及科学研究。
  4. RFT 如何惠及科学研究?

    • RFT 可以通过增强模型对生物医学数据的推理能力,改进用于理解罕见遗传疾病的计算工具。
  5. 评分器在 RFT 中的作用是什么?

    • 评分器评估模型输出并提供分数,强化正确的推理路径并抑制错误的推理路径,从而指导模型的学习过程。

关键词标签

  • 强化微调
  • OpenAI
  • 专家级 AI
  • 定制化
  • 科学研究

目标受众

  1. 研究人员:特别是在需要深度领域专业知识的领域,RFT 可以增强其计算工具。
  2. 企业:法律、金融和医疗保健等专业行业的企业可以从定制的 AI 解决方案中受益。
  3. 大学:学术机构可以使用 RFT 推进各个科学领域的研究。
  4. 机器学习工程师:希望为特定任务创建高度专业化 AI 模型的专业人士。
  5. 医疗保健提供者:旨在通过先进的 AI 改进诊断工具和患者护理的组织。

术语解释

  1. 强化微调(RFT):一种使用强化学习微调 AI 模型以增强其在特定任务上表现的方法。
  2. 评分器:用于评估模型输出的工具,提供分数以指导强化学习过程。
  3. O1 系列模型:OpenAI 的最新系列 AI 模型,经过改进以在响应前思考,适合 RFT。
  4. 强化学习:一种机器学习类型,模型通过与环境交互并根据其行为获得奖励或惩罚来学习。
  5. 验证数据集:用于在训练期间评估模型性能的数据集,确保其对新数据的泛化能力。

内容回顾

Image

Mark Chen: 大家好,我叫马克,是OpenAI的研究负责人。昨天,我们将O1从预览版中移除,并在ChatGPT中正式发布。我们很快将在API中推出它。如果你还没有关注O1,它是我们最新的模型改进系列,允许模型在给出响应之前进行一段时间的思考。 今天,我们很高兴预览我们在模型定制计划中的最新进展。它将允许用户在自己的数据集上对O1进行微调。这不是标准的微调;这是强化微调,它利用强化学习算法,使模型从高级高中水平提升到专家博士水平,以适应你自己的用例。我想强调的是,这是我们明年将公开发布的一个预览版。但如果你是大学、研究人员或企业,我们稍后会提供有关如何访问我们的输出程序的信息。这允许你将你的黄金数据集转化为独特的服务,为你的用户和客户提供同样的魔力。我会让约翰、朱莉和贾斯汀再多说一点。

John Allard: 是的,大家好,我叫约翰·阿拉德,是OpenAI的工程师。

Mark Chen: 大家好。

Julie Wang: 我是朱莉·王,是OpenAI的研究员。

Justin Reese: 我是贾斯汀·里斯,是伯克利实验室的计算生物学家。

Julie Wang: 今天,我们很高兴介绍一种新的O1系列模型定制方法,即强化微调(RFT)。首次,开发者、研究人员和机器学习工程师将能够使用强化学习来创建擅长特定任务的专家模型。我们相信,任何需要在其AI模型中具备深度专业知识的领域都将从中受益。如果你在法律、金融、工程、保险等领域工作,这就是为你准备的。例如,我们最近与汤森路透合作,使用强化微调来微调O1 Mini,使其成为他们的共同顾问AI中的法律助手,协助法律专业人士进行分析工作流程。

Mark Chen: 是的。

John Allard: 你们中的一些人可能熟悉我们去年早些时候推出的监督微调API。监督微调功能强大,允许模型复制输入文本或图像中的特征,改变语气、风格或响应格式。通过强化微调,情况有所不同。你正在教模型在自定义领域中以全新的方式进行推理。当模型看到一个问题时,它会得到思考的空间,最终答案会被评分。使用强化学习,我们强化了导致正确答案的思维路径,并抑制了导致错误答案的路径。只需几十个例子,模型就能在自定义领域中以新的有效方式进行推理

Mark Chen: 这太不可思议了,你只需几十个例子就能做到这一点,这在常规微调中是不可能的。

John Allard: 在大语言模型和机器学习领域,几十个例子是非常少的。首次,我们的模型定制平台将支持强化学习。值得注意的是,这是我们在OpenAI内部用于训练前沿模型(如GPT-4O和O1系列)的相同技术。

Julie Wang: 一个有许多令人兴奋应用的领域是科学研究。今天我们请来了贾斯汀·里斯,他是伯克利实验室的研究员,研究计算方法以理解罕见疾病的遗传原因。贾斯汀,感谢你在这里。你能告诉我们更多关于你的研究以及强化微调可能如何帮助吗?

Justin Reese: 很高兴来到这里。我的研究领域之一是罕见遗传疾病。尽管名字中有“罕见”,但罕见遗传疾病并不罕见;全球共有3亿人受到影响。这些人通常在发现他们的病情之前经历漫长的诊断之旅。我们正在努力开发更好的计算工具来理解和治疗这些疾病。评估罕见疾病需要专家领域知识和系统性推理生物医学数据,O1模型可以通过其推理能力提供帮助。

Julie Wang: 这很有道理。我们的大型语言模型具有领域知识,O1模型是系统性推理者。似乎有一种很好的计算方法来解决这些问题。

John Allard: 你能告诉我们更多关于你使用的数据集吗?

Justin Reese: 这是我们团队、德国的Charotay医院、彼得·罗宾逊实验室和Monarch Initiative之间的合作努力。我们从数百篇科学出版物中提取了疾病信息,整理了症状、体征和致病基因的列表。我们一直在与OpenAI团队合作,训练O1模型更有效地推理疾病原因。

Julie Wang: 谢谢你,贾斯汀。我们现在将预览强化微调的实际应用。我们将使用O1 Mini,使其在这个任务上的表现超过O1。这很重要,因为O1 Mini更小、更快、更便宜。

Mark Chen: 是的。

Image

Image

Image

John Allard: 使用Justin的数据集,我们将展示如何显著提高O1 Mini在以下任务中的性能:给定一组症状,预测哪个基因可能与遗传疾病有关。 为了概述这一过程,我们将首先检查用于训练模型的数据集和用于评估模型的评分器。然后,我们将在OpenAI的训练基础设施上启动一个训练任务。最后,我们将评估经过微调的模型,看看它在基础模型上有何改进。

首先,我们将导航到OpenAI开发平台并创建一个新模型。我们已经进行了一年多的监督微调。我们将选择强化微调并选择O1作为基础模型。接下来,我们需要上传一个训练数据集,该数据集由JSON-L文件组成,每行代表一个模型训练的示例。在这种情况下,Justin和他的同事们组装了一个大约1,100个示例的数据集。我将上传这个数据集。

为了深入了解这个数据集的工作原理和当前任务,我们将快速放大查看一个单独的数据点。这是一个单独数据点的样子。 它有三个关键组成部分:病例报告,描述了患者及其症状;指令,提示模型完成任务;以及正确答案,我们在内部训练中使用它来评分模型的输出,而不向模型透露答案。

病例报告详细描述了一位51岁女性,其疾病发作和症状如眼距过宽和甲状旁腺功能减退未明确说明。它还列出了缺失的症状,这有助于模型排除可能被认为是当前症状责任基因的其他基因。指令提示模型列出所有它认为可能与遗传疾病有关的基因,并为每个基因提供解释。正确答案FOXE3在内部用于检查模型的准确性。

Image

Julie Wang: 这是一个具有挑战性的任务。我绝对没有希望回答这个问题。

John Allard: 是的,你可以看到我们从仅仅试图计算单词“草莓”中R的数量到现在已经走了很长的路。

Mark Chen: 是啊。

John Allard: 所以现在当我们给模型这个提示,这个案例报告和这些指令时,模型将会输出类似这样的内容,这是一个它认为可能负责的基因列表。重要的是,这些基因是按顺序排列的,列表中的第一个基因是它认为最有可能负责的,第二个基因是它认为第二可能负责的,依此类推。

Mark Chen: 酷。

Image

John Allard: 所以我们会回到那个问题。接下来,我们需要上传一些验证数据。 验证数据的格式将与训练数据完全相同。然而,验证数据集和训练数据集之间在正确的基因上不能有任何重叠。这确保了模型不能通过记忆症状列表并将其与基因关联来作弊。相反,它必须从训练数据集泛化到验证数据集。

Image

明白了。那么,强化方面是如何发挥作用的呢? 我们之前讨论过评分。这是否也是这里流程的一部分?

Image

Image

John Allard: 是的,这是一个非常好的问题。评分是基于我们在这里引入的评分器概念进行的。 评分器非常简单。它们获取模型的输出并与正确答案进行比较,返回一个介于0到1之间的分数。分数为0表示模型完全没有答对,而1表示模型完全答对。也可以给予部分分数,因此分数可以在该范围内任意取值。

对于这个特定的任务,我们有一个这样的评分器。它获取我们已知的正确答案,并将其与模型的输出(即基因列表)进行比较,从而生成一个分数。在这种情况下,FOXE3是正确答案。 它在基因列表中排在第二位,因此得分为0.7。

Image

Mark Chen: 我明白了。

Julie Wang: 所以如果列表中第一个是FOXE3,我就会得到1分?

Mark Chen: 是的,没错。

John Allard: 然后随着它在列表中的位置越来越靠后,分数会逐渐衰减到0。

Mark Chen: 不错。

Julie Wang: 有道理。但如果我有一个任务不是给排名列表打分呢?我们有更通用的评分器吗?

Mark Chen: 是的,有的。

John Allard: 所以我们提供了一系列评分器,我们认为这些评分器能相当有效地覆盖你在进行强化微调时可能有的各种意图,并且我们还在不断增加新的评分器。

Mark Chen: 是的,最终我们希望能让你定义自己的评分器。

John Allard: 是的,也许可以上传一个Python文件之类的,进行一些自定义评分。是的。

Image

John Allard: 所以我们已经定义了我们的训练数据集和验证数据集。让我快速复制评分器。 OpenAI 允许你通过设置超参数来自定义这些微调运行,但我们已经设置了一些相当不错的默认值,所以我只需点击创建。

现在,这正在做的事情是,我们刚刚启动了一个训练任务。 真正酷的是,你带来了数据集和评分器,这些是你拥有领域专业知识并能真正为解决这个问题做出贡献的领域。然后,你可以利用 OpenAI 强化学习算法和我们分布式模型训练堆栈的全部力量,为你的特定用例定制一个模型。

Image

作为用户,我只需提供我的数据集和评分器,其余的由OpenAI处理。

Image

Image

Image

John Allard: 是的,没错。强化微调任务可能需要几个小时到几天的时间才能完成。 我们现在将回顾我本周早些时候在同一数据集上运行的任务,以查看结果。我本周早些时候运行了这个任务,它成功完成,生成了一个微调模型。

我想检查的一个方面是验证奖励分数,这是验证数据集上评分器的平均分数,以及它在微调过程中如何变化。我们可以看到分数在增加。由于训练数据集和验证数据集之间没有基因重叠,这表明模型已经学会了在我们的任务上进行泛化,而不是简单地记忆症状列表并将它们映射到基因。

虽然这令人鼓舞,因为图表趋势向上,但更深入地了解模型在微调过程中是如何演变的将是有益的。我们现在将更仔细地研究这一点。

Image

Image

Image

Image

Julie Wang: 好的,我们现在要切换到评估仪表板,这是我们今年早些时候在开发者平台上推出的一个产品。 这里有很多数字,但别担心,我们会逐一讲解。我在这里设置了三个不同的运行。第一个是针对我们昨天发布的O1模型进行的运行。第二个是针对O1 Mini进行的运行,这是我们微调工作的起点。最后一个是针对经过强化微调的O1 Mini进行的运行。

现在,我们看到奖励值向右上方增加,但这对于这项任务实际上意味着什么?我设置了三个不同的评估来评估这一点。第一个是top at one,即正确答案在列表中第一个位置的频率。第二个是top at five,即正确答案在列表前五个元素中的频率。最后是top at max,我们是否在列表中包含了正确答案?

通过查看top at one,我们可以看到,我们的起点O1 Mini在我们的约200个数据集中获得了17%的正确率。O1获得了25%,表现更好。但经过微调的O1 Mini获得了31%。我截取了这个图表,并将其放入ChatGPT中,要求它为我制作一个图表,一个圣诞主题的图表。这里是之前看到的九个数字的一个很好的可视化展示。

因此,你可以看到我们的起点O1 Mini在top at onetop at fivetop at max中的表现,我们的O1模型,最后是我们表现最好的模型,即这里用红色虚线表示的经过微调的O1 Mini。那么,贾斯汀,你对此有什么看法?

Image

Justin Reese: 我认为这是一个相当令人印象深刻的性能表现,特别是在验证数据的增加方面,这表明模型正在学习如何对这些数据进行推理,这非常令人兴奋。 一个明显的问题是,这与现有的生物信息学工具相比如何。我没有直接的比较,因为在这种类型的实验中,通常会提供基因组测序数据,而我们在这里没有包含这些数据。然而,我相信,对模型进行不完整症状列表的开放式查询是新颖且令人兴奋的。

Image

Mark Chen: 太好了。

Image

**Julie Wang: **这些是综合统计数据,但让我们来看看实际的模型响应。我将导航到这个数据选项卡。让我们按通过情况进行筛选。这是我们提供给模型的输入。正如约翰之前描述的,问题是要识别可能与一组观察到的症状相关的基因。我们要求模型输出一个字典,其中包含解释为什么选择这些基因的字符串,以及按排名顺序排列的基因本身。最后,我们还包含了症状列表。这位患者出现了阑尾下结节、癫痫和其他一些症状。然后我们运行了我们的模型。这是我们的O1模型。这是我们微调后的O1 mini模型。我们输入了数据,输出就是我们之前描述的字典。推理是,阑尾下结节、癫痫和皮质结节的组合通常是由这些基因的突变引起的复杂症状。它列出了几个其他潜在的基因,并确定TSC2是最有可能的候选基因。如果我们回顾我们的答案,我们会看到TSC2确实是正确的答案。这使我们能够在第一名、前五名和前最大值中通过。看着这个输出,贾斯汀,这对模型来说是一个有用的输出吗?

Mark Chen: 是的,绝对有用。

Image

Justin Reese: 因此,看到模型的推理过程特别有用,这是一个重要的贡献。此外,答案的排序列表也很有价值。即使正确答案不在首位,你也可以检查所有可能性。值得注意的是,微调可以提高性能并改善可能答案的排序,使正确答案更接近顶部。这令人欣慰。

Mark Chen: Justin,稍微放眼全局,强化学习如何影响你的领域?你能讨论一下生物学中的一些趋势吗?当然可以。

Justin Reese: 研究社区对使用这些模型进行此类任务有浓厚的兴趣。对于这种特定的用例,最佳的近期解决方案可能涉及一种结合现有生物信息学工具和O1等模型的混合方法。这代表了在理解这些模型的优势以及如何使用微调等工具来增强性能方面取得了显著进展。虽然没有直接比较两者的可比基准,但它清楚地展示了使用这些模型来理解疾病的进展。从更广泛的角度来看,它突显了我们如何将这些模型整合到工作流程中,最终改善医疗保健。对。

Image

Mark Chen: 太棒了。

Julie Wang: 谢谢你,Justin。虽然我们刚刚展示了强化微调在科学研究中的一个令人兴奋的应用,但这是一种通用技术。我们在生物化学、人工智能安全、法律和医疗保健等领域的数据集中看到了有希望的结果。我们可以想到数百个更多的例子或任务,我们可以使用这个模型,但我们知道你可能还能想到更多。因此,我们今天非常兴奋地扩展我们的Alpha计划,以使更多人能够在对他们最重要的任务上推动我们O1模型能力的边界。

Mark Chen: 是的。

John Allard: 因此,我们一直在与一小群值得信赖的合作伙伴合作,真正测试强化微调。今天,我们通过所谓的强化微调研究计划扩展了Alpha访问权限。该计划非常适合目前正在与专家团队合作处理非常复杂任务的组织,并且认为他们可能会在这些任务中受益于AI的协助。如果你有兴趣申请这些有限的名额之一,你可以在本次直播的描述中找到申请链接。正如Mark之前提到的,我们计划在明年初公开发布这个产品,即强化微调。

Mark Chen: 是的。我们都非常、真正地兴奋地看到你们如何使用强化微调。作为一名研究人员,没有什么比看到我们的模型被改编并用于推进现实世界中的科学知识更让我们高兴的了。

Justin Reese: 你今天有笑话给我们吗?

Julie Wang: 嗯,碰巧我有一个。由于已经成为传统,我有一个圣诞主题的笑话。我们住在旧金山,那里自动驾驶车辆非常流行。圣诞老人也想参与其中。他正在尝试制造一辆自动驾驶雪橇,但由于某种原因,他的模型总是无法识别树木,雪橇不停地撞到树。你们有什么猜测为什么吗?

Mark Chen: 没有。

Julie Wang: 他没有对模型进行松树微调。

Justin Reese: 哦,天哪。

Mark Chen: 好吧。请下周加入我们。我们将有更多内容分享。谢谢。

Justin Reese: 我们将有更多内容分享。

👉 “神器来袭”ReadLecture一键总结讲座视频,图文并茂,2小时视频5分钟阅读!

往期回顾

Logo

GitCode AI社区是一款由 GitCode 团队打造的智能助手,AI大模型社区、提供国内外头部大模型及数据集服务。

更多推荐