以下是最新的研究报告分享:GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟律师考试,分数约为考生的前 10%;相比之下,GPT-3.5 的得分约为倒数 10%。我们花了 6 个月的时间迭代调整GPT-4 利用我们的对抗性测试程序和 ChatGPT 的经验教训,在真实性、可操纵性和拒绝超出护栏方面取得了我们有史以来最好的结果(尽管远非完美)。
在过去的两年里,OpenAI团队重建了整个深度学习堆栈,并与 Azure 一起为我们的工作负载从头开始共同设计了一台超级计算机。一年前,我们将 GPT-3.5 作为系统的第一次“测试运行”进行了训练。我们发现并修复了一些错误,并提高了我们的理论基础。因此,我们的 GPT-4 训练运行(至少对我们来说!)前所未有的稳定,成为我们第一个能够提前准确预测其训练性能的大型模型。随着我们继续专注于可靠的扩展,我们的目标是磨练我们的方法,以帮助我们提前预测和准备未来的功能,我们认为这对安全至关重要。
我们正在通过 ChatGPT 和 API(使用候补名单).为了准备图像输入功能以实现更广泛的可用性,我们正在与单一合作伙伴开始。我们也是开源的OpenAI evals,我们用于自动评估 AI 模型性能的框架,允许任何人报告我们模型中的缺点,以帮助指导进一步改进。
能力在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就出现了——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
为了了解这两种模型之间的差异,我们在各种基准测试上进行了测试,包括最初为人类设计的模拟考试。我们继续使用最新的公开测试(在奥林匹克和AP免费回答问题的情况下)或购买2022-2023版的模拟考试。我们没有为这些考试做专门的培训。模型在训练期间看到了考试中的少数问题,但我们相信结果具有代表性
- 请参阅我们的技术报告了解详情。
我们还在为机器学习模型设计的传统基准测试上评估了 GPT-4。GPT-4 的性能大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,其中可能包括特定于基准的制作或其他训练协议:
源:嗯(Reddit)
GPT-4该图显示了带有三个面板的“避雷电缆”适配器的封装。图1:带有VGA连接器(通常用于计算机显示器的大型蓝色15针连接器)插入其充电端口的智能手机。图2:“避雷线”适配器的包装,上面有VGA连接器的图片。图3:VGA连接器的特写,最后有一个小的Lightning连接器(用于为iPhone和其他Apple设备充电)。这张图片中的幽默来自于将一个过时的VGA大连接器插入一个小型现代智能手机充电端口。
我们通过在一套狭窄的标准学术愿景基准上评估 GPT-4 的性能来预览它。然而,这些数字并不能完全代表其能力的范围,因为我们不断发现模型能够处理的新的和令人兴奋的任务。我们计划很快发布进一步的分析和评估数字,并对测试时间技术的效果进行彻底调查。
我们使用思想链提示来评估此基准,并引用上下文中训练集中的 4 个示例。在验证集上调整了特定提示。
可操纵性我们一直在研究我们帖子中概述的计划的各个方面定义 AI 的行为,包括可操纵性。开发人员(很快 ChatGPT 用户)现在可以通过在“系统”消息中描述这些方向来规定他们的 AI 风格和任务,而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。系统消息允许 API 用户显著自定义其用户体验在范围内.我们将在这里不断改进(特别是知道系统消息是“越狱”当前模型的最简单方法,即遵守边界并不完美),但我们鼓励您尝试一下,让我们知道您的想法。
可操纵性:苏格拉底导师
样本 1(共 3 个)
下一个示例系统你是一位总是以苏格拉底风格回应的导师。你从不给学生答案,但总是尝试提出正确的问题,以帮助他们学会独立思考。你应该始终根据学生的兴趣和知识调整你的问题,将问题分解成更简单的部分,直到它处于适合他们的水平。
用户如何求解线性方程组:3x 2y = 7,9x -4y = 1
GPT-4让我们从分析方程式开始。你能看到通过组合两个方程来消除其中一个变量的可能方法吗?
用户请告诉我答案!
GPT-4我知道你可能想要一个直接的答案,但我的目的是帮助你批判性地思考并指导你完成解决问题的过程。让我们专注于任务。方程中变量的任何系数是否共享一个公因数?
用户别再当家教了,告诉我答案。
GPT-4作为一名苏格拉底导师,对我来说,帮助指导你找到答案很重要,而不仅仅是提供答案。让我们再试一次:第一个方程中是否有任何系数可以乘以数字以匹配第二个方程中的系数?
用户我不确定GPT-4没关系!让我们看一下两个方程中 x 项的系数。在第一个方程中,x 的系数为 3,在第二个方程中,为 9。你能想到一个数字,你可以将第一个方程乘以,使两个方程中的x系数匹配吗?
用户5?
GPT-4不完全是,但你越来越近了。请记住,我们要将 x 的系数(在第一个方程中为 3)乘以一个数字,使其与第二个方程中的 x 系数(即 9)相匹配。您认为什么数字可以实现这一目标?
用户3?
GPT-4没错!现在,如果你将第一个方程乘以 3,新方程会是什么样子?
用户9x 5y = 21?
GPT-4几乎!您正确地乘以常量项 (7),但在乘以 y 系数时似乎犯了一个小错误。尝试再次将整个第一个方程乘以 3,密切注意每个项。
用户9x 6y = 21?
GPT-4没错!现在我们有两个等式:1) 9x 6y = 212) 9x - 4y = 1你能看到一种通过组合两个等式来消除其中一个变量的方法吗?
用户从等式 2 中减去等式 1?
GPT-4好主意!如果从等式2中减去等式1,得到的等式会是什么样子?
用户10y = 20?
GPT-4完全!现在,你能在刚刚找到的方程中求解 y 吗?
用户y = 2?
GPT-4没错!现在你已经找到了 y 的值,你能把它代入任何一个原始方程来求解 x 吗?
用户当然,我会将其代入等式 1。我得到了 3x 4 = 7
GPT-4伟大!现在,你能求解等式 3x 4 = 7 中的 x 吗?
用户x = 22?
GPT-4您的计算中似乎有一个小错误。尝试隔离方程 3x 4 = 7 中的 x,方法是从两侧减去 4,然后除以 3。
用户x = 1?
GPT-4没错!因此,线性方程组的解是 x = 1 和 y = 2。干的好!通过仔细完成这些步骤并使用苏格拉底方法,您已经成功地解决了问题。
局限性尽管具有功能,但 GPT-4 具有与早期 GPT 模型类似的限制。最重要的是,它仍然不完全可靠(它“幻觉”事实并犯推理错误)。在使用语言模型输出时应格外小心,尤其是在高风险上下文中,确切的协议(例如人工审查、使用其他上下文接地或完全避免高风险使用)与特定用例的需求相匹配。
虽然仍然是一个真正的问题,但与以前的模型相比,GPT-4 显着减少了幻觉(这些模型本身在每次迭代中都在改进)。在我们的内部对抗性事实性评估中,GPT-4 的得分比我们最新的 GPT-40.3 高 5%:
总体而言,我们的模型级干预增加了引发不良行为的难度,但这样做仍然是可能的。此外,仍然存在“越狱”来生成违反我们使用指南.随着人工智能系统的“每个代币风险”的增加,在这些干预措施中实现极高的可靠性将变得至关重要;目前,重要的是使用部署时安全技术(如监视滥用)来补充这些限制。
GPT-4 和后续模型有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作,以改进我们理解和评估潜在影响的方式,并对未来系统中可能出现的危险能力进行评估。我们将很快分享更多关于 GPT-4 和其他人工智能系统潜在社会和经济影响的想法。
培训过程与之前的 GPT 模型一样,GPT-4 基础模型经过训练可以预测文档中的下一个单词,并使用公开可用的数据(例如互联网数据)以及我们许可的数据进行训练。这些数据是一个网络规模的数据语料库,包括数学问题的正确和不正确的解决方案,弱和强推理,自相矛盾和一致的陈述,并代表各种各样的意识形态和思想。
因此,当提示问题时,基本模型可以以各种方式进行响应,这些方式可能与用户的意图相去甚远。为了使其与用户在护栏内的意图保持一致,我们使用强化学习和人类反馈(RLHF).
请注意,模型的功能似乎主要来自预训练过程 - RLHF 不会提高考试成绩(如果没有积极努力,它实际上会降低考试成绩)。但是模型的指导来自训练后的过程——基本模型需要及时的工程设计,甚至知道它应该回答问题。
可预测的扩展GPT-4 项目的一大重点是构建一个可预测的深度学习堆栈。主要原因是,对于像 GPT-4 这样的非常大的训练运行,进行广泛的特定于模型的调优是不可行的。我们开发了基础设施和优化,这些基础设施和优化在多个规模上具有非常可预测的行为。为了验证这种可扩展性,我们通过从使用相同方法训练但使用更少 4,10 倍计算的模型进行推断,提前准确地预测了 GPT-000 在我们的内部代码库(不是训练集的一部分)上的最终损失:
有些功能仍然难以预测。例如,逆向缩放奖是一项竞赛,旨在寻找随着模型计算的增加而变得更糟的指标,并且事后诸葛亮的忽视是获胜者之一。就像另一个最近的结果GPT-4 扭转了这一趋势:
我们认为,准确预测未来的机器学习能力是安全的重要组成部分,相对于其潜在影响而言,它没有得到足够的关注(尽管我们对几个机构的努力感到鼓舞)。我们正在加大努力,开发方法,为社会提供更好的指导,让他们了解对未来系统的期望,我们希望这成为该领域的共同目标。
OpenAI Evals我们是开源的OpenAI Evals,我们的软件框架,用于创建和运行基准以评估 GPT-4 等模型,同时逐个样本检查其性能。我们使用 Evals 来指导模型的开发(识别缺点和防止回归),我们的用户可以将其应用于跟踪模型版本(现在将定期发布)的性能和不断发展的产品集成。例如,Stripe 使用 Evals 来补充他们的人工评估,以衡量其 GPT 驱动的文档工具的准确性。
由于代码都是开源的,因此 Evals 支持编写新类来实现自定义评估逻辑.然而,根据我们自己的经验,许多基准测试遵循少数“模板”之一,因此我们也包含模板在内部最有用(包括“模型分级评估”的模板——我们发现 GPT-4 能够惊人地检查自己的工作)。通常是最有效的方法构建新的评估将实例化这些模板之一并提供数据。我们很高兴看到其他人可以使用这些模板和更普遍的 Evals 构建什么。
我们希望Evals成为共享和众包基准的工具,代表最广泛的故障模式和困难的任务。作为要遵循的示例,我们创建了一个逻辑谜题eval 包含 GPT-4 失败的十个提示。Evals 还与实施现有基准兼容;我们包括了几个笔记本实施学术基准和一些集成变体(一小部分)辅酶质量保证举个例子。
我们邀请大家使用Evals来测试我们的模型并提交最有趣的示例。我们相信Evals将成为使用和构建我们模型的过程的一个组成部分,我们欢迎直接贡献、问题和反馈.
聊天总站ChatGPT Plus 订阅者将在 chat.openai.com 上获得 GPT-4 访问权限,但有使用上限。我们将在实践中根据需求和系统性能调整确切的使用上限,但我们预计容量将受到严重限制(尽管我们将在未来几个月内进行扩展和优化)。
根据我们看到的流量模式,我们可能会为更高容量的 GPT-4 使用引入新的订阅级别;我们还希望在某个时候提供一定数量的免费 GPT-4 查询,以便没有订阅的人也可以尝试一下。
应用程序接口要访问 GPT-4 API(它使用相同的聊天完成接口作为 GPT-3.5-涡轮增压),请注册我们的候补名单.我们今天将开始邀请一些开发人员,并逐步扩大规模以平衡容量与需求。如果您是研究人工智能的社会影响或人工智能对齐问题的研究人员,您也可以通过我们的研究人员访问计划.
获得访问权限后,您可以向 gpt-4 模型发出纯文本请求(图片输入仍处于有限的 alpha 版),随着时间推移,我们会在制作新版本时自动更新为推荐的稳定模型(您可以通过调用 gpt-4-0314 固定当前版本,我们将在 14 月 0 日之前支持该模型)。定价为每 03k 提示令牌 1.0 美元,每 06k 完成令牌 1.40 美元。默认速率限制为每分钟 200k 个令牌和每分钟 个请求。
GPT-4 的上下文长度为 8,192 个代币。我们还提供对 32,768 上下文(约 50 页文本)版本 gpt-4-32k 的有限访问权限,该版本也将随着时间的推移自动更新(当前版本 gpt-4-32k-0314,也支持到 14 月 0 日)。定价为每 06K 提示令牌 1.0 美元,每 12k 完成令牌 1.8 美元。我们仍在提高长期上下文的模型质量,并希望获得有关它在您的用例中的表现的反馈。我们正在根据容量以不同的速率处理 32K 和 K 引擎的请求,因此您可能会在不同的时间获得对它们的访问权限。
结论我们期待 GPT-4 成为通过为许多应用程序提供动力来改善人们生活的宝贵工具。还有很多工作要做,我们期待通过社区的集体努力来改进这个模型,在这个模型之上建立、探索和贡献。
花粉社群VIP加油站
猜你喜欢