【报告阅读】chatgpt-o1 技术报告阅读 | 新的迭代开始了~

news/2024/9/22 12:30:46 标签: chatgpt, 人工智能

OpenAI o1是通过强化学习去进行复杂推理,在它回答之前,他会经过复杂的内部思维链的思考。

经过强化训练的o1多强

1 表现

在美国数学奥林匹克预选赛中名列前500名的学生中,o1排89名

在物理、生物、化学问题的基准测试中超过人类博士水平

在这里插入图片描述

其实你都不需要细看每一个数据集是什么含义。

只需要相对对比就知道他有多强了

4o还是蛮厉害的吧

但是在o1 preview和o1面前简直就是一个傻子,很多准确率不是几个几个超越,而是几十几十的超越

降维打击

怪不得OpenAI都直接给他一个新的系列名称了~

2 实现方法

类似于人类在回答一个困难问题之前可能会思考很长时间,o1 在尝试解决问题时使用思维链。通过强化学习,o1 学习完善其思维链并优化所使用的策略。它学会识别和纠正自己的错误。它学会将棘手的步骤分解为更简单的步骤。当当前的方法不起作用时,它学会尝试不同的方法。这个过程显著提高了模型的推理能力。

这也可以解释为什么o1这么贵,因为很多时候,你问一个问题,他会将这个问题反复思考(思考的过程都会消耗tokens,不显示给用户罢了)

在技术报告这里其实OpenAI已经展示了怎么实现的

学习推理与 LLMs | OpenAI — Learning to Reason with LLMs | OpenAI

在第一个demo中,对比了4o和o1在解码的过程

可以点击右侧打开思维链条

你会发现非常有趣,就是o1好像在和自己聊天一样,他会不断的向自己提问,然后证明自己的问题是错误的或者是正确的,一步一步向后推进。

3 还没有达到上界?

现在最可怕的是,他其实还没有达到瓶颈期。

可以看报告中放出的这张图
在这里插入图片描述

可以看到随着训练时间或者测试时间的加长,准确率依然稳步上升。

有训练过模型的朋友可能知道,训练模型过程中,一般来说,最痛苦的就是准确率很快就达到瓶颈了(往往呈现先升后平),而像上图这样优美的上升曲线简直就是炼丹人的最爱。

那你可能会问,既然增加训练时间o1的性能还在上升,为什么OpenAI不继续增加训练时间看看他最终的效果?

当然,我不是内部人员我也不知道

但我大概可以猜测出,就是训练时间太长太长了。

如果你注意到横轴是log scale即对数尺度就知道了,他这个横轴时间是取了对数的,所以要想提高模型性能,你的训练时间就得指数增加,就已经不是普通人训练几小时甚至几天了,可能是按月或者年了。

这是个好消息也是个坏消息。

好消息是,模型训练依然没有到达瓶颈,OpenAI又一次证明了可能性,人们还是有机会训练出更加智慧更加聪明的AI

坏消息是,训练一次模型的成本指数增加,无论是时间成本还是显卡成本

4 思考

看完还是觉得很牛逼。

思维链还是没变,只不过原本是人类引导模型去一步一步思考,现在变成了通过强化学习让模型自己就可以一步一步反思思考。

AI技术发展我觉得不可避免

但说实话其实我真正担心的是

将这些技术用在国防,科学发现而产生的质的推进。

从而导致国与国的差异更加增大


http://www.niftyadmin.cn/n/5670257.html

相关文章

机器学习——Stacking

Stacking: 方法:训练多个模型(可以是强模型),然后将这些模型的预测结果作为新的特征,输入到下一层新的模型(可以是多个)中进行训练,从而得到最终的预测结果。 代表:Stacking本身并没…

智能工厂的软件设计 “程序program”表达式,即 接口模型的代理模式表达式

Q1、前面将“智能工厂的软件设计”中绝无仅有的“程序”视为 专注于 给定的某个单一面(语言面/逻辑面/数学面)中的 问题,专注于分析问题和解决问题的程序活动的组织,每一面都是一个“组织者”就像一个“独角兽”,并提出…

【数据结构】线性数据结构-顺序栈

栈(Stack)是一种基本的数据结构,具有以下特点: 后进先出(LIFO, Last In First Out):栈内的数据项遵循后进先出的原则,即最后存入的项最先被取出。 操作限制:栈通常只允许…

SkyWalking 简介

SkyWalking是什么 skywalking是一个国产开源框架,2015年由吴晟开源 , 2017年加入Apache孵化器。skywalking是分布式系统的应用 程序性能监视工具,专为微服务、云原生架构和基于容器(Docker、K8s、Mesos)架构而设计。它是一款优秀的 APM(Application Performance Manag…

嵌入式常用GUI介绍

目录 前言一、GuiLite二、LVGL三、SimpleGUI四、MiniGUI五、emWin六、TouchGFX七、uGUI八、GFX九、Embedded Wizard十、CrankSoftware十一、PEG Graphics Software十二、Guiliani十三、MPLAB Harmony Graphics Suite 前言 图形用户界面(Graphical User Interface&am…

Arthas dashboard(当前系统的实时数据面板)

文章目录 二、命令列表2.1 jvm相关命令2.1.1 dashboard(当前系统的实时数据面板) 二、命令列表 2.1 jvm相关命令 2.1.1 dashboard(当前系统的实时数据面板) 使用场景: 在 Arthas 中,dashboard 命令用于提…

开源 AI 智能名片 S2B2C 商城小程序与正能量融入对社群归属感的影响

摘要:本文探讨了开源 AI 智能名片 S2B2C 商城小程序在社群运营中的作用,以及融入正能量对提高社群归属感的关键意义。通过分析正能量的精神感染力和对社群氛围的积极影响,阐述了在开源 AI 智能名片 S2B2C 商城小程序的各类活动中融入正能量的…

基于redis的HyperLogLog数据结构实现的布隆过滤器在信息流中历史数据的应用

一、基于redis的HyperLogLog数据结构实现的布隆过滤器在信息流中历史数据的应用 做信息流服务端的左发一定会遇到用户历史数据的集合,对于一些有限信息流(因DT数据中心的推荐数据变化较慢,推荐量不大),历史数据可以使用…