OpenAI 最近有个大动作,他们发布了一个全新的模型,叫做01。这是他们在 GPT 系列之外推出的首个新系列模型,主打的是推理能力。
那么,什么是推理能力呢?简单来说,就是比一般的模型思考更深入、更长时间的思考过程。
首先,如何访问这个新模型?谁可以使用?有哪些限制?我们来看一下具体情况。目前,所有的 ChatGPT plus会员和团队账户用户都可以使用。我现在使用会员版本,所以已经可以访问01Preview 和 01 Mini 版本。不过,这个新模型有一定的限制。
通过 ChatGPT 使用 01Preview,每周有 30 条消息的限制,而01Mini 则是每周 50 条消息。另外,API 访问虽然是无限的,但仅限于那些在 OpenAI 上花费超过 1000 美元的用户,所以并不是所有人都能使用 API。
►向有风咨询,加入我的知识星球圈子:
➜https://t.zsxq.com/16QP9JP8b
本期用到的工具:
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
►chatGPT
➜https://chatgpt.com/
➜升级到GPT4会员教程:https://www.youtube.com/watch?v=64SkKkPTAg4
► 办一张国外银行卡
➜ https://bewildcard.com/i/19YC7OIQ
► 视频中用的GPT Prompt提示词及文字脚本
➜ https://aiyoufeng.com/chatgpt-o1-preview
这些是基本的情况。接下来,我们聊聊这个所谓的推理能力。在此之前,我们熟悉的模型如 GPT-4.0 以及一些竞争对手的产品,功能相对类似,而 Zero One 则引入了新的思维方式。
2、写一篇关于长江的文章
GPT提示:写一篇关于长江的文章
写一篇关于长江的文章,一步步的思考
https://x.com/polynoamial/status/1834280155730043108/photo/1 图标图片
现在让我们来谈谈这个推理能力的话题,到目前为止,我们已经熟悉了像 GPT 40 这样的模型,以及很多做类似竞争对手。https://claude.ai/login?returnTo=%2F%3F
如果你让它写一篇写一篇关于长江的文章,它会直接写出来,而不会真正去思考什么样关于长江文章才算好,它就是简单地完成任务。现在,我并不是说新的模型会表现得更好,而是说它会在给出答案之前,花点时间进行思考。
如果你过去一两年间关注提示工程、语言大模型、生成式AI领域的人,都会听说过一种叫做“思维链”的技术。思维链可以简单描述为一种不同的提示方式,它加入了更多的推理和思考过程。你只需要在提示中加入“分步思考”,然后在推理相关任务上就能得到更好的结果。
传统的提示通常直接向模型提出问题,然后模型会立即给出答案。而思维链提示会引导模型逐步进行思考,像人类一样通过分步骤解决问题。它会在提示中添加更多的中间推理过程,要求模型逐步思考每个步骤,而不是一次性跳到最终答案。
例如,如果我们要求模型解决一个复杂的数学题或逻辑问题,通过思维链提示,我们可以告诉模型先考虑问题的各个部分,然后分步得出结论。这种方式比直接要求它给出最终答案更有效,因为它会让模型在思考过程中减少跳过重要步骤或出错的可能。
既然它在科学、编程和数学领域表现出色,那么如果你并不从事这些领域的工作,这对你有意义吗?如果你能够毫不费力地掌握,或者至少对数学、编程和科学有一定程度的理解和应用,这对你会有帮助吗?我认为这是我们需要思考的真正问题。因为最初,大家可能会觉得,“哦,我日常生活中不需要数学”,“我不需要在日常生活中拥有数学博士学位。”但是,如果你能够轻松并且无需花费任何成本获得一个数学博士学位,它对你会有用吗?这是我们需要问自己的问题。
他们声称它能够解决博士级别的数学问题,并且有各种基准来支持这一说法,其中最有趣的就是这张图表。
这是一组比较数据。在数学竞赛中,GPT 40 只答对了13道题,准确率为13%。而我们现在在网页版界面中使用的这个 GPT 01 预览模型,它的正确率达到了56%。尚未发布的完整 O1 模型,也就是即将推出的版本,达到了 83.3%。我可以直接引用他们博客文章中的一段话:在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT 40 仅正确解决了 13% 的问题。
3、AI品牌企划
GPT提示:
帮我写一份关于“windy有风”男装品牌的商业计划大纲,我的预算是1万元人民币。
https://chatgpt.com/c/66e98ef3-9308-8010-bdf6-b13233f96c58
这就是现在的情况。推理模型的得分达到了83分。这可不是小幅度的改进,而是一次巨大的变化。而且,在处理请求的方式上也发生了巨大的变化。如果在新模型中运行它,处理时间会更长。我准备了一些例子,帮我写一份关于“windy有风”男装品牌的商业计划大纲,我的预算是1万元人民币。
它花了9秒钟才给出答案。如果你在GPT 400上运行这个请求,它会立刻开始生成答案。而这个模型花了9秒钟在思考,才开始生成,因为它实际上在前期进行了多步骤的推理和规划。
在执行任何操作之前,你需要先思考,对吧?从人类的角度来说,我认为这才是这里的重点。
我也很好奇,但假设有人让你做这件事,为一个预算为1万元人民币新品牌做一个商业计划。这可不是那种你马上能想到答案的问题。你会说,“当然,我可以做这个。我需要点时间?”对吧?你需要经过多个步骤的思考。
你需要考虑营销计划,财务预算,把它们分解。我们需要什么?进行一些调研。然后再仔细思考这些调研结果,最后制定出商业计划。
但在过去,我们对于GPT的期望是它会马上给出答案。而当答案不那么理想时,我们会感到失望。这也是可以理解的,因为当时这项技术还处于早期阶段,但现在情况已经改变了。
我还想强调一点,这不仅仅是把“思维链”嵌入到模型中,不仅仅是每个提示结束时都让思考。如果真是那样的话,我们早就解决了一些更难的问题,那些需要更多推理的问题。显然,当时情况并不是这样。我可以给你一个很好的例子,我已经玩了它一会儿了。
4、AI写回文
A、在01pre里
GPT提示: 写一个有风和床的回文
https://chatgpt.com/c/66e99347-8434-8010-bf45-6d6620ccf2cd
回文是一种特殊的文字排列,正着读和反着读都是一样的句子。例如,“上海自来水来自海上”就是一个中文回文句,正着读和反着读都完全一样。
GPT提示2: 但要像普通人的说的普通句子一样
B、在GPT4O里
写一个有风和床的回文
这个回文的例子非常有趣,因为GPT-4在处理回文方面表现得非常糟糕。回文的意思是,句子从前往后读和从后往前读是一样的。所以,我给了它一个要求:“写一个有风和床的回文。”然后它花了9秒钟,经过了很多不同的步骤,最后给了我这么一句:“床前风吹吹风前床”
这句话其实并没有什么意义。所以我又说:“写一个普通人能理解的常用句子吧。”它又“思考”了8秒,最后给了我一个回文:“风吹床边草,草边床吹风” 这确实很棒,但它忽略了“有风”的元素。
如果你把这个问题交给GPT-4.0,它会让你非常失望,因为它可能会给你生成一句像“风吹床前床吹风”这样的句子。这和我要求的完全无关,对吧?
这既不是编程,也不是科学或数学。另一方面,这也不是你在日常生活中会用到的东西。接下来我们可以谈谈如何在日常生活中使用这个模型,但在此之前,我想先展示一些它的变化能力,因为另一个有趣的点就是翻译功能。
5、ChatGPT o1-preview 翻译
把这句话翻译成英文:如今的小鲜肉越来越多了
https://chatgpt.com/c/66e996c1-de8c-8010-be66-49f72cf020ee 4O
https://chatgpt.com/c/66e99767-3120-8010-949d-7c88bc70cf0f o1pre 把这句话翻译成英文:黄鼠狼给鸡拜年
语言之间的翻译非常复杂,涉及大量上下文。有些东西只能在某种语言中合理表达,不能逐字逐句翻译。
不过,到目前为止,我们还没有看到任何真正颠覆性的用例。但我认为,随着更多类似的提示被输入,我们会看到更大的潜力。 这个模型在处理数学和财务方面非常擅长。
接下来,我用另一个提示进行跟进:“启动这个品牌的花费是多少钱比较合适?” 这是个好问题,因为“多少钱比较合适”有些含糊不清,而且启动品牌需要考虑很多因素。这让模型需要花时间去思考。我给了这个提示后,新模型思考了10秒钟,才给出答案。而GPT-4.0直接给出了答案,它估算的花费在5万到10万美元之间,这算是一个大致的估计。
不过,我个人更喜欢新模型的结论。它不仅给出了几种免费的选项,还总结了为什么这些选项会比较好。我觉得这是一个更高质量的回答。每当涉及到金钱时,这个新模型会更加有用。
当你需要进行财务计算时,使用这个新模型确实能带来更好的效果。当你处理一些更复杂的任务,比如营销计划或商业计划时,它会给你更详细的推理,就像我在开头提到的那样。如果人类需要花3秒钟甚至10秒钟来思考某个问题,那么AI助手也很可能需要同样的时间来处理。
6、Building OpenAI o1
https://www.youtube.com/watch?v=3k89FMJhZ00
还有某些点很值得讨论。比如OpenAI发布的这个视频,我强烈建议你去看看,非常有趣。
https://x.com/cognition_labs/status/1834292725417730408
针对 o1 的提示明显不同,特别体现在以下几个方面:
- 思维链与“边想边说”提示:在以往的模型中,常用这些提示方式。然而,我们发现,对于 o1 而言,要求它只给出最终答案的效果更好,因为它无论如何都会在回答前进行思考。
- 上下文密度与敏感度:o1 需要更紧凑的上下文,并对多余的内容和不必要的词汇更为敏感。传统的提示方式通常会在指令中包含重复和冗余,而我们发现这些对 o1 的表现产生了负面影响。
- 智能提升与指令执行的权衡:o1 的智能水平有所提升,但这种提升也带来了在执行高度细致指令时的不确定性增加。
他们基本上讨论了他们是如何做这个模型的,其中有一个有趣的事实:他们尝试模拟人类的思维方式,然后将这种思维方式应用到模型中。接着,他们让AI以同样的方式运行,结果效果非常好。我觉得这非常有意思。那么问题是什么呢?结论是什么呢?
对日常用户来说,这是否真的有用?我们还需要拭目以待,我目前还不太确定。我确实看到与财务数字相关的提示有一些小幅提升,但老实说,在我的日常任务中,甚至是使用ChatGPT时,我并不经常涉及科学或数学相关的内容。我确实偶尔用一点编程技能,但如果你没有编程能力,那这种据可能对你来说用处不大。
我的意思是,如果你不从事科学、数学或代码生成相关的工作,那么这个模型是否对你有用是存疑的。除此之外,还需要考虑的是,你是否需要花几秒钟来回答这个问题?如果答案是肯定的,那你可能会需要使用这个模型。又或者,如果一个人类需要超过几秒钟的时间来思考这个问题,那AI助手也很可能需要。
另外,我还想提到一点,之前使用ChatGPT时,你就像在与一个AI助手对话,你给它任务,它尽力完成,并展示给你结果。如果它缺少一些上下文(可能是因为训练数据中没有),它就会进行“幻想”,尽力给你一个答案。而在GPT-01预览版中,感觉像是有多个AI助手在后台协作。在你得到答案之前,它们彼此之间先讨论并推理,然后再向你回复。
我觉得这就是一个很好的类比:9秒的思考时间,用来重新组织回文,让它有意义。这让我觉得这是一种全新的思维方式。
最后,我想分享一些Cognition Labs发现的提示技巧。他们提出了一些提示技巧:
- 不要再让这个模型“逐步思考”或“边想边说”:不用再告诉它这些提示了,因为它本身已经训练成这样,它会自动按照这个方式去运行。
- 提示简洁更好:如果提示里有太多多余的信息,表现反而会变差。传统的提示通常包含多次重复的指令,这对于以前的模型效果不错,但对于o1来说,简洁的目标导向提示效果更好。
这是一种不同的提示方式,过去的提示方式会详细地列出所有的背景信息,而现在目标导向的提示会更适合这种模型。比如说,以前你可能会提示“你现在是一名装修行业专家,我现在准备装修房子,包含特定的情节”,而现在你只需提示“帮我的89平的房子给一个装修文案”,不需要再定义身份了。AI助手会在内部自己推理和决定具体的内容,这种方式更为简短,但效果更好。
总之,保持提示简洁和清晰,用目标导向的提示来代替繁琐的细节描述。如果需要添加细节,可以在后续的提示中进行补充。
不过,有一个遗憾是目前每周只有30条信息额度,还有一点需要指出的是,这个模型目前还没有工具,比如代码解释器、网页浏览、图片生成和图片上传功能都还没有实现,但这些功能都在开发中。未来,ChatGPT会自动选择模型和工具,用户不再需要纠结于是否使用某个特定模型,而是给出目标,然后AI会自行决定使用哪些工具。