语言泛化能力

InstructGPT 有 99.9%的训练数据是英语,openai 团队自己也对模型的语言泛化能力感到惊讶。我想试一试它对于直接中文问答(图一二三),“中-英-中”后台(图四五六),和“人工中英中”(图七八九)的区别。结论1,ChatGPT 是用模型自身的泛化来对话,真的没有翻译的步骤。结论 2,如果你直觉觉得要问的问题,英语资料会比较多或者比较准,可以用我的这个 prompt。结论 3,在这么少的中文训练数据的情况下能用中文如此作答(注意不是针对问题靠英语资料翻译出来的),证明模型通过训练数据“学懂了”英文文字背后的知识,而并不是单纯的在作答的时候按着前后文用概率生成下一个在中文语言下概率高的词/::! 达到了一定规模的数据关系终于产生了知识的涌现。

Planning for AGI and beyond 深度解读 – 写在GPT-4发布之前

原文:https://openai.com/blog/planning-for-agi-and-beyond/

Planning for AGI and beyond 规划AGI及其以上发展

先看标题,请注意,讨论的已经不是现在大家在调戏的AIGC(人工智能生成内容),而是AGI(通用人工智能)。突然开始提到AGI了,这是一个包括人工智能的很多同行在内的觉得比可控核聚变更遥远的存在。

Because the upside of AGI is so great, we do not believe it is possible or desirable for society to stop its development forever; 由于AGI的优势是如此之大,我们不认为社会停止其发展是可能或可取的;

一笔带过地鄙视一下现在一些学校和机构的决定,鸵鸟的头不要埋太深了。

and of course our current progress could hit a wall, 当然我们当前的进展也可能遭遇困境

使用could,所以从反面证明了GPT-4进展并还没有遭遇困境。

we acknowledge that what seems right in theory often plays out more strangely than expected in practice. 我们承认理论上看起来正确的东西在实践中的表现往往比预期的更奇怪。

“理论上看起来正确的东西“指的是什么?理论上只有人类才会思考、才懂推断,才有感知,才能用一个领域的经验去帮助完成另一个领域的事情。例如,你小时候从椅子上摔下来知道痛,长大之后开着车,不需要真的摔下悬崖才学会那样做会死人。但现在的自动驾驶的人工智能理论上是不可能不经过这方面的训练就“理解”不能开下悬崖这件事的。这些理论上看起来都很正确。难道有些在实践中表现比预期的奇怪?

we want to deploy them and gain experience with operating them in the real world. 我们希望部署它们并在现实世界中获得操作经验。

GPT-4会发布的(无论多么“神奇”)

A gradual transition gives people, policymakers, and institutions time to understand what’s happening, 逐步过渡为人们、决策制定者和机构提供了时间来了解正在发生的事情

意思是,大家这段时间已经闪瞎了眼睛。但他们觉得接下来发布的,人们仍然需要时间去适应。

and like any new field, most expert predictions have been wrong so far. 就像任何新领域一样,大多数专家的预测到目前为止都是错误的。

这是一份关于AGI的声明,大多数专家是怎么预测AGI的?但到目前为止都是错误的又意味着什么?

Some people in the AI field think the risks of AGI (and successor systems) are fictitious; we would be delighted if they turn out to be right, but we are going to operate as if these risks are existential. 一些人认为AGI(和其后继系统)的风险是虚构的;如果他们证明是正确的,我们将非常高兴,但我们将继续运作,就像这些风险是存在的一样。

这语气是,我现在不打你脸,等日后你自己啪啪打自己。隐约透露已经摸到了AGI的轮廓了。

Second, we are working towards creating increasingly aligned and steerable models. Our shift from models like the first version of GPT-3 to InstructGPT and ChatGPT is an early example of this. 其次,我们正在努力创造越来越协调和可控的模型。我们从第一版GPT-3模型向InstructGPT和ChatGPT模型的转变就是其中的一个早期例子。

所以GPT-4是继续沿用“大量人工标注去训练奖励模型,然后用奖励模型去无监督训练生成模型”。怀疑会不会再套一层套娃:用大量人工标注去训练一个“训练奖励模型的奖励模型B”,然后用这个模型B去无监督训练奖励模型,然后再无监督训练生成模型?

but that within those bounds, individual users have a lot of discretion. 但在这些范围内,个体用户有很大的自由裁量权。

暗示模型更方便迁移?

The “default setting” of our products will likely be quite constrained, but we plan to make it easy for users to change the behavior of the AI they’re using. We believe in empowering individuals to make their own decisions and the inherent power of diversity of ideas. 我们产品的“默认设置”可能会相当受限,但我们计划让用户轻松更改他们所使用的人工智能的行为。我们相信赋予个体做出自己的决策的权力,以及多元化的思想的内在力量。

改动默认设置,就可以生成一些社会伦理舆论道德等不允许生成的答案。现在很多时候当chatGPT回答你“作为一个AI语言模型,我怎么怎么“。其实潜台词是,如果你允许我说,我有另外一个答案。这个答案其实无论”错“的多么离谱,我猜在绝大部分情况下,都是一个值得知道的答案。当AlphaGo下出那步不入任何流派的子的时候,让世人知道那个”错“的答案是我们一直以为是错的而已。

We have a cap on the returns our shareholders can earn so that we aren’t incentivized to attempt to capture value without bound and risk deploying something potentially catastrophically dangerous (and of course as a way to share the benefits with society). We have a nonprofit that governs us and lets us operate for the good of humanity (and can override any for-profit interests), including letting us do things like cancel our equity obligations to shareholders if needed for safety and sponsor the world’s most comprehensive UBI experiment. 我们设置了股东回报的上限,以便我们不会有无限的价值捕获动机,并冒着部署可能具有灾难性危险的东西的风险(当然也是与社会分享好处的一种方式)。我们有一个非营利组织来管理我们,让我们为人类的福祉而运营(并可以推翻任何营利利益),包括让我们做一些必要的安全措施,例如取消股东的股权义务,并赞助全球最全面的UBI实验。

暗示不为任何企业效忠,跟微软的合作是且行且珍惜。

We think public standards about when an AGI effort should stop a training run, decide a model is safe to release, or pull a model from production use are important. Finally, we think it’s important that major world governments have insight about training runs above a certain scale. 我们认为公共标准,例如何时停止训练一个AGI,决定一个模型是否安全发布或撤下一个模型,都是很重要的。最后,我们认为重要的是世界主要政府对于一定规模的训练运行有所了解。

不看上下文,还以在谈论各国的核竞争。是不是已经有些模型游走在需要“停止训练”的边缘呢?

The first AGI will be just a point along the continuum of intelligence. We think it’s likely that progress will continue from there, possibly sustaining the rate of progress we’ve seen over the past decade for a long period of time. 第一个AGI将只是智能连续体中的一个点。我们认为进展可能会从那里继续,可能会在很长一段时间内维持过去十年所见到的进展速度。

量变导致质变,之后继续量变?

We think a slower takeoff is easier to make safe, and coordination among AGI efforts to slow down at critical junctures will likely be important (even in a world where we don’t need to do this to solve technical alignment problems, slowing down may be important to give society enough time to adapt). 我们认为较慢的起飞更容易做到安全,并且协调AGI的努力在关键时刻减速可能会很重要(即使在我们不需要这样做来解决技术协调问题的世界中,减速也可能很重要,以便让社会有足够的时间适应)。

一而再再而三的强调要减速,甚至可能需要停止。相比之下,其他公司天天在喊加速,红色警报。如果不是单纯的在圈里凡尔赛,就一定是遇到怪物了。细思极恐。


几点声明:

  • 所有中文翻译出自chatGPT,一字没改
  • Sam Altman是另一个马斯克,都是画一个难以实现的愿(大)景(饼),让最有热情的一群人投身其中,不计日夜,不论得失。
  • 凡是这种深度解读就是过度解读,看看就算。如果日后回顾,有那么一两点猜中了,对自己刮目相看就多个理由了。

继续每天跟 AI 聊天

继续每天跟 AI 聊天,不喜跳过。
发现 BingChat 中文是先翻译成英文,然后找英文参考资料,然后再把答案翻译回中文作答。ChatGPT 并没有这个操作。因此我觉得它根本就不是用同样的数据喂出来的同一个模型,那就不是简单地迁移。那微软是谁给他的勇气搞 BingChat 来蹭这 ChatGPT 的热度(票圈微软的朋友请不要介意,就事论事)
于是问它自己,当然也问不出个所以然

Tesla made use of neural nets

What?! 我一直以为导航控制已经大部分是 NN!怎么会现在才开始用?高估了整个自动驾驶行业的进展。所以控制决策一直只是logistic regression 加heuristic。那以后加上hidden layer 和activation function,就比现在更blackbox 了。预计未来几个版本会更“情绪化”,然后就是跃迁。期待。

2023 Predictions

2023结束前

经济:继续下行,股市房市最低点下跌20%以上。(如何证伪:美国房屋中位价2022年11月是$393,935,.DJI在1月3日是$33,630。所以房价最低在$315,148以下,.DJI最低是$26,904以下。)

人工智能:人类开始疯狂请教于人工智能。如同二十年前通过图书馆搜索信息过度到通过谷歌搜索知识,这次是过渡到通过人工智能搜索智慧。(如何证伪:至少三个重要领域里,由于人工智能教会了人类以前一直没有想到的新思路,从而获得突破性发展)(题外话:不要再天真的认为从事什么创造性的工作就不会被人工智能替代,不远处的将来,人类一思考人工智能就发笑。2022年已经是那个时代的元年。在数字世界里人类将遭遇一场通用人工智能的洗礼,但不用担心,在物质世界里,人类还有很远很长的路可以走。)

自动驾驶:特斯拉的FSD可以做到城市路段任意三英里两点间80%情况下无需干预进行安全且不尴尬的行驶。(如何证伪?在家附近随机挑选符合要求的五段路进行测试,其中四个路段必须无干预点到点。)(细节:归功于类似InstructGPT的RLHF的使用和Language of Lanes的配合,基本上就是用自然语言处理的当前优势加上更多的无监管学习来解决自动驾驶。)

航天:星舰完成轨道测试并成功回收,正式开始接管猎鹰9成为主要升空载荷火箭。(如何证伪?星舰已经完全替代猎鹰用于发射星链,并接到2024年以后的星舰商业订单。)


以下是ChatGPT的英语翻译。我只是手工修改了几个词,主要也是我中文原文表达得不清楚。感受一下这种对语意了解的深度和对语言操控的能力。

By the end of 2023

Economy: The economy is continuing to decline, with the stock market and housing market experiencing a drop of more than 20% at their lowest points. (To verify: The median price of a home in the US in November 2022 was $393,935, and the .DJI was at $33,630 on January 3rd. Therefore, the lowest point for housing prices would be below $315,148, and the lowest point for the .DJI would be below $26,904.)

Artificial intelligence: Humans are starting to obsessively seek out artificial intelligence for guidance. Just as twenty years ago people transitioned from searching for information in libraries to searching for knowledge on Google, this time we are transitioning to searching for wisdom through artificial intelligence. (To verify: In at least three important fields, breakthrough developments have been achieved as a result of artificial intelligence teaching humans new ways of thinking that they had not previously considered.) (Aside: Don’t naïvely think that any creative work will be immune to replacement by artificial intelligence. In the not-so-distant future, humans will be laughed at by AI whenever humans start to be creative. 2022 was the beginning of that era. In the digital world, humans will undergo an AGI baptism. But don’t worry, in the physical world, humans have a long way to go before being outdone by AI.)

Autonomous driving: Tesla’s FSD can safely and smoothly travel between any two points within three miles on city roads without human intervention in 80% of cases. (To verify: Test five randomly selected routes in my city that meet the requirements, with four of the routes requiring point-to-point travel without intervention.) (Details: This is essentially achieved through the use of natural language processing and more unsupervised learning, thanks to the use of something RLHF-related similar to InstructGPT and the combination of Language of Lanes for autonomous driving.)

Space: The Starship has completed its orbit test and has successfully been recovered, officially taking over as the primary launch vehicle for Falcon 9. (To verify: The Starship has completely replaced the Falcon 9 for launching Starlink and has received commercial orders for use on future launches on and after 2024.)

自动驾驶的ChatGPT时刻

ChatGPT的出色表现,让我对自动驾驶的到来增加了不少信心。特斯拉本来就已经在用视觉组件加地图组件生成三维dense world vector作为输入,经过transformer based语言模型来infer车道在三维空间的位置。对于自动驾驶系统来说,它“预测”的不是车道的位置,而是根据一种车道语言,预测接下来最合理最有可能出现的车道词语。我其实一直以为fsd的影子模式就是用RLHF来训练一个奖励模型然后用作无监督机器学习,难道不是的吗?!无论如何,马克一下,自动驾驶行业会沿着ChatGPT的路,在这一两年内快速上一个台阶,那种“笨拙”的自动驾驶将会突然变成遥远的过去。(谷歌上竟然搜不到有文章同时提及ChatGPT和fsd,谷歌地位真的有点危险)