2020-08-01 关于 GPT-3 的随想（一）的副本

原创硅谷王川 investguru 2020-08-01

1/ GPT-3 全名 "General Pretrained Transformer-3" (通用预训练转换器，第三版), 是 OpenAI 开发的一个自然语言处理的计算模型，最初出现在 2020年五月底公开发布的一篇论文 “Language Models are Few-Shot Learners” （小样本学习的语言模型，第一作者为 Tom Brown）。到七月中旬一位开发者发现此工具可以把普通英文口语自动转化成计算机程序代码，因此迅速在科技社区风靡。

2/ GPT-3 说白了，就是一个电脑程序，根据你输入的提示性文字或示范，可以不断按照你的要求自动生成新的文字，直到某个长度的上限。它的一大优点是不是专门为某一个特定任务所训练，所谓“任务无偏” (task-agnostic), 但在很多任务的表现上，已经不输于那些为某个特定任务微调多次的语言模型。打个比方，它就像一个通才教育的自学者，没有接受细分专业的特别培训，但解物理数学题，吹拉弹唱，望闻问切，杀猪宰羊的水平，和科班出身的专业人士不分伯仲。

3/ 在应用上，GPT-3 被发现可以

i. 直接把英文口语转化成相应的程序代码。

ii. 把英文翻译成法文或别的语言。

iii. 在收到简单的要点提示后，可自动生成完整的段落，并回复电子邮件。

iiii. 自动实现法律用语和口语之间的转换。

iv. 自动写小说，诗歌，剧本等等

4/ 据使用者说，GPT-3 的 60-70% 的输出都是些垃圾，但这并不妨碍有 30%的输出是高质量的甚至令人惊艳的文字。这比之前的 GPT-2 版本只有 5-10% 的高质量文字输出已经大大提高。

5/ 下面是 GPT-3 自动生成的一些金句。（摘自推特 @Wisdom_By_GPT3)

“世界上任何你看不惯的东西，都可以用’这不好玩‘来应对。”

"大自然残酷无情,从不宽恕,而又美丽的方式，和人脑清楚的思维格格不入。”

“一旦你拥有了过去，你就可以创造整个宇宙”。

“如果我知道人生的意义是什么，我（TMD）还会上这来浪费时间吗？” 。

6/ GPT-3 作为最新的自然语言处理模型，耗费了大约 3640 个 Pflops-day 的算力。（一个 Pflops-day 接近十的二十次方个浮点计算）。这个计算成本大约一千两百万美元，猜测是按照当下微软的云计算价格估计的。微软号称投资十亿美元给 OpenAI, 这里面很大部分来自于把云计算的算力按某个批发价折算成投资金额。实际也就只够训练 GPT-3 大约八十次而已。

7/ 支持 GPT-3 和其它类似的自然语言处理模型的发展，主要有三个方面。

第一是算力的提高。有分析指出，过去几年同等算力（以半精度浮点计算为标准）的 GPU 价格下降幅度大约每年 26%，这相当于每八年降低一个数量级，或者说，同等成本，每八年算力就增加十倍。

8/ 第二，新的计算模型涌现，提高自然语言处理的效率。Transformer 模型本身的出现，也就是来自 2017年十二月一篇名为 “Attention is all you need" （ ”注意力机制就是你全部所需的”，第一作者为 Ashish Vaswani) 的论文。这个算法允许高并行度的数据处理，因此大大减少数据训练的时间。完全可以预期，未来还会有更新更高效的计算模型涌现。