Google亲手种下的树，为何让OpenAI摘走了果子？

咖啡豆 · 发表于 2025-11-29 08:00

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

2017 年，Google 的研究员们只想让机器翻译变得更顺畅一点。他们并不知道，自己刚刚在 arXiv 上上传的那篇论文，实际上是一份核武器的制造图纸。而最终按下发射按钮的，将是他们的竞争对手。

在那一年，一篇名为《Attention Is All You Need》（你只需要注意力机制）的论文横空出世。在那时，这看起来只是自然语言处理（NLP）领域的一次技术迭代；但站在今天回望，那是 AI 历史上的“古登堡时刻”。
今天所有的顶流 AI——无论是 ChatCBT、Claude、Gemini 还是 Grok，它们的肉身虽然属于不同的科技巨头，但灵魂深处的骨架却是一样的。这个骨架就是 Transformer。
为了理解为什么这篇论文是 Google 皇冠上最璀璨却也最棘手的明珠，我们需要把时钟拨回那个机器还在患“健忘症”的年代。
患有“健忘症”的模仿游戏

在很长一段时间里，人工智能在语言面前像个笨拙的学渣。
早期的神经网络面临着一个致命的生理缺陷：它们不理解“序列”。人类的语言本质上是一条河流，上文决定下文，语境决定含义。比如，“苹果”这个词，在“苹果很好吃”和“苹果股价大涨”中，代表着完全不同的东西。
为了模拟这种过程，科学家发明了 RNN（循环神经网络）。它的逻辑很符合直觉：像人一样，读完第一个词，记住它，带着记忆去读第二个词，再把两者的记忆融合传给第三个词。
但 RNN 很快撞上了一堵墙——“梯度消失”（Vanishing Gradients）。

想象一下，你让一个学生背诵《红楼梦》，但他有一个怪病：每多读一句话，他对第一句话的记忆就衰减一半。读到第十句时，他已经彻底忘了开头在讲什么。这就是早期 AI 的困境：随着句子变长，早期的输入信号在数学运算的层层传递中由于不断相乘，最终变成了几乎为零的微弱回声。
AI 没法处理长句子，更别提写文章了。它像是一个患有严重短期记忆丧失症的病人，永远活在当下，永远没有过去。
被遗忘在 90 年代的解药
历史总是充满了幽默感。解决这个现代难题的钥匙，其实早在 1990 年代就被打造出来了。
两位研究者 Hochreiter 和 Schmidhuber 提出了一种改进方案：LSTM（长短期记忆网络）。简单来说，他们在神经网络里安装了几个“门控开关”（Gates）。这些开关负责决定哪些信息该死记硬背（Keep），哪些废话该立刻遗忘（Forget）。
这本来是一个天才的设计。但在 90 年代，它是一场悲剧。
LSTM 结构太复杂了，当时的计算机算力根本跑不动它。它就像是一台设计精密的法拉利引擎，却被安装在了一辆木轮马车上。于是，LSTM 被冷落在角落里吃灰了整整二十年。
直到 2010 年代，救世主降临——GPU 加速和大数据爆发。
算力基础设施的成熟，让这台法拉利引擎终于发出了轰鸣。LSTM 瞬间复活，开始统治 NLP 领域。那几年，语音识别、文本生成，几乎所有的突破都以此为基础。但即使是复活后的 LSTM，依然面临一个名为“瓶颈”的幽灵。
当时的翻译模型通常采用 Seq2Seq（序列到序列） 架构：先把一句中文输入进去，压缩成一个固定长度的向量（Vector），再由解码器把它还原成英文。
把整部《战争与和平》压缩成一张便利贴大小的信息摘要，且不能丢失任何细节——这在数学上几乎是不可能的。 这种“固定向量”的瓶颈，让 Google 翻译在处理长难句时依然经常翻车，产出令人啼笑皆非的结果。
探照灯与暴力美学

2014 年，事情开始起变化。研究人员决定给模型装上一盏“探照灯”——这就是注意力机制（Attention）的雏形。

它的核心逻辑变得更像人类了：翻译“Banana”这个词时，不要只盯着那张压缩好的便利贴，而是回头去原文里找对应的那个词，并把“注意力”聚焦在它身上。 这就是所谓的对齐（Alignment）。
你可能还记得大概十年前的某一天，Google 翻译突然从“不可用”变成了“惊人的准确”。那个瞬间，就是 Google 在后台上线了带有注意力机制的神经翻译系统。
但这还不够。只要模型还依赖 RNN 的循环结构，它就必须“逐字阅读”。你不能并行计算，意味着训练大模型需要的时间是天文数字。
于是，2017 年，Google Brain 团队做出了一个违背祖宗的决定：我们要彻底删掉循环。
这就是 Transformer 的诞生时刻。
如果不使用循环，怎么理解顺序？Google 的答案是：暴力并行，全局关注。
Transformer 不再像人类一样从左到右阅读。它像一个外星智慧，一眼看完整篇文章。通过自注意力机制（Self-Attention），它让文章中的每一个字，都能同时与文章中其他所有的字发生联系，计算出彼此的相关性权重。
这就好比在一个喧闹的鸡尾酒会上，虽然人声鼎沸，但你依然能瞬间锁定这屋子里所有提到你名字的人，并建立连接。
这种架构带来了一个副产品，正是这个副产品改变了世界：并行计算能力。
因为它不需要等读完上一个字才能读下一个字，Transformer 允许我们在成千上万个 GPU 上同时训练模型。这种架构上的“解除封印”，让 AI 模型从“小作坊”直接进入了“重工业”时代。
没有 Transformer，就不可能有后来参数量高达万亿级别的 GPT-4。速度，就是智能的入场券。
盗火者的回声

故事的结局充满了宿命感。

Google 发明了 Transformer，最初只是想做一个更好的翻译软件。他们在这个架构上衍生出了 BERT，一个专注于“理解”的学霸模型。
而在大洋彼岸，OpenAI 却看中了 Transformer 的另一半潜力。他们专注于解码器（Decoder），坚持做“生成”，搞出了 GPT（Generative Pre-trained Transformer）系列。
起初，大家以为这只是两条平行线：一个做理解，一个做生成。大家各司其职，为特定的任务训练特定的模型。直到 OpenAI 发现，只要把数据量堆得足够大，把 Transformer 堆得足够深，一种通用的、仿佛拥有灵魂的“智能”就会涌现。
Google 种下了树，全世界都在乘凉，而 OpenAI 摘走了最甜的那颗果实。
回看这段历史，你会发现并没有什么魔法。所谓的 AI 革命，其实是一场长达 30 年的突围战。从 RNN 的死记硬背，到 LSTM 的选择性记忆，再到 Transformer 的全局洞察，机器终于学会了如何像我们一样——甚至比我们更好地——去理解这个世界的上下文。
这篇 2017 年的论文，终结了旧时代的 AI，也无意中为 Google 的搜索帝国敲响了第一声警钟。但对于人类而言，这或许是我们第一次触碰到了真正的火种。

wakeman · 发表于 2025-11-29 08:24

蛮通俗的解释

账号		自动登录	找回密码
密码			注册

[科技新闻] Google亲手种下的树，为何让OpenAI摘走了果子？

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。