找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 117|回复: 1

[科技新闻] Google亲手种下的树,为何让OpenAI摘走了果子?

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-11-29 08:00 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
1.webp

2017 年,Google 的研究员们只想让机器翻译变得更顺畅一点。他们并不知道,自己刚刚在 arXiv 上上传的那篇论文,实际上是一份核武器的制造图纸。而最终按下发射按钮的,将是他们的竞争对手。

在那一年,一篇名为《Attention Is All You Need》(你只需要注意力机制)的论文横空出世。在那时,这看起来只是自然语言处理(NLP)领域的一次技术迭代;但站在今天回望,那是 AI 历史上的“古登堡时刻”。
今天所有的顶流 AI——无论是 ChatCBT、Claude、Gemini 还是 Grok,它们的肉身虽然属于不同的科技巨头,但灵魂深处的骨架却是一样的。这个骨架就是 Transformer
为了理解为什么这篇论文是 Google 皇冠上最璀璨却也最棘手的明珠,我们需要把时钟拨回那个机器还在患“健忘症”的年代。
患有“健忘症”的模仿游戏

在很长一段时间里,人工智能在语言面前像个笨拙的学渣。
早期的神经网络面临着一个致命的生理缺陷:它们不理解“序列”。人类的语言本质上是一条河流,上文决定下文,语境决定含义。比如,“苹果”这个词,在“苹果很好吃”和“苹果股价大涨”中,代表着完全不同的东西。
为了模拟这种过程,科学家发明了 RNN(循环神经网络)。它的逻辑很符合直觉:像人一样,读完第一个词,记住它,带着记忆去读第二个词,再把两者的记忆融合传给第三个词。
但 RNN 很快撞上了一堵墙——“梯度消失”(Vanishing Gradients)
2.webp

想象一下,你让一个学生背诵《红楼梦》,但他有一个怪病:每多读一句话,他对第一句话的记忆就衰减一半。读到第十句时,他已经彻底忘了开头在讲什么。这就是早期 AI 的困境:随着句子变长,早期的输入信号在数学运算的层层传递中由于不断相乘,最终变成了几乎为零的微弱回声。
AI 没法处理长句子,更别提写文章了。它像是一个患有严重短期记忆丧失症的病人,永远活在当下,永远没有过去。
被遗忘在 90 年代的解药
历史总是充满了幽默感。解决这个现代难题的钥匙,其实早在 1990 年代就被打造出来了。
两位研究者 Hochreiter 和 Schmidhuber 提出了一种改进方案:LSTM(长短期记忆网络)。简单来说,他们在神经网络里安装了几个“门控开关”(Gates)。这些开关负责决定哪些信息该死记硬背(Keep),哪些废话该立刻遗忘(Forget)。
这本来是一个天才的设计。但在 90 年代,它是一场悲剧。
LSTM 结构太复杂了,当时的计算机算力根本跑不动它。它就像是一台设计精密的法拉利引擎,却被安装在了一辆木轮马车上。于是,LSTM 被冷落在角落里吃灰了整整二十年。
直到 2010 年代,救世主降临——GPU 加速大数据爆发。
算力基础设施的成熟,让这台法拉利引擎终于发出了轰鸣。LSTM 瞬间复活,开始统治 NLP 领域。那几年,语音识别、文本生成,几乎所有的突破都以此为基础。但即使是复活后的 LSTM,依然面临一个名为“瓶颈”的幽灵。
当时的翻译模型通常采用 Seq2Seq(序列到序列) 架构:先把一句中文输入进去,压缩成一个固定长度的向量(Vector),再由解码器把它还原成英文。
把整部《战争与和平》压缩成一张便利贴大小的信息摘要,且不能丢失任何细节——这在数学上几乎是不可能的。 这种“固定向量”的瓶颈,让 Google 翻译在处理长难句时依然经常翻车,产出令人啼笑皆非的结果。
探照灯与暴力美学

2014 年,事情开始起变化。研究人员决定给模型装上一盏“探照灯”——这就是注意力机制(Attention)的雏形。

3.webp


它的核心逻辑变得更像人类了:翻译“Banana”这个词时,不要只盯着那张压缩好的便利贴,而是回头去原文里找对应的那个词,并把“注意力”聚焦在它身上。 这就是所谓的对齐(Alignment)。
你可能还记得大概十年前的某一天,Google 翻译突然从“不可用”变成了“惊人的准确”。那个瞬间,就是 Google 在后台上线了带有注意力机制的神经翻译系统。
但这还不够。只要模型还依赖 RNN 的循环结构,它就必须“逐字阅读”。你不能并行计算,意味着训练大模型需要的时间是天文数字。
于是,2017 年,Google Brain 团队做出了一个违背祖宗的决定:我们要彻底删掉循环。
这就是 Transformer 的诞生时刻。
如果不使用循环,怎么理解顺序?Google 的答案是:暴力并行,全局关注。
Transformer 不再像人类一样从左到右阅读。它像一个外星智慧,一眼看完整篇文章。通过自注意力机制(Self-Attention),它让文章中的每一个字,都能同时与文章中其他所有的字发生联系,计算出彼此的相关性权重。
这就好比在一个喧闹的鸡尾酒会上,虽然人声鼎沸,但你依然能瞬间锁定这屋子里所有提到你名字的人,并建立连接。
这种架构带来了一个副产品,正是这个副产品改变了世界:并行计算能力
因为它不需要等读完上一个字才能读下一个字,Transformer 允许我们在成千上万个 GPU 上同时训练模型。这种架构上的“解除封印”,让 AI 模型从“小作坊”直接进入了“重工业”时代。
没有 Transformer,就不可能有后来参数量高达万亿级别的 GPT-4。速度,就是智能的入场券。
盗火者的回声

故事的结局充满了宿命感。

Google 发明了 Transformer,最初只是想做一个更好的翻译软件。他们在这个架构上衍生出了 BERT,一个专注于“理解”的学霸模型。
而在大洋彼岸,OpenAI 却看中了 Transformer 的另一半潜力。他们专注于解码器(Decoder),坚持做“生成”,搞出了 GPT(Generative Pre-trained Transformer)系列。
起初,大家以为这只是两条平行线:一个做理解,一个做生成。大家各司其职,为特定的任务训练特定的模型。直到 OpenAI 发现,只要把数据量堆得足够大,把 Transformer 堆得足够深,一种通用的、仿佛拥有灵魂的“智能”就会涌现。
Google 种下了树,全世界都在乘凉,而 OpenAI 摘走了最甜的那颗果实。
回看这段历史,你会发现并没有什么魔法。所谓的 AI 革命,其实是一场长达 30 年的突围战。从 RNN 的死记硬背,到 LSTM 的选择性记忆,再到 Transformer 的全局洞察,机器终于学会了如何像我们一样——甚至比我们更好地——去理解这个世界的上下文。
这篇 2017 年的论文,终结了旧时代的 AI,也无意中为 Google 的搜索帝国敲响了第一声警钟。但对于人类而言,这或许是我们第一次触碰到了真正的火种。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-11-29 08:24 | 显示全部楼层
蛮通俗的解释
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-1 15:17 , Processed in 0.191264 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表