夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 150|回复: 6

[综艺大观] Z Waves|26岁,博士毕业10个月,陈博远带着13个人把GPT Image2打到了全球第一,领先第二名241分

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:805
发表于 2026-5-22 14:35 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
GPT Image2
1512
分出色成绩登顶
Arena
榜单,领先第二名
241
分,呈现出历史最大分差生成速度提升
6
倍,
3
秒出图,
4K
分辨率。英文、中文、韩文、孟加拉语的文字渲染准确率超过
99%
这些数字的背后,是一位中国学者带领一支仅
13
人的团队,和一张从无锡到伯克利再到
MIT
的华人学术传帮带网络。他的名字叫做
——
陈博远。

这位年仅二十六岁、
MIT
博士毕业不到一年的年轻人,已然成为负责训练
GPT
图像生成模型的核心五个人成员之一,同时还是
Sora
视频生成团队的成员。
他从高中夏令营里连
Python
语法都不懂的编程小白,到站在全球最强图像生成模型最前方的
Research Lead——
只用了十年。

1.webp

图片来源: Boyuan Chen个人主页

  高中时代
16
岁玩机器人,
17
岁遇上引路人

陈博远,
2000
年左右出生,他的高中时代在江苏省天一中学度过。
2015
年起,由于自身对智能机器人领域的无尽热爱,他选择去担任天一中学人工智能社的社长。
在他的带领下,天一中学的机器人小队在全国乃至各类赛事中获得优异成绩,成为了一名在人工智能领域拥有深厚学术背景、坚定科研信念和抱负的青年学者。

2016
年前后,
16
岁的他参加了
FIRST Robotics Competition
FRC
)。学校资源有限,但他每天花数小时设计机器人,带队完成比赛。
同年
5
月,作为高二学生的他参加江苏省青少年科技创新大赛,凭借图像识别追踪无人机项目入围决赛。
那时候他对
AI
还没有概念。连
Python
的基本语法都不熟悉,
NumPy
是什么更是闻所未闻。

真正改变他轨迹的,是高二那年参加的一个科研夏令营。
在那里,他结识了后来成为
Google DeepMind
资深研究员的华人学者夏斐(
Fei Xia
)。
对一个高中生来说,这种出色的动手能力和钻研劲头是藏不住的。夏斐作为已经在
Google DeepMind
工作的资深研究员,愿意花时间向一个高中生解释什么是深度学习,大概率是因为他看到了这个年轻人身上的好奇心和执行力
——
这是做研究最核心的两个素质。正因如此,一个当时连编程都不会的高中生,就这样被推入了
AI
世界的大门。

2.webp

图片来源:新智元(中间陈博远,右一夏斐)

从夏令营里的偶然相识,促成了学术圈里最原始、最纯粹的师徒关系,而这段关系的起点,只是一个前辈愿意花时间去引导一个后辈观察,发现深度学习的世界。夏斐本身就是一个既做前沿研究、又愿意带学生的学者。夏令营对他来说可能只是一个短期的
mentoring
机会,但对陈博远来说,这是整个职业生涯的入口。

  本科阶段
18
岁进伯克利,
19
岁创业,
20
岁进顶级实验室

2017
年,陈博远从天一中学国际部毕业,进入加州大学伯克利分校(
UC Berkeley
)。
他选择了计算机科学与应用数学双专业,进入竞争激烈的
EECS
荣誉班(
EECS Honors
),最终以
3.96
GPA
完成本科学业。

入学三个月后,
18
岁的他做了一件大多数新生不会尝试的事,他创办了机器人教育公司(
Robot Locomotion Group Lab)
,为中小学生开发机器人竞赛相关的软硬件产品。
这家公司从
2017
11
月一直经营到
2020
3
月,跨越了他本科的大部分时间。从想法到代码、从代码到用户、从用户到收入,他完整走了一遍。一个
18
岁的大学生,一边应付
EECS
荣誉班的双学位课程,一边经营一家面向中小学生的机器人教育公司
——
这种同时驾驭多件事的能力,后来在他同时操盘
GPT
图像训练和
Sora
视频两大项目时,几乎以更大的规模重演。

3.webp

图片来源:MIT CSAIL Alliances

2019
1
月,
20
岁的他进入伯克利人工智能实验室(
BAIR
),师从美国机器人学习领域的先驱
Pieter Abbeel
,从事深度强化学习和无监督学习研究。这段经历一直持续到
2021
8
月,几乎覆盖了他本科的后两年半。
2021
年,
22
岁的陈博远以双学位荣誉毕业,随后进入麻省理工学院(
MIT
)计算机科学与人工智能实验室(
CSAIL
)攻读博士学位。

  至暗时刻

陈博远的博士生涯比绝大多数人都要紧凑
——2021
9
月入学,
2025
年完成答辩,不到四年,同时还辅修了哲学。但光鲜背后,他也经历过真实的低谷。
读博第一年,
22
23
岁的他因论文产出陷入瓶颈,这是他整个学术生涯最艰难的阶段。

关键时刻,
夏斐再次提供了决定性的帮助:协助陈博远发表了第一篇有影响力的研究
NLMap
,并邀请他到
Google X
Google DeepMind
参与两次实习。
第一次实习在
2022
5
月至
8
月,
23
岁的他在
Google X
实习,表现出色到拿到了谷歌
L4
级别的
return offer——
但他选择了
decline
,继续深耕学术。第二次实习在
2023
5
月至
8
月,
24
岁的他来到
Google DeepMind
,在夏斐指导下主导搭建了基于大规模合成数据的多模态大语言模型(
MLLM
)数据合成管线,其总结的指令微调技术后来被
Gemini2.0
直接采用。

MIT
期间,他发表了多篇在学术界和工业界均获得认可的研究。
其中博士代表作
“Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion”
入选
NeurIPS 2024
,提出了一种全新的序列生成训练范式,将逐
token
独立噪声级扩散与因果下一个
token
预测结合
。他还以共同一作身份发表了
“SpatialVLM”
,通过自动构建互联网规模的
3D
空间推理
VQA
数据集(
1000
万图像、
20
亿
QA
对),为视觉语言模型赋予定量空间推理能力,可从单张
2D
图像输出米制距离、尺寸、方位等精确数值,将思维链空间推理应用到了具身智能领域。

4.webp

图片来源:Google scholar

值得一提的是,在此期间,陈博远遇
到了两位出色的学者作为他的导师,他们分别是:
1
Vincent Sitzma
nn
,作为
MIT EECS
助理教授,领导
Scene Representation Group
(场景表示研究组),
2
Russ Tedrake
,作为
MIT Toyota
讲席教授(横跨
EECS
、航空航天、机械工程三个系),领导
Robot Locomotion Group
(机器人运动研究组)。这两位导师对他的影响十分深远。
Vincent Sitzmann
世界模型
研究思路
——
AI
通过心理模拟器预判物理世界的变化,而不只是单纯模仿像素
——
直接影响了陈博远后续在
OpenAI
的技术方向。
在陈博远的读博期间,
Sitzmann
帮助他探索把扩散模型和序列生成结合起来的方法,让模型理解并分析时序和空间上的因果逻辑,从而更好的生成更高质量的内容。两人联合发表了《
History-Guided Video Diffusion
》和《
Large Video Planner
》两篇论文。

5.webp

图片来源:arXiv

Russ Tedrake
则教会了他研究的
延迟满足
:陈博远曾回忆,自己最初总想尽快投稿,但
Tedrake
会告诉他,
我知道你能把这篇论文投中,但我们应该再打磨一下,推迟提交。
那些被推迟提交的作品,后来都收到了前所未有的好评。
Tedrake
还教会他欣赏他人的工作、强调自己算法的优势而非别人的局限
——
这种心态帮助他建立了真正有影响力的研究基础。

2025
年,不到
26
岁的陈博远完成
MIT
博士答辩。辅修哲学的他,在研究之外也保持着对技术与人类关系的深层思考。
他在个人博客中写道:
我可以负责任地告诉大家,具身智能一定是下一个一百年最令人激动的技术,并且我们在有生之年很有希望见证通用机器人的诞生。

  OpenAI
时代
Sora
GPT Image 2
的架构重构

2025
6
月,博士刚毕业的陈博远加入
OpenAI
,迅速成为
GPT
图像生成核心五人研究团队之一,负责
GPT
图像生成模型的所有训练,同时也是
Sora
视频生成团队的一员。
在演示中,他给家乡无锡做了一张海报。然后为来自首尔的队友做韩文海报,为来自
Bangladesh
的队友做孟加拉语海报。每一张中的文字渲染都精准无误。

十个月后,
2026
4
月,
GPT Image2
发布。发布会现场,陈博远和
Sam Altman
同台主持,演示了文字渲染能力。但他在知乎博客里自嘲了一句:
多语言能力是直播后半节,国内媒体好像并没有发现只有我才是国人
QwQ
这句带表情符号的自嘲背后,是一个值得玩味的细节
——
在那支
13
人、华人过半的团队里,真正站到前台承担训练和能力展示核心角色的,是他。

6.webp

图片来源:陈博远的知乎博客

发布后不久,陈博远在知乎发了一篇博客,标题非常直接:
我在
OpenAI
修中文。
开头更直接:
大家好,我是
GPT Image
团队的研究科学家陈博远。上周发布的
GPT
生图模型就是我主力训练的!
这篇博客不是技术论文,更像一个幕后花絮。但他透露的信息量足够让外界理解,
GPT Image2
为什么能做到
99%
的字符准确率。

解题思路发生了改变,旧方法是把文字当图形画,随机噪声还原成像素,
看起来像字
就行。
GPT Image2
把文字当语言生成,一个
token
接一个
token
,图像和文字共用同一个生成流程。对语言模型来说,输出
和输出任何语言的字符一样可靠。
这个思路,和陈博远
2024
年在
NeurIPS
发表的论文《
Diffusion Forcing
》高度呼应。那篇论文的标题就很直白:
Next-token Prediction Meets Full-Sequence Diffusion
。翻成大白话,就是让
一个
token
接一个
token
的结构能力
扩散模型处理连续细节的能力
接上。他的学术工作,直接影响了他主力训练的这个产品。

陈博远在博客里还解释了一个更有趣的细节:整个官网
blog
的所有图片,都是用模型生成的,完全没有普通文本。
而他亲手做了其中大部分。那张中文彩蛋漫画,是他想做一个
很搞笑的漫画
,用到了
接住梗
香蕉梗
。为了展示文字能力,他特意让模型在图里加入多国语言文字,又在家乡海报的右下角生成特别特别小的中文,用来测试模型到底能处理多细的细节。更关键的是,这张图不是拼接出来的
——
整张图,包括画中画和画中画中画,都是一次性生成的。他担心大家以为这是拼接图,还特意在图底加了备注。

7.webp

图片来源:陈博远的知乎博客

还有这张米粒刻字图。
4K
分辨率,画面里是一堆米粒,其中一颗米粒上刻着字。
这测试的是模型在极小尺度里的文字控制能力。以及黑板视觉证明
——
用视觉方式证明数学定理。
每一张看似宣传物料的图片,其实都是一次次有设计目的的能力测试。

8.webp

图片来源:陈博远的知乎博客

在博客最后,他特别感谢了整个团队。他说,每个人都做了很多很多的事情。在发布前的尾声,他除了修一些小东西,就是和市场部门的同事、做艺术的同事一起准备发布会和网站
GPT Image2
是一次研究、产品、审美和传播的共同完成。

  布基胶带

GPT Image2
在正式发布前,用代号
“duct-tape”
LMArena
上进行了双盲测试。这个代号是陈博远自己起的。
至于为啥起名叫布基胶带嘛,
他在知乎博客里写,
当然是因为你可以用布基胶带把香蕉贴在墙上啦!
”——
指的是那幅世界闻名的艺术品,一根香蕉用布基胶带贴在墙上。

9.webp

图片来源:陈博远的知乎博客

结果是:
布基胶带以
ELO+242
分断崖领先第二名,代号为
小香蕉
nano banana
)。
+241
分是
LMArena
图像竞技场有史以来最大的领先差距,没有模型曾经以这个幅度超过第二名。
这不是小幅迭代,是架构级别的跳跃。陈博远自己在博客里也确认,从去年
12
月底的
GPT Image1.5
算起,只用了四个月就有如此大的改进。但是底层架构已经彻底重构,核心团队只有
13
人。

10.webp

图片来源:Gabriel GohTwitter

团队负责人
Gabriel Goh
在社交媒体上晒出了一张团队成员
AI
全家福。全员亚裔,华人过半。评论区有网友感叹:怎么全是亚洲人?这个问题本身可能比任何技术论文都更能说明当下的
AI
权力格局正在发生的变化。
陈博远身后那张由夏斐、
Pieter Abbeel
Russ Tedrake
Vincent Sitzmann
等一代代学者搭建起来的华人学术传帮带网络,不是血缘关系,是知识关系
——
是无数个
他就像我的吴恩达
的链条叠加在一起,最终把一批二十多岁的年轻华人研究者,推到了全球
AI
创新的最中央。

16
岁在
FRC
赛场上设计机器人的高中生,到
26
岁带队重构全球最强图像生成模型的
Research Lead
,陈博远用十年时间走完了这条路径。而视觉世界模型对于具身智能至关重要
——
这是他反复强调的信念。
AI
不仅能生成逼真的画面,还能理解物理世界的运行规律时,通用机器人的诞生才真正有了时间表。

16
岁在
FRC
赛场上设计机器人,到
26
岁站上
OpenAI
最核心的图像生成团队,陈博远只用了十年。
但他最特别的地方,或许并不是
天才
”——
而是一种很少见的、始终愿意从零开始的研究者气质。
高中时不会
Python
,读博第一年经历低谷,进入
OpenAI
后又重新
修中文
、重新思考图像与语言的关系。

他不像那种锋芒毕露的明星科学家,反而更像一个对世界始终保持好奇的人:认真到会在一粒米上测试模型能不能刻字,也会为了一个香蕉梗给模型取名
“duct-tape”
而这种近乎执拗的好奇心,也许正是他一路走到今天的原因
——
真正推动
AI
向前的人,很多时候并不是最会讲故事的人,而是那些愿意反复追问
机器到底有没有真正理解世界?
的人。

[1] 
新智元,来自
MIT
最强
AI
实验室:
OpenAI
天才华人研究员博士毕业了,
https://www.36kr.com/p/3470460912801156

[2] 
量子位,半壁华人!
GPT Image 2
团队曝光:无锡才俊带队,
https://www.qbitai.com/2026/04/405391.html

[3] 
爱范儿,起底
GPT Image 2 
团队后,我扒出了一张华人师徒网,
https://www.ifanr.com/1663499

[4] MIT CSAIL
Boyuan Chen Spotlight
https://cap.csail.mit.edu/engage/spotlights/boyuan-chen

[5] 
虎嗅,实测
ChatGPT
最新生图模型三大发现,
https://www.huxiu.com/article/4853320.html

[6] 
江苏省天一中学,天一校友风采
陈博远:
OpenAI
天才华人研究员,
https://www.tyzx.com.cn/gjjy/jsfc2

[7] Boyuan Chen
个人主页,
https://www.boyuan.space/

[8] Boyuan Chen
个人主页
Resume
https://www.boyuan.space/resume



加入ZF讨论群,请先添加小助手微信
  • 打卡等级:功行圆满
  • 打卡总天数:786
发表于 2026-5-22 19:27 | 显示全部楼层
感谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:232
发表于 2026-5-23 08:27 | 显示全部楼层
啥时候回来报效国家?
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:744
发表于 2026-5-23 08:34 | 显示全部楼层
进来了解一下
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:807
发表于 2026-5-23 09:00 | 显示全部楼层
谢谢分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:渐入佳境
  • 打卡总天数:45
发表于 2026-5-24 00:17 | 显示全部楼层
牛逼了!!!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:514
发表于 2026-5-25 10:49 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )

GMT+8, 2026-5-27 03:20 , Processed in 0.241865 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表