他是混合专家模型(MoE)领域的专家,参与了谷歌万亿权重语言模型 GLaM(General Language Model)的开发,是相关论文的第一作者。GLaM 采用稀疏专家混合模型(MoE)架构,通过高效训练和服务,在多个小样本学习任务上都能有竞争力的性能。
此外,杜楠还参与了 PaLM 2 和 Google AI 搜索项目 Magi 的工作。
2023年10月,他加入 Apple AI/ML 团队,继续提升大模型模型的效率,参与了苹果大模型300亿参数多模态大模型MM1(MoE架构)的预训练,以及 Apple intelligence 的开发。
杜楠目前的论文被引用次数超过了 25k,其中,发布 PaLM 模型的论文被引用了超过6800次。
王子瑞 / Zirui Wang
王子瑞近期也被外媒频繁提及,被视作目前苹果AMF的重要角色之一。当前他负责 Apple Foundation Models 的后训练(post-training)工作。在去年关于 Apple Foundation Models 的论文中,王子瑞的名字出现在 post-training 负责人的位置。
王子瑞在如今的苹果团队中属于新生代力量。
他在卡内基梅隆大学取得学士、博士学位,博士毕业后加入 Google 任研究科学家,专注于语言模型和多模态模型。在 Google 期间,他还参与了 Gemini 的工作。后来在庞若鸣的招募下,王子瑞于 2023 年加入 Apple。中途他曾在 xAI 工作过一段时间,但后续回到 Apple 负责模型后训练。
在 Google 期间,他和近期同被小扎挖去Meta的前 OpenAI 研究员—— 余家辉共同一作提出的多模态预训练方法 CoCa(TMLR 2022)被引用超 1700 次。这篇论文的作者还有吴永辉。