夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 108|回复: 1

[科技新闻] G2围绕“模型蒸馏”的交锋

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-4-25 08:49 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
4月23日,美国白宫科技政策办公室主任Michael Kratsios发布了一份备忘录,主要说的是特朗普政府打算怎么跟头部AI公司和整个私营部门合作,应对所谓“来自国外的AI威胁”。
备忘录一上来先强调,美国在AI领域现在还是全球领先的,这背后是几十年的科研积累、创业冒险,还有每年几千亿美元的私人投资。但紧接着话锋一转,说美国政府掌握的信息显示,有一些主要位于中国的实体,正在进行蓄意的、工业规模的行动,以窃取美国的前沿人工智能系统。
备忘录里描述了一些具体场景:比如用成千上万个代理账号去调用模型,规避平台检测,再配合各种“越狱”手段,把模型的关键信息一点点提取出来,也就是“模型蒸馏”。
针对这些情况,备忘录大概列了四个方向的应对措施。第一,是把这些攻击相关的信息(比如用什么手法、有哪些参与方)更多地分享给美国AI公司;第二,是帮助企业之间更好地协调应对,而不是各自为战;第三,是跟私营部门一起总结一套最佳实践,包括怎么识别、怎么缓解、怎么修复这些大规模蒸馏行为;第四,就是开始考虑用各种手段去追责相关的外国行为者。
Kratsios还特别提到,这些举措其实是放在特朗普政府整体的AI行动计划里的。一方面是要继续推动一个比较开放、活跃的AI生态(包括开源),让美国的AI能力可以更广泛地被使用;但另一方面,也要确保这种扩散是在“可控”和“公平竞争”的前提下进行。
这份备忘录出来的时间点很微妙。Anthropic 最近在测试Claude Mythos的模型,据说可以大规模发现软件漏洞,如果被对手掌握,潜在的国家安全风险是很高的。所以他们现在已经在尝试限制访问,只跟少数公司和像 JPMorgan Chase 这样的机构合作,但外界普遍觉得,这种控制手段可能还不够。
另一边,OpenAI 也在做类似的事情,比如在“可信网络安全访问计划”里测试一个叫 GPT-5.4 Cyber 的模型,同时让 National Institute of Standards and Technology 来参与评估。
而昨天,OpenAI刚发布最强模型GPT 5.5,DeepSeek也发布了业界期盼已久的V4。
今天,外交部回应指出,Krastios上述备忘录的说法毫无根据,是对中国人工智能产业发展成就的污蔑抹黑。
2025年春节期间DeepSeek爆火,OpenAI指责DeepSeek蒸馏他们的模型,违反使用条款并侵犯其知识产权。随后白宫人工智能沙皇David Sacks、商务部长Lutnick都就此事发声,指责所谓的知识产权“窃取”。随着中国AI模型的性能越来越逼近美国一线模型,美国企业、行业机构、国会、政府对模型蒸馏问题的关注越来越高。
但总的来说,那时中美两边对“蒸馏”的认识还比较初步,没有形成明确的认定和策略。美国发明出一个“对抗性蒸馏”(Adversarial distillation)的名词,大意是说:虽然蒸馏是一种行业的做法,但“对抗性蒸馏”有很大危害,违反使用条款或许可协议,帮中国公司省去了从零开始研发的巨大成本,以很低的代价就把美国前沿模型的核心能力“偷走了”。而且,中国公司“偷走了”模型能力,却没有把原本的安全措施也一起带走,相当于把一个很强的AI放在没有护栏的环境里用,这会大大增加被滥用、甚至产生有害后果的风险。
中国这边的反驳是:利用先进模型(如 GPT-4)的输出作为种子数据或对齐数据,不是中国企业首创或独有的,而是全球开源社区(特别是西方自身)的标准做法。著名的西方开源模型阵营(如斯坦福的 Alpaca、加州大学伯克利的 Vicuna,乃至早期的各种 Llama 微调版本),均是在 OpenAI 的输出数据上进行蒸馏或微调起家的。美方此时将“行业普遍存在的迭代方法”单独拿出来对中国企业进行政治化定性与指责,缺乏技术客观性。
还有人指出,OpenAI、Google 等美国企业在训练其大模型时,未经授权抓取并消化了全球海量的版权内容(包括中国作家的作品、新闻、开源代码),以此获得了智能涌现。而当其模型产出结果时,却声称这些机器生成的文本具有神圣不可侵犯的“知识产权”,严禁他人学习,这是典型的双标,而且涉嫌垄断和违反竞争法。
也有中国技术社群的专家指出,蒸馏只能模仿表层语气或部分逻辑,无法复制深层的网络架构、推理效率优化等更核心的能力,这些都是中国的原创。例如,DeepSeek的MLA(多头潜在注意力和DeepSeekMoE(混合专家架构),以及千问的底座结构,都是独立研发的底层架构创新。在多项涉及中国本土语境、中文长文本处理、特定理科推理的盲测中,国内模型已展现出超越原始“教师模型”的独立能力,其能力突破源于本土的高质量训练数据和算法迭代,绝非简单的复刻,更不是“偷窃”。
但这一争论目前或许可以画上一个句号了,因为美国对“模型蒸馏”的定性已经明确为“技术窃取”,并且在产业和政府层面达成了一致,随之而来的是一系列具体的应对行动。
2023年,OpenAI、Google DeepMind、Anthropic、Microsoft共同发起成立前沿模型论坛(Frontier Model Forum, FMF)。该组织最初的目标是推动前沿大模型(尤其是最先进、最有潜在风险的AI系统)的安全开发与治理合作,但在如何阻止中国公司蒸馏美国模型方面却动作频频。2026年2月,FMF发布了《对抗性蒸馏》专题简报,从技术上对“CoT 窃取”、“自动评分器攻击”等新型蒸馏手法进行了行业统一定义,为后续美国公司之间对齐标准、一致对中打下了基础。
近期,Anthropic 等巨头指责部分中国头部大模型厂商(如 DeepSeek、月之暗面、MiniMax)存在大规模蒸馏行为。随后,媒体披露OpenAI、Anthropic 和 Google首次通过“前沿模型论坛”启动了防御对抗性蒸馏(Adversarial Distillation)的实时情报交换。三巨头开始在底层互通机器人指纹(Bot Fingerprinting)、异常行为特征以及诱导思维链(CoT)窃取的特定提示词模式。一家识别到攻击,即可全网阻断。这些美国公司还共享了一份“威胁情报清单”,协同识别并封禁了约 2.4 万个用于“套壳中转调用”的“违规”账户。
4月22日,美国众议院外交事务委员会一致通过了《阻止美国AI模型被窃取法案》(Deterring American AI Model Theft Act)。法案的核心,是把所谓的“模型提取攻击”直接上升到国家安全和出口管制层面来处理。如果有人通过各种方式蒸馏提取美国的非开源AI模型能力,将不再只是商业纠纷或违规使用,而是威胁到美国国家安全的问题。
法案首先界定了一系列概念:什么叫非开源模型、什么算正常的学术研究、什么又属于非法提取。比如,如果模型权重这些核心技术没有公开,只能通过API访问,而且使用还受服务条款约束,那基本就属于受保护对象。而所谓“模型提取攻击”,就是在没有授权的情况下,通过绕过限制、用假账号、或者直接违反使用条款,把模型输出拿去训练自己的模型。法案还引入了“目的推断”:监管机构可以根据调用的规模、方式、是不是多账户协同等迹象,直接判断你是不是在“窃取”美国的前沿模型能力。
在打击范围上,它也不只是盯着直接做这件事的人,还往外延了一层。比如那些专门提供账号、做API代理、帮别人绕地理限制的服务商,也会被认定为帮手,一起纳入打击范围。与此同时,法案明确把中国(包括港澳)、俄罗斯以及D:5国家列为重点关注对象。
法案还建立了完整的执行机制:一方面是政企之间的信息共享,比如企业可以把发现的攻击行为、异常账号快速上报,政府再做整合分析;另一方面是信息公开,比如建立一个“模型提取攻击者名单”,把相关个人和公司直接公示出来,最长可以挂五年。同时还要求政府定期向国会提交报告,并对外发布一套行业最佳实践,把怎么防范和识别相关行为变得标准化。
法案的惩戒措施几乎是顶格制裁。一方面,由美国商务部将对美国模型进行蒸馏的中国公司、为这些公司提供虚假账号服务的网络服务商,以及上述主体持股 50%以上的子公司加入实体清单;另一方面,由美国财政部对这些公司实施经济制裁,包括入境禁令、冻结其在美国境内或由美国实体持有的全部财产,以及禁止美国公司与这些实体进行任何交易。
和此前对芯片和云的限制立法提案不同,这个“打击中国蒸馏”的法案恐怕没有什么美国公司会反对,而影响的则将主要是中国公司。理性推演,法案在国会通过的可能性相当大。
国内恐怕需要未雨绸缪,如果未来无法再通过知识蒸馏快速提升模型性能,算力供给短时间内又难以跟上,对中国AI产业发展可能会产生什么影响。
短期看,最大的冲击可能是对齐成会突然上升,优质语料出现断档。据了解,国内很多模型在预训练阶段已经有不错的底座能力,但到了 SFT 和 RLHF 阶段,过去很大程度上依赖 GPT-4 等美国前沿模型产出的高质量合成数据,包括指令数据、偏好数据、推理样本等。如果这条路被切断,企业就必须更多依赖人工标注和自建数据体系,成本会大幅上升,迭代速度也会明显变慢。尤其是在代码生成、小语种、高阶逻辑推理等中文原生数据本来就不足的长尾场景,模型的泛化能力短期内可能会受到明显影响。
中期看,行业会经历一轮洗牌,也会加速“去美国模型化”。那些主要依靠“开源底座 + 美国模型蒸馏微调”的初创公司,生存空间会被明显压缩。算力、数据和工程能力会进一步向真正有能力从零预训练、自建数据团队、维护大规模算力集群的头部公司集中。与此同时,国产模型的风格也会开始分化,在表达方式、安全拒答、价值观对齐上会更多基于本土数据和本土合规要求重新对齐,逐渐形成不同于美国模型的语言风格和价值表达。
长期看,这反而可能倒逼底层创新。蒸馏本质上是一种模仿学习,它能快速追赶,但天花板也很明显:学生模型很难真正超过教师模型。如果外部蒸馏被限制,国内团队就不得不从模仿别人转向自己探索,比如更多投入强化学习、自我博弈、可验证任务训练、MCTS,以及 MoE 等底层架构创新。这会提高短期难度,但也可能逼出真正有原创性的技术路线。
模型蒸馏的动因,从根子上来说在于算力和数据的不足。很多公司正是因为没有足够的芯片才不得不走蒸馏这条路。如果这条路被切断,对国产算力尽快赶上来提出了更迫切的需求。高质量本土数据生态也迫切需要加速成型。如果不能继续依赖外部前沿模型产出的合成数据,国内就必须更认真地解决数据问题,包括打破政企之间的数据孤岛,建设行业级、国家级高质量语料资源池,并进一步探索非文本数据,比如工业、医疗、机器人、物理世界传感器数据在模型训练中的应用。
文章仅做学术探讨和研究交流使用,相关判断不代表任何公司或机构立场,也不构成任何商业或投资建议。转载请注明出处。
  • 打卡等级:炉火纯青
  • 打卡总天数:80
发表于 2026-4-25 20:31 | 显示全部楼层
牛X,支持...
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-25 21:10 , Processed in 0.137978 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表