新加坡国立大学Sea AI Lab研究人员刘梓辰表示,类似DeepSeek-R1的尝试其实已有先例。比如2024年底,AI2(Allen Institute for AI)推出的Tülu 3模型,就在数学任务中引入了强化学习方法,并采用了“可验证奖励”的机制。只有当模型答案正确时,才给予奖励。从这个角度看,DeepSeek的训练思路,Tülu 3已经部分尝试过了。
上海交通大学的 LIMO(Less Is More for Reasoning)提出,利用经过精心挑选的817条训练样本,通过简单的监督微调,就能让模型在多个数学任务中表现出色。在AIME24测试中,LIMO将准确率从传统模型(如 Numina-Math)的6.5%提升至57.1%,甚至超过了一些使用数十万条数据训练的主流模型。