当前位置:haosf999传奇发布网站 >> haosf >> 正文

直逼DeepSeek

文章作者:haosf999传奇发布网站 发布时间:2025-03-03 17:05:20

  新智元导读近日,斯坦福、UC伯克利等多机构联手发布了开源推理新SOTA——OpTr32B,性能直逼DpSR132B。其成功秘诀在于数据规模化、严格验证和模型扩展。

  就在刚刚,来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpTr32B,并同时开源了高达114的训练数据。

  团队发现:采用经DpSR1验证标注(基于R1蒸馏)的大规模优质数据集,便可训练出SOTA的推理模型。

  值得一提的是,相比于使用了800数据(包含600个推理样本)的R1Dt,OpTr32B仅用了114数据,就能拿下几乎同等的优异成绩。

  除此之外,OpTr32还把模型权重、数据集、数据生成代码、训练代码上,全部都给公开了!

  他们利用DpSR1模型,收集了精心挑选的173万个问题的推理过程和解答尝试。然后将这些原始数据作为OpToutUvr173数据集公开发布。

  研究团队首先输入源数据或问题提示,这些内容可以来自不同的领域和平台,如BAAI/TACO、DpM、Pyto提交等,涉及代码、谜题、科学和数学等多个方面。

  接着这些多元的输入会进入核心的处理模块——DpSR1,在这里对数据进行分析与处理。这些问题会被分成三个方面,分别是:科学类问题、数学与谜题和代码。

  有些结果不需要验证,可能是简单的分析或直接输出。对于一些需要深入验证的内容,利用大语言模型(LLM)采用与GT(Grou Trut)对比的方式进行评判。如果是代码,执行代码并进行单元测试,确保代码的正确性和有效性。

  研究团队更新了最终的OpTout114数据集,加入了一个名为「tt」的配置,其中包含了一些用于数据集构建的额外列:

  这些额外的元数据将使得这个数据集更容易用于新的场景,例如数据过滤、领域切换、验证检查以及更改推理过程的模板。

  这些额外的元数据将得使该数据集使用起来更加容易,仅需一行代码就能完成例如过滤、更换领域、检查验证和更改推理跟踪模板等。

  研究团队表示,他们期待看到社区利用这些问题和标准答案,在OpTr模型上进行强化学习(RL)的研究。DpSR已经证明,规模较小时,这种方法效果特别好。

  为了得到最终的OpTout114数据集,研究团队对答案进行了验证,并剔除了不正确的回答。

  如下表所示,保留那些未通过验证的推理过程可能会损害性能,尽管未经验证的模型与其他32B推理模型相比仍然表现良好。

  验证的作用在于,在扩大训练提示集的多样性和规模的同时,保持R1注释的质量。另一方面,未经验证的数据可以更容易地扩展,因此也值得进一步探索。

  受到代码执行过程中所面临挑战的启发,我们在Curtor中实现了一个代码执行框架,使用户能够大规模、安全地执行代码,并对照预期输出进行验证。

  对于数学问题,研究团队使用一个LLM(大语言模型)评判器来进行验证,它会同时接收标准答案和DpSR1的解答尝试。

  结果发现,在数据生成过程中,使用LLM评判器而不是更严格的解析引擎(MtVry)进行验证,可以获得更高的有效数据率,并能训练出性能更好的下游模型。

  对于AIME24和AIME25,他们通过平均五次运行的结果来计算准确率。评估配置使用07的温度参数,将模型响应限制在32768个to以内,不添加任何额外的系统或用户提示词,也不使用任何特殊的解码策略(如预算强制)。

  最后,研究团队为社区在过去几周在构建开放数据推理模型方面取得的快速进展感到振奋,并期待基于彼此的洞见继续向前发展。

  OpTr32B的开源,证明了数据、验证和模型规模的协同作用是提升推理能力的关键。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

推荐文章
图文推荐