公司新闻
4500美元验证强化学习「魔力」,1.5B模子也能超出
作者: [db:作者] 点击次数: 发布时间: 2025-02-13 08:37
Deepseek-R1 的出色表示激发了普遍存眷,但其练习方式一直不曾公然。固然 Deepseek 的模子已开源,但其练习方式、数据跟剧本等要害信息仍未对外表露。依据 Deepseek 颁布的信息,很多人以为,只有练习更年夜范围的模子,才干真正施展强化进修(RL)的威力。但是,练习年夜模子须要宏大的盘算资本,闪开源社区望而生畏。现在的任务(如 TinyZero)仅在简略义务上复现了所谓的 “Aha moment”,或许仅供给练习基本设备跟数据(如 OpenR)。一个由伯克利团队领衔的研讨小组提出了一个勇敢的主意:是否用仅 1.5B 参数的小模子,以低本钱复现 Deepseek 的练习秘方?他们发明,简略复现 Deepseek-R1 的练习方式须要宏大本钱,即便在最小的模子上也须要数十万美元。但经由过程一系列练习技能,团队胜利将本钱年夜幅下降,终极仅用 4500 美元,就在一个 1.5B 参数的模子上复现了 Deepseek 的要害练习方式。他们的结果 ——DeepScaleR-1.5B-Preview,基于 Deepseek-R1-Distilled-Qwen-1.5B 模子,经由过程强化进修(RL)微调,实现了惊人的 43.1% Pass@1 正确率,晋升了 14.3%,并在 AIME 2024 比赛中超出了 O1-Preview。这一结果不只攻破了 “年夜模子才干强盛” 的固有认知,更展现了 RL 在小型模子中的无穷可能。更主要的是,伯克利团队开源了全部的练习秘方,包含模子、数据、练习代码跟练习日记,为推进 LLM 强化进修练习的遍及迈出了主要一步。博客地点:https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2名目地点:https://github.com/agentica-project/deepscaler名目网站:https://agentica-project.com/Hugging Face 模子:https://huggingface.co/agentica-org/DeepScaleR-1.5B-PreviewHugging Face 数据集:https://huggingface.co/datasets/agentica-org/DeepScaleR-Preview-DatasetWandb 练习日记:https://wandb.ai/mluo/deepscaler-1.5b?nw=nwusermluo这项研讨一经颁布,遭到网友普遍好评,有网友表现:「DeepScaleR-1.5B-Preview 正在撼动听工智能范畴。」「DeepScaleR 首创了 AI 扩大的新时期。」「开源界又赢了一局。」另有人盛赞:「这才是研讨者想要的货色。」1. 小模子的回击:DeepScaleR 的机密挑衅 RL 的极限强化进修始终被视为年夜模子的 “专属兵器”,昂扬的盘算本钱让良多人望而生畏。研讨团队发明,如果直接复现 Deepseek-R1 的成果 (32K 高低文长度,8000 练习步数),即便在一个 1.5B 的小模子上,须要的 A100 GPU 时长高达 70,000 小时。但研讨团队并未退缩,他们提出了一种奇妙的战略,让 RL 的练习本钱下降至惯例方式的 5%,终极只用了 3800 A100 GPU 小时跟 4500 美元,就在 1.5B 的模子上练习出了一个超出 OpenAI o1-preview 的模子,DeepScaleR 的机密,在于提出了一个迭代式高低文扩大的练习战略。迭代式高低文扩大:小步快跑,冲破瓶颈在 RL 练习中,高低文窗口的抉择至关主要。抉择一个比拟长的高低文会招致练习变慢,而抉择一个短的高低文则可能招致模子不充足的高低文去思考艰苦的成绩。研讨团队在练习行进行了先验测试,发明过错谜底的均匀长度是准确谜底的 3 倍。这标明,假如直接在年夜窗口长进行练习,不只练习速率慢,后果也可能受限,由于无效练习的字符(token) 数目较少。基于这个发明,因而他们采取了迭代式高低文扩大战略:1.8K 高低文窗口:模子先在较短的高低文中简化本人的推理,精进推理技能。2. 扩大至 16K 24K:逐渐加年夜窗口,让模子顺应更庞杂的数学推理义务。这种战略证实是无效的 —— 在第一轮 8K 高低文练习后,模子的均匀答复长度从 9000 字符降至 3000 字符,而 AIME 测试集上的准确率进步了 5%。跟着高低文窗口扩大至 16K 跟 24K,模子更简练的答复方法使练习时光至少晋升了两倍。数据集:四万道数学困难的试炼团队经心构建了一套高品质的数学练习集,包含:AIME(1984-2023)AMC(2023 年前)Omni-MATH Still 数据集数据挑选的要害步调:1. 谜底提取:应用 gemini-1.5-pro-002 主动提取尺度谜底。2. 去重:采取 sentence-transformers/all-MiniLM-L6-v2 停止语义去重,防止数据传染。3. 过滤弗成评分标题:确保练习数据的高品质,使模子可能专一于可验证的谜底。嘉奖函数:精准鼓励模子提高传统的 RL 练习每每应用进程嘉奖模子(PRM),但轻易招致 “嘉奖滥用”,即模子学会取巧而非真正优化推理才能。为懂得决这一成绩,研讨团队抉择了跟 Deepseek-R1 一样的成果嘉奖模子(ORM),严厉依照谜底准确性跟格局停止评分,确保模子真正晋升推理才能。2. 试验成果:数据不会撒谎在多项数学比赛基准测试中,DeepScaleR-1.5B-Preview 展示了惊人的气力:要害冲破点:1.DeepScaleR 在 AIME 2024 上超出 O1-Preview,证实了 RL 在小模子上的可行性。2. 在全部测试会合,DeepScaleR 的均匀表示远超基本模子,展示了强化进修的宏大潜力。3. 要害发明:为什么 DeepScaleR 能胜利?(1)RL 并非年夜模子专属,小模子同样能突起DeepScaleR 的胜利攻破了强化进修只能用于年夜模子的迷思。研讨团队经由过程高品质的 SFT 数据,让 1.5B 小模子的 AIME 正确率从 28.9% 晋升至 43.1%,证实了小模子也能经由过程 RL 实现奔腾。(2)迭代式高低文扩大:比暴力练习更高效直接在 24K 高低文窗口中停止强化进修,后果远不如逐渐扩大。先学短推理,再扩大长推理,能够让模子更稳固地顺应庞杂义务,同时增加练习本钱。4. 论断:RL 的新纪元DeepScaleR-1.5B-Preview 的胜利,不只展现了小模子在强化进修中的无穷潜力,也证实了高效练习战略的主要性。团队盼望经由过程开源数据集、代码跟练习日记,推进 RL 在 LLM 推理中的普遍利用。下一步,他们打算在更年夜范围的模子上复现这一战略,并约请社区独特摸索 RL 的新可能。或者,下一个挑衅 OpenAI 的模子,就藏在如许一个小小的试验之中。 上一篇:特斯拉中国第二座超等工场,来了! 下一篇:没有了