数学推理
-
不蒸馏 R1 也能超越 DeepSeek,上海 AI Lab 用 RL 突破数学推理极限
仅通过强化学习,就能超越 DeepSeek! 上海 AI Lab 提出了基于结果奖励的强化学习新范式 —— 从 Qwen2.5-32B-Base 模型出发,仅通过微调和基于结果反馈…
仅通过强化学习,就能超越 DeepSeek! 上海 AI Lab 提出了基于结果奖励的强化学习新范式 —— 从 Qwen2.5-32B-Base 模型出发,仅通过微调和基于结果反馈…