数学推理

AI

不蒸馏 R1 也能超越 DeepSeek，上海 AI Lab 用 RL 突破数学推理极限

仅通过强化学习，就能超越 DeepSeek！上海 AI Lab 提出了基于结果奖励的强化学习新范式 —— 从 Qwen2.5-32B-Base 模型出发，仅通过微调和基于结果反馈…

2025年2月17日