微软Phi-4封神:14B小模型数学击败GPT-4o,合成数据占比40%,36页技术报告出炉 微软推出的14B参数小型语言模型Phi-4在数学推理方面表现出色,超越多个更大规模的模型,如70B的Llama 3.3和72B的Qwen。 Phi-4使用40%合成数据进行训练,并发布了详细的36页技术报告。 36KR热点 2024年12月23日 14:17 0 点赞 0 评论 80 浏览
美国奥数题成AI数学噩梦:顶级模型集体翻车,DeepSeek如何逆袭成功? 作为一名AI观察者,他深入分析了近期美国奥数题引发的AI数学推理危机。顶级模型如GPT-4.5、Claude 3.7 Sonnet等在ARC-AGI-2测试中表现惨淡,得分普遍低于5%。然而,DeepSeek的R1模型却凭借独特算法实现了逆袭。文章详细探讨了AI失败的原因及未来发展方向,呼吁行业重视基础理论突破。 36KR热点 2025年04月02日 19:47 0 点赞 0 评论 58 浏览