导读
井字棋也能难住大模型?
你没听错,就是那个三岁小孩都能赢的人工智能——井字棋(Tic-Tac-Toe),最近居然在一场公开挑战中“翻车”了。事情发生在上周五的一场线上技术交流会上,一位自称是AI爱好者的开发者发布了一段视频:他在用某个开源大语言模型玩井字棋时,发现模型在多个回合后依然重复犯同样的错误。
这段视频迅速在推特和Reddit上炸锅,不少网友开始尝试复现,并将矛头指向了一些主流大模型。更令人惊讶的是,有人直接@了Andrej Karpathy(卡帕西),这位前特斯拉AI总监、现任OpenAI董事会成员,结果他不仅回复了,还亲自下场测试。

卡帕西是谁?他为啥要挑战OpenAI?
Andrej Karpathy,可以说是AI圈里的一面旗帜。他是深度学习领域的先锋人物之一,早年在斯坦福大学任教,并参与设计了CS231n课程(全球最受欢迎的计算机视觉课程之一)。后来加入特斯拉,主导其自动驾驶系统开发,2023年正式宣布加盟OpenAI。
这次他之所以亲自下场测试,是因为那段视频引发了一个更深层的问题:为什么拥有千亿参数的大模型,在如此简单的逻辑任务面前也会出错?这不仅仅是技术问题,更是对当前AI架构是否真正具备“推理能力”的一次质疑。
卡帕西在他的Twitter上写道:“如果一个模型连井字棋这种确定性极强的任务都搞不定,那我们如何相信它能在现实世界中做出可靠的决策?”
“如果一个模型连井字棋这种确定性极强的任务都搞不定,那我们如何相信它能在现实世界中做出可靠的决策?” —— Andrej Karpathy
OpenAI的回应与GPT-4.5背后的秘密
面对卡帕西的公开质疑,OpenAI方面并没有沉默。Dylan Hunn,一位OpenAI员工,在GitHub Issues上回应称:“目前版本的GPT系列模型主要训练于自然语言理解和生成任务,而非博弈类逻辑推理。”
但更有趣的是,有内部消息透露,Kai Chen——这位曾主导GPT-4.5关键训练阶段的研究员,近期也在团队内部提出过类似问题。她认为,现有的大模型虽然在语言层面表现优异,但在处理符号逻辑和结构化推理方面仍存在明显短板。

GPT-4.5正是在这个背景下诞生的产物,它引入了更多强化学习机制来提升模型的推理稳定性。不过,这些改进还远未达到“人类级”的水平。
AI范式正在悄然改变
其实不止是井字棋问题暴露了当前AI系统的局限性。从技术角度看,整个行业正在经历一次范式的转变。
过去几年,我们一直依赖的是预训练加微调的模式,也就是所谓的Scaling Law——模型越大,效果越好。但随着算力成本的上升和边际效益递减,这条路已经走到了瓶颈。
现在,包括OpenAI在内的多家公司都在转向基于强化学习的新范式。比如在o3模型的研发过程中,OpenAI就首次验证了“推理链+策略优化”的新路线,这也被认为是迈向更通用智能的关键一步。
简单来说,就是让AI不只是“记住”答案,而是学会“思考”问题。
国产大模型:Kimi的突围之路
与此同时,国内的AI战场也风起云涌。尤其是在C端市场,用户选择面相对有限的情况下,Kimi凭借一项创新技术杀出重围——“无限上下文窗口”。
这项技术听起来很玄乎,其实就是让模型能够一次性处理非常长的文本内容,甚至可以理解为“一口气读完整本书”。清华、北大等高校已经开始将其应用到教育场景中,用来辅助学生做论文分析和资料整理。

更重要的是,Kimi的背后是月之暗面这家创业公司,他们没有像其他厂商那样一味追求模型体积,而是在实际应用场景中打磨产品,这也为国产大模型的发展提供了一个新思路。
结语:一场关于未来方向的较量
回到最初的问题:为什么连井字棋都难不倒人类,却能难住AI?这背后其实是整个AI行业对未来方向的分歧。
一边是以OpenAI为代表的“强化学习派”,主张通过策略优化提升推理能力;另一边则是以马斯克为首的xAI团队,强调模型必须具备自我演化的能力,才能真正逼近人类智慧。
这场较量才刚刚开始,谁会是最后的赢家?也许,答案并不重要,重要的是,我们正在见证AI历史上最激动人心的时代。
本文由头条X撰写 | 转载请注明出处
发表评论 取消回复