导读: 近日,关于大型语言模型(LLM)是否真正具备推理能力的讨论再次升温。一篇由哈佛大学华人学者主导的研究指出,尽管‘思维链’(Chain-of-Thought, CoT)技术被广泛认为能提升模型的逻辑推理表现,但在某些测试中,LLM在‘多思考一会儿’后反而出现了‘失智’现象。


CoT不是万能钥匙

‘思维链’(CoT)是一种通过引导模型生成中间推理步骤来提高其解决复杂问题能力的技术。简单来说,就是让AI像人类一样,在给出最终答案前先进行一系列的‘思考’过程。

然而,最近的研究却发现,这种‘思考’并不总是带来更好的结果。哈佛大学的一位华人研究者表示:‘当模型试图在输出答案前多思考一会儿时,比如通过智能解码或增加计算资源,它有时反而会变得更不准确。’


为何会出现‘失智’现象?

研究人员发现,这可能与模型内部的注意力机制和信息传递方式有关。在处理复杂的逻辑任务时,模型可能会过度依赖某些特定的路径,而忽略了其他重要的信息来源。

‘我们观察到,在某些情况下,增加模型的思考时间反而会导致性能下降。这表明,当前的LLM在推理过程中存在一定的局限性。’


新基准VisualPuzzles的引入

为了更全面地评估LLM的推理能力,研究团队还建立了一个新的多模态推理基准——VisualPuzzles。该基准包含了从多个来源精心挑选或改编的1168道图文逻辑题,旨在考验AI在视觉拼图方面的解决能力。

AI模型分析视觉拼图

这一新基准不仅涵盖了传统的文本推理任务,还包括了图像识别、空间关系理解等多个维度,从而更真实地模拟了现实世界中的复杂问题。


慢思考框架AtomThink

针对开源MLLM在原子步骤质量较差的问题,研究团队提出了AtomThink慢思考框架。该框架通过引入多模态CoT注释引擎、原子步骤微调策略和政策搜索策略,旨在通过仔细训练来增强MLLM的解码能力。

‘我们的目标是让模型在面对复杂任务时,能够像人类一样进行深入的思考,而不是仅仅依赖于表面的信息。’一位参与该项目的研究人员解释道。


未来展望

尽管目前的研究揭示了LLM在推理能力上的局限性,但这并不意味着这些模型没有改进的空间。相反,这些发现为未来的模型优化提供了重要的方向。

‘我们相信,通过不断的技术创新和方法改进,LLM将能够在更多领域展现出更强的推理能力。’研究团队总结道。

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部