最近,苹果公司发布了一篇引发热议的论文,指出当前的大语言模型(LLM)在推理方面存在重大缺陷。这一观点迅速在社交媒体上引起热议,尤其是GitHub的
苹果的论文指出,在解决数学和编程等基准测试时,LLM的表现并不可靠。苹果研究团队采用了汉诺塔这一经典的人工谜题,分析了推理模型在不同复杂度下的表现。研究发现,模型在面对简单谜题时表现较好,而在复杂度较高的任务中,推理模型往往选择放弃,不再继续推理。
例如,在处理十盘汉诺塔问题时,模型会觉得手动列出每一步几乎不可能,因此选择寻找“捷径”,但最终却未能得出正确答案。这一发现表明,推理模型在某些情况下并非没有能力,而是意识到问题过于复杂而选择放弃。
不过,SeanGoedecke对此表示质疑,他认为汉诺塔并不是测试推理能力的
虽然苹果的研究揭示了LLM在推理方面的一些局限,但这并不意味着这些模型完全没有推理能力。真正的挑战在于如何更好地设计和评估这些模型,以发掘它们的潜力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...