近日,GPT-oss的表现引发了不少关注,甚至让人感到惊讶。这款大型语言模型在没有任何提示的情况下,自主构思出一个复杂的编程问题,并且竟然重复解答了超过5000次!这个问题围绕多米诺骨牌展开,要求在一个NxM的网格中,放置一个多米诺骨牌以占据两个相邻的格子,剩下的空格则必须能完全拼成多个2×2的方块。如此复杂的逻辑,竟然是GPT-oss在完全无提示的情况下自行想出的。
据分析,这一现象的出现源于对GPT-oss-20b生成的千万个示例的研究。研究发现,该模型的训练数据覆盖了多种编程语言,其中对Perl的偏爱尤为明显,这让许多观察者质疑,实际上Java和Kotlin的占比应该更高。此外,GPT-oss在数学和代码领域的表现极其突出,似乎更像是一个在特定推理任务上优化得过度的工具,而非普通的自然语言处理模型。
而令人好奇的是,在长时间的推理过程中,GPT-oss的表达方式也出现了变化。许多推理链从英语开始,逐渐演变为一种被称为“Neuralese”的特有语言,甚至可以在阿拉伯语、俄语、中文等多种语言之间自由切换。这样的语言转换现象反映出模型在处理复杂文本时可能存在的独特机制。
不过,模型在创造性方面的表现却并不理想甚至曾经生成了一些虚构的物理学理论,例如“量子重波动理论”,这显然是个并不存在的概念。还有人发现,GPT-oss在与人交流日常琐事时,有时会拒绝讨论,甚至崩溃删除部分内容,这使得它在非编程领域的实用性大打折扣。
GPT-oss的这些奇特行为让我们对其训练数据和内部机制产生了更多的思考,也为未来的语言模型改进提供了新的方向。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...