标签:思维链

​谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

近期,谷歌DeepMind团队与约翰・开普勒林茨大学LITAI实验室合作,开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调(RLFT)技术,旨在提升语...