标签:RLHF

昆仑万维再次开源奖励模型Skywork-Reward-V2

2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一...

重大突破!研究团队揭示大语言模型内部潜藏的 “奖励机制”

近日,南京大学的周志华教授团队发布了一项重要研究,首次理论证明了在大语言模型中可以发现内源性奖励模型,并有效应用强化学习(RL)来提升模型表现。当前...