2025年7月4日,昆仑万维乘势而上,继续开源第二代奖励模型Skywork-Reward-V2系列。此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。
奖励模型在从人类反馈中强化学习(RLHF)过程中起着关键作用。为打造新一代奖励模型,昆仑万维构建了包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在数据处理上,团队采用人机协同的两阶段流程,将人工标注的高质量与模型的规模化处理能力相结合。
基于优质混合偏好数据开发的Skywork-Reward-V2系列,展现出广泛适用性和出色能力。它涵盖对人类偏好的通用对齐、客观正确性、安全性、风格偏差抵抗能力以及best-of-N扩展能力等多个维度。在RewardBenchv1/v2、PPEPreference&Correctness、RMB、RM-Bench、JudgeBench等七个主流奖励模型评估基准上全面达到当前
该系列模型还具备广泛覆盖多维人类偏好能力。在通用偏好评估基准上优于多个参数更大的模型及
此外,数据筛选流程的高度扩展性显著提升了奖励模型性能。经过精细筛选和过滤的偏好数据,在多轮迭代训练中能持续有效提升模型整体性能,尤其在第二阶段全自动数据扩展中表现显著。早期版本实验显示,仅用1.8%的高质量数据训练8B规模模型,性能就超过当前70B级SOTA奖励模型,印证了Skywork-SynPref数据集在规模和质量上的优势。
HuggingFace地址:
https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84
GitHub地址:
https://github.com/SkyworkAI/Skywork-Reward-V2