昆仑万维发布两款奖励模型，采用特定筛选策略--头条今日-看天下新闻图文生活资讯平台

近日，昆仑万维方面发布两款全新的奖励模型Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B。

公开信息显示，奖励模型（Reward Model）是强化学习（Reinforcement Learning）中的核心概念和关键组成。此类模型可用于评估智能体在不同状态下的表现，并为智能体提供奖励信号以指导其学习过程，从而让智能体能够学习到在特定环境下如何做出最优选择。据悉，在大语言模型（LLM）的训练过程中奖励模型尤为重要，其可以帮助LLM更好地理解和生成符合人类偏好的内容。

据昆仑万维方面介绍，Skywork-Reward奖励模型基于从公开数据中精心挑选小而精的偏序数据集，以及使用相对较小的基座模型打造。值得一提的是，与现有奖励模型不同，Skywork-Reward的偏序数据仅来自于网络公开数据，但采用了特定的筛选策略，以获得针对特定能力和知识领域的高质量偏好数据集。

同时为了进一步优化数据集，昆仑万维方面还利用数据集的统计信息来进行筛选，在不牺牲整体性能的情况下、实现了在RewardBench各领域之间的性能平衡提升。据称，这一偏好数据集最终包含约80000个样本。

据了解，在RewardBench奖励模型评估基准排行榜上，Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B的排名分别为第一和第三名。在测试过程中，Skywork-Reward模型在对话、安全性等领域表现出色。例如在对话、安全、代码推理、数据推理等方向的困难样本中，只有Skywork-Reward-Gemma-2-27B给出了正确的预测（对比模型包括ArmoRM和InternLM2-20B-Reward）。

在不久前举行的2024 Inclusion·外滩大会上，昆仑万维首席科学家颜水成还围绕高效能大模型研究，分享了该公司在MoE架构研究上的最新进展，以及在Attention层和FFN层的最新成果。

其中在优化模型架构方面，据称昆仑万维团队将Transformer结构的计算效率提升到了原来的两倍。对此颜水成表示，“模型结构还会继续升级，每1到2年都会有新的模型架构和模型改进的方案提出来，以便提升模型训练的效率和泛化能力，让模型更加实用化”。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】

	价格涨飞了专业相机市场正式复苏交易单价稳步上涨
	高通面向移动和XR设备推出全新游戏画面增强技术
	官方解释来了!李小龙回应华为P60 Pro充电器设计争议
	AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相
	王者回归！华为一季度手机销量增长41% 增速领先同行
	最重要卖点没了！加拿大车主买到无快充口的现代IONIQ 5
	创历史新高！丰田2022年全球汽车销量公布：961万辆
	亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴
	3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池
	IDC一季度国内智能手机市场排名来了！OPPO重回第一

头条今日_全国热点资讯网（头条才是今日你关心的）

昆仑万维发布两款奖励模型，采用特定筛选策略

相关推荐

价格涨飞了专业相机市场正式复苏交易单价稳步上涨

高通面向移动和XR设备推出全新游戏画面增强技术

官方解释来了!李小龙回应华为P60 Pro充电器设计争议

AWE 2023聚焦：创维全新壁纸电视A7D系列首发亮相

王者回归！华为一季度手机销量增长41% 增速领先同行

最重要卖点没了！加拿大车主买到无快充口的现代IONIQ 5

创历史新高！丰田2022年全球汽车销量公布：961万辆

亮剑AWE2023 夏普尖端电视产品彰显品牌百年底蕴

3500搞定？诺基亚XR30渲染图曝光搭载4600mAh电池

IDC一季度国内智能手机市场排名来了！OPPO重回第一

评论