继此前在今年1月开源多模态模型 Yi-VL-34B后,日前零一万物方面再次宣布开源旗下大模型Yi-9B。据了解,Yi-9B实际参数规模为8.8B,是在Yi-6B(使用了3.1T tokens训练)的基础上使用0.8T tokens继续训练,训练数据截至时间为2023年6月,上下文长度则与零一万物Yi系列其他模型一样、默认为4K tokens。
据悉在训练Yi-9B的过程中,零一万物预训练团队在Yi-6B和Yi-34B的训练方法基础上,进行了更深入的模型结构和训练过程分析,采用模型深度扩增和多阶段增量训练相结合的方式,并取得了显着效果。
目前,Yi-9B还是Yi系列模型中代码和数学能力最强的模型。其中在代码能力方面(Mean-Code),Yi-9B的性能仅次于DeepSeek-Coder-7B,超越了Yi-34B、SOLAR-10.7B、Mistral-7B和Gemma-7B。而在数学能力方面(Mean-Math),Yi-9B的性能仅次于DeepSeek-Math-7B,超越了SOLAR-10.7B、Mistral-7B和Gemma-7B。
此外在综合能力方面(Mean-All),Yi-9B的性能在尺寸相近的开源模型中最好,超越了DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B和Gemma-7B。在常识和推理能力方面(Mean-Text),Yi-9B的性能与Mistral-7B、SOLAR-10.7B和Gemma-7B不相上下。
对此零一万物方面表示,“一直以来,Yi系列模型的中英文能力很强 ,但在代码和数学方面还有提升空间。Yi-9B补足了这一短板,增强了Yi系列模型全方位的能力”。值得一提的是,据零一万物方面透露,Yi-9B(BF16)及其量化版Yi-9B(Int8)均能够在消费级显卡上轻松部署,使用成本较低,对开发者更友好。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
未经允许不得转载:头条今日_全国热点资讯网(头条才是今日你关心的) » 零一万物开源新模型,同系列代码、数学能力最强