日前,商汤科技与上海AI实验室联合香港中文大学、复旦大学,发布了新一代大语言模型书生·浦语2.0(InternLM2)。
据了解,InternLM2是在2.6万亿token的高质量语料上训练而来,沿袭了初代InternLM的设定,包含7B及20B两种参数规格及基座、对话等版本,可满足不同复杂应用场景需求,并继续开源、提供免费商用授权。而且通过拓展训练窗口大小和位置编码改进,InternLM2支持20万tokens的上下文,能够一次性接受并处理约30万汉字(约五六百页的文档)的输入内容,并准确提取关键信息,实现长文本中“大海捞针”。
相较于初代InternLM,InternLM2的各项能力获得全面进步,其中在推理、数学、代码等方面的能力提升尤为显着,综合能力领先于同量级开源模型。据商汤方面公布的测评结果显示,在一系列典型评测集上,InternLM2只用20B参数的中等规模即在整体表现上达到了与ChatGPT比肩的水平。而在AGIEval、 BigBench-Hard(BBH)、GSM8K、MATH等对推理能力有较高要求的评测上,InternLM2的表现甚至要优于ChatGPT。
商汤方面还指出,得益于综合性能的增强,InternLM2下游任务能力全方位提升,可提供优秀的对话及创作体验、支持多轮任务规划及工具调用,以及提供实用的数据分析能力等。
其中在对话及创作体验方面,InternLM2-Chat可以精准地理解和遵循用户意图,具备较强的共情能力和丰富的结构化创作能力。在商汤方面展示的相关案例中,InternLM2-Chat不仅可以在严格格式要求下编制课程大纲、以富有人文关怀的回答开解用户,还能够编写《流浪地球3》的剧本。
在多轮任务规划及工具调用方面,基于更强大、更具泛化性的指令理解、工具筛选与结果反思等能力,InternLM2可支持复杂智能体的搭建,支持对工具进行多轮有效调用及多步骤规划,完成复杂任务。而且联合团队针对多种任务构建了细粒度工具调用评测集T-Eval,InternLM2-Chat-7B在该评测集上表现超越了Claude-2.1和目前的开源模型,性能接近GPT-3.5。
此外商汤方面强调,InternLM2 的核心理念在于回归语言建模的本质,致力于通过提高语料质量及信息密度,实现模型基座语言建模能力质的提升,为此联合团队提出了新一代的数据清洗过滤技术。据悉,目前InternLM2背后的数据清洗过滤技术已经历三轮迭代升级,仅使用约60%的训练数据即可达到使用第二代数据训练1T tokens的性能表现。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读:
- 商汤科技携手F1顶级车队 持续探索以AI优化车队表现
- 商汤科技智能编程助手开放公测,基于自研大模型
未经允许不得转载:头条今日_全国热点资讯网(头条才是今日你关心的) » 商汤联合发布大模型InternLM2,并继续保持开源