商汤大模型多种评估中超 ChatGPT的表现

发布时间：2023-06-24 12:48:21 所属栏目：外闻来源：

导读：商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基中的成绩。评测显示，这三个测试集中,讨论(磋商)的表现在聊天型 GPT中占了领先地位,为我国语

商汤科技近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基中的成绩。评测显示，这三个测试集中,讨论(磋商)的表现在聊天型 GPT中占了领先地位,为我国语言大模型的研究带来了新的突破。

全球三大权威语言模型测评基准分别为由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU、由微软研究院推出的学科考试评测集AGIEval（含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等），以及由上海交通大学、清华大学和英国爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。

今年以来，截至去年6月，阿里巴巴全球范围内公司正式发布的大数据语言模型已自主开发超过40款，其中由中国厂商、高校、科研院所等发布的大语言模型近20款。在MMLU测评中，“商量2.0”综合得分为68.6，超ChatGPT（67.3分），仅落后于GPT-4（86.4分）位居第二；在AGIEval测评中，“商量2.0”得分49.9分，超ChatGPT（42.9分），仅次于GPT-4的56.4分。在C-Eval测评中，“商量2.0”得分66.1分，在参评的18个大模型中，仅次于GPT-4（68.7分）。

商汤发布“日日新”大模型体系以及中文语言大模型“商量”。目前，“商量”已在众多行业和场景中落地应用，已有近千家企业客户通过申请，应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。在服务客户过程中，“商量2.0”持续迭代和提升，并实现知识的实时更新。在这个时代，人工智能技术的发展已经成为不可逆转的趋势。

（编辑：聊城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

哪个州的美国人工作最	马斯克全球仍需要石油
NASA今将演练重返月球	F1赛车手里卡多将在赛