那些动不动就“追上或超越”GPT的模型，球球你们收了神通吧

+AI动态 AIGC 今日观点网站公告
23年12月27日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

在“第一个中文大模型”、“第一个垂类大模型”等名号被各大科技公司相继占领之后，这场竞赛逐渐转移到了分数上，竞争者们纷纷宣称自己在某些维度上排名第一，或是在某方面远超GPT-4。性能不行，分数再高也没用呀。

原文链接：https://36kr.com/p/2577792552838530
AIGC专区：https://heehel.com/category/aigc
更多消息：https://heehel.com/category/ai-news

那些动不动就“追上或超越”GPT的模型，球球你们收了神通吧

即便是谷歌在发布其新模型Gemini时也未能免俗。

到了年末，AI排行榜上充斥着各种高分大模型，然而它们似乎也就止步于此，高分的模型就只存在于排行榜上，真正能用的似乎也没几个。用李彦宏的话来说，就是目前大量的资源浪费在各种各样基础模型的训练上，甚至是跑分刷榜上，而比较少的资源和精力放在了AI原生应用上。大模型为什么要跑分，源于一个最朴实的概念：如果用户用不上，那么如何证明咱家的模型高级？

在ChatGPT横空出世后，大家只知道ChatGPT很厉害，因为它可以像模像样地回答任何问题，哪怕是脑筋急转弯。于是大家开始用各种刁钻的问题问大模型，来判断大模型好不好。

被称为人类最后堡垒的“弱智吧”问题，常常用来用测试大模型，像什么“老鼠生病了，吃老鼠药可以治好吗？”、“跳多高才能跳过广告？”“生蚝煮熟了还叫生蚝吗？”但仔细想想，这种测试方式不够科学也不太全面，而且万一未来AI主导社会，显然也不是靠抖机灵上位的。

那些动不动就“追上或超越”GPT的模型，球球你们收了神通吧

于是，众多研究机构、高校开始建立完善的大模型评估体系。比如由MBZUAI、上海交通大学、微软亚洲研究院共同推出的CMMLU，专门用于评估大模型在中文语境下的知识和推理能力。

我们根据OpenCompass（主流的开源网站）整理了一下目前主流的AI大模型评测方法，大概有39种。严格意义来说，这39种评测方法只要有一个领域领先GPT，就可以拿来当宣发标题了。大模型测试都会涉及5个方面的能力。考试能力、语言能力、知识能力、理解能力和推理能力。

那些动不动就“追上或超越”GPT的模型，球球你们收了神通吧

考试能力主要测试了大模型在特定任务或条件下的表现。以GAOKAO-Bench（一个数据集）为例，这个测试集简单来说就是让大模型去参加高考。

GAOKAO-Bench收集了2010-2022年全国高考卷的题目，包括选择填空之类的客观题，和阅读理解类的主观题，其中主观题训练集的标准答案由上海市曹杨第二中学的老师们评分。插句题外话，这所学校在上海高中里面可以排进前二十。这一能力通常说明模型在接受特定训练后，能否实现相应的效果，也是评测中努努力最容易得高分的项目。这和好好学习就能考高分如出一辙。

看到眼花缭乱的测试，你是不是觉得高分的大模型一定很厉害？————还真不一定。

首先，行业内存在“大模型测试泄露”的问题。很多大模型的测试题目是公开的，导致厂商可以“针对性训练”AI模型以提高分数。（说的就是你！老滑头谷歌Gemini）

这一现象在人民大学高瓴人工智能学院最近发表的论文《Don't Make Your LLM an Evaluation Benchmark Cheater》被证实。这种做法虽然能提升测试成绩，但并不代表模型的真实能力得到了提升。

那些动不动就“追上或超越”GPT的模型，球球你们收了神通吧

换句话说，只要把这些测试题全部喂给大模型，然后送这个模型去考试，怎么得分都不会低，毕竟是开卷考试。具体来看，在使用测试题进行训练后，小模型也能秒杀大模型。论文中测试了很多模型，这里我们以LLaMA为例。LLaMA-2(7B)在没有使用测试题训练前，在各大测试中分数都不如LLaMA-13B。但在使用测试题训练后，LLaMA-2(7B)的分数可以接近甚至高于LLaMA-65B。后者的参数量是前者的近10倍，要知道，在绝大多数情况下，参数量往往决定了大模型的能力。

那些动不动就“追上或超越”GPT的模型，球球你们收了神通吧