GPT-4在概念推理任务表现不如人类，还需继续学习提高！

HeeHel喜好儿官方小编

圣达菲研究所的科研人员对 GPT-4在推理和抽象能力方面与人类的差距进行了定量研究。他们使用 ConceptARC 基准测试评估了 GPT-4在文本和多模态方面的表现，并发现 GPT-4仍然与人类存在较大差距。对于 GPT-4的抽象推理能力，研究人员发现，无论是纯文本版还是多模态版，GPT-4在抽象推理方面的准确率都远远不及人类。文章指出，要想从 GPT-4的水平发展出 AGI（人工通用智能），还有很长的路要走。

研究论文链接：https://arxiv.org/abs/2311.09247
更多作品：https://heehel.com/category/ai-works
AIGC专区：https://heehel.com/category/aigc
更多消息：https://heehel.com/category/ai-news

ConceptARC 是如何测试的？

ConceptARC 是一套基于人工推理与抽象概念的评测系统。它包含了1000多个手动设计的类比谜题任务，每个任务都含有一小段（通常2-4个步骤）网格变换的演示过程，以及一个待检测的“测试输入”网格。被测试对象需要根据演示中的线索，归纳出变换背后的基本规则，然后将规则应用到测试输入网格上，生成出经过相同变换后的结果网格。

如下图，通过观察演示的规则，挑战者需要生成一个新的网格。

GPT-4在概念推理任务表现不如人类，还需继续学习提高！

ARC（人工概念能力测试）项目的设计目的是强调从有限样本中总结出普遍规律或模式，并能够灵活应用于新的未见样本。这与语言或先前训练数据依赖的“近似匹配”不同，后者可能会在基于语言的推理任务中获得表面成果。

ConceptARC在此基础上进行改进。它收集并组织了480个任务，这些任务围绕若干核心空间和语义概念(如上下、内外、中心、相同不同等）进行了系统化设计。每个任务以不同方式实现某一概念，抽象程度不尽相同。

这种设计改进使概念表征变得更加抽象，从而对人类来说难度相对降低。同时也可以更好地评估GPT模型与人类在解决涉及这些关键概念的抽象推理问题方面的能力差异。这对评估自然语言处理模型在概念推理能力方面的深度提供了一个较好的测试平台。

测试结果，GPT-4比起人类还有很大差距

对于纯文本版本的GPT-4,研究人员给予它更充足的提示信息进行评估。这些提示包含任务说明和示例解答，如果GPT-4答错，会要求它提供二次和三次答案。

研究人员在不同的温度参数设置下测试GPT-4。温度参数控制生成文本的多样性和不确定性程度，温度值越高，表现越随机。对480个完整任务,GPT-4在各温度参数下的正确率都明显低于人类。

相比于纯文本版本，研究人员也测试了多模态版本的GPT-4。它可以利用视觉和语义信息，避免仅依靠语言推理的限制。测试结果显示，在ConceptARC类比推理任务中，多模态GPT-4的表现有了明显提升，但与人类水平的差距还很大，表明模型在概念级抽象推理能力还有很大提升空间，如下图所示。

GPT-4在概念推理任务表现不如人类，还需继续学习提高！

https://heehel.com/aigc/pika-1-0-2.html

https://heehel.com/aigc/pengxiang-aigc-application.html

AGI AI工具 chatGPT ConceptARC GPT-4 GPT测试人工智能多模态推理研究

0 条回复 A文章作者 M管理员

暂无讨论，说说你的看法吧

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{data.mission.credit}}积分

今日签到

连续签到

TOP1

平均招聘年薪44.37万！这个“金饭碗”职业，你不要错过了......
4月10日
TOP2

《反转》 - 可灵AI视频生成大模型制作的电影短片【DeeperVoice】
6月14日
TOP3

怎么用DALLE3打造一套属于自己的动画角色设计
23年11月22日
【平面设计案例#18：Stable Diffusion】关键词咒语分享：泳池充气气球字体大暑节气海报设计
7月4日
Stable Diffusion整合包v4.4发布！全新加速解压即用防爆显存三分钟入门AI绘画【秋葉aaaki】
23年12月19日
MidjourneyV6+RunwayML生成《指环王》同人AI作品。全民没门槛影视制作的时代已经到来！
23年12月28日
一份54页文档揭露了OpenAI计划在2027年前开发出人类水平的通用人工智能（AGI）的详细计划在疯传
3月4日
【Rick不想上班】干货分享：comfyui模型共享插件，实现多个comfyui之间的模型共用以及模型跨盘分离
5月10日
Midjourney做一整套UI图标落地实施案例UI启动页插画风格生成一套图标关键词总结midjourney位图转矢量图方法图标编辑C4D科技图标生成关键词【藤藤小花】
3月1日
QUEEN皇后乐队主唱——Freddie Mercury佛莱迪·摩克瑞激情演唱《Let It Go》~~
23年12月20日
结合多种工具的AI人工智能作品——《银河系另一边美丽的地方》
23年12月14日
AIGCRank：2024年6月全球AI网站流量排行榜
7月11日

❯

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页
联系客服
公众号

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部