大型语言模型在幻觉表现排行，GPT-4准确率97.0%，幻觉率仅3.0%稳居第一

+AI动态
23年11月14日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

vectara最新的排行榜对比了各大语言模型在总结短文档时产生幻觉（hallucination）的性能表现。GPT-4在准确率方面表现出色，达到97.0%，幻觉率为仅有的3.0%，回答率达到100.0%。与之相反，Google Palm系列中，Palm Chat 2的表现垫底，准确率为72.8%，幻觉率高达27.2%，回答率为88.8%。

这份排行榜由@vectara的幻觉评估模型计算得出，该模型主要评估了大型语言模型（LLM）在总结文档时引入幻觉的频率。排行榜的数据将会定期更新，以反映模型和LLM的最新进展。数据内容包括不同模型的准确率、幻觉率、回答率以及平均总结长度（以词数表示）。例如，GPT-4的准确率为97.0%，幻觉率为3.0%，回答率为100.0%，平均总结长度为81.1个词。其他模型，如GPT-3.5、Llama 2 70B、Llama 2 7B等，也有类似的数据。

Vectara团队为确立这一排行榜，训练了一个模型，用于检测LLM输出中的幻觉，采用了来自总结模型事实一致性研究的各种开源数据集。随后，通过向各个LLM提供了1000个短文档，并要求它们根据文档中呈现的事实进行总结，但不引入幻觉。在这1000个文档中，只有831个文档被每个模型都进行了总结，其余的文档由于内容限制而至少被一个模型拒绝。使用这831个文档，他们计算了每个模型的总体准确率（无幻觉）和幻觉率（100 -准确率）。Vectara的评估模型已在Hugging Face上开源，可供商业使用。

大型语言模型在幻觉表现排行，GPT-4准确率97.0%，幻觉率仅3.0%稳居第一

Hugging Face链接：https://huggingface.co/vectara/hallucination_evaluation_model
GitHub链接：https://github.com/vectara/hallucination-leaderboard

Google Palm GPT-4 LLM Palm Chat 2Vectara 准确率回答率开源数据集性能表现总结文档短文档评估模型语言模型

0 条回复 A文章作者 M管理员

暂无讨论，说说你的看法吧

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{data.mission.credit}}积分

今日签到

连续签到

TOP1

【学点真格的视频技巧】电影打光系列：只要按照这八步来，画面光线就能比现在好千倍？
3月31日
TOP2

第一波！2024年1月精选6款实用AI人工智能设计工具合集
1月12日
TOP3

AI提示词（第41辑）Runway文生视频逼真大气AI作品
1月15日
AI生成视频商业应用案例，漫威《秘密入侵》新电视剧ai动画版预告片，使用Dreambooth，After Effects、ebsynth等工具
23年11月17日
新手小白初学者保姆级教程：如何在Stable Diffusion WebUI中使用SDXL-Lightning模型【月下Hugo】
3月26日
Midjourney+Elevenlabs+HeyGen 10分钟的时间内创建一个独一无二，能说会动的ai动画头像
23年11月17日
Rabbit R1 居然能帮人修好恒温器？还能告诉你电线的正确接法
2月19日
QUEEN皇后乐队主唱——Freddie Mercury佛莱迪·摩克瑞激情演唱《Let It Go》~~
23年12月20日
【AI教程】用Stable Diffusion WebUI+Topaz Video AI+EBSynth把自拍视频生成AI视频动画
23年11月8日
【AI作品】网友分享如何使用RunwayML 制作大片感无人机视角镜头
23年11月10日
MultiBooth：从文本生成图像中的多概念定制
5月1日
腾讯在GDC 2024展示GiiNEX AI游戏引擎现已投入《元梦之星》中开发使用，展示强大AIGC能力
3月22日

❯

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页
联系客服
公众号

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部