大型语言模型在幻觉表现排行,GPT-4准确率97.0%,幻觉率仅3.0%稳居第一

vectara最新的排行榜对比了各大语言模型在总结短文档时产生幻觉(hallucination)的性能表现。GPT-4在准确率方面表现出色,达到97.0%,幻觉率为仅有的3.0%,回答率达到100.0%。与之相反,Google Palm系列中,Palm Chat 2的表现垫底,准确率为72.8%,幻觉率高达27.2%,回答率为88.8%。

这份排行榜由@vectara的幻觉评估模型计算得出,该模型主要评估了大型语言模型(LLM)在总结文档时引入幻觉的频率。排行榜的数据将会定期更新,以反映模型和LLM的最新进展。数据内容包括不同模型的准确率、幻觉率、回答率以及平均总结长度(以词数表示)。例如,GPT-4的准确率为97.0%,幻觉率为3.0%,回答率为100.0%,平均总结长度为81.1个词。其他模型,如GPT-3.5、Llama 2 70B、Llama 2 7B等,也有类似的数据。

Vectara团队为确立这一排行榜,训练了一个模型,用于检测LLM输出中的幻觉,采用了来自总结模型事实一致性研究的各种开源数据集。随后,通过向各个LLM提供了1000个短文档,并要求它们根据文档中呈现的事实进行总结,但不引入幻觉。在这1000个文档中,只有831个文档被每个模型都进行了总结,其余的文档由于内容限制而至少被一个模型拒绝。使用这831个文档,他们计算了每个模型的总体准确率(无幻觉)和幻觉率(100 -准确率)。Vectara的评估模型已在Hugging Face上开源,可供商业使用。

大型语言模型在幻觉表现排行,GPT-4准确率97.0%,幻觉率仅3.0%稳居第一

Hugging Face链接:https://huggingface.co/vectara/hallucination_evaluation_model
GitHub链接:https://github.com/vectara/hallucination-leaderboard

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索