//再不认真就输了!
//致力于发现AIGC动态与教程。

大型语言模型在幻觉表现排行,GPT-4准确率97.0%,幻觉率仅3.0%稳居第一

vectara最新的排行榜对比了各大语言模型在总结短文档时产生幻觉(hallucination)的性能表现。GPT-4在准确率方面表现出色,达到97.0%,幻觉率为仅有的3.0%,回答率达到100.0%。与之相反,Google Palm系列中,Palm Chat 2的表现垫底,准确率为72.8%,幻觉率高达27.2%,回答率为88.8%。

这份排行榜由@vectara的幻觉评估模型计算得出,该模型主要评估了大型语言模型(LLM)在总结文档时引入幻觉的频率。排行榜的数据将会定期更新,以反映模型和LLM的最新进展。数据内容包括不同模型的准确率、幻觉率、回答率以及平均总结长度(以词数表示)。例如,GPT-4的准确率为97.0%,幻觉率为3.0%,回答率为100.0%,平均总结长度为81.1个词。其他模型,如GPT-3.5、Llama 2 70B、Llama 2 7B等,也有类似的数据。

Vectara团队为确立这一排行榜,训练了一个模型,用于检测LLM输出中的幻觉,采用了来自总结模型事实一致性研究的各种开源数据集。随后,通过向各个LLM提供了1000个短文档,并要求它们根据文档中呈现的事实进行总结,但不引入幻觉。在这1000个文档中,只有831个文档被每个模型都进行了总结,其余的文档由于内容限制而至少被一个模型拒绝。使用这831个文档,他们计算了每个模型的总体准确率(无幻觉)和幻觉率(100 -准确率)。Vectara的评估模型已在Hugging Face上开源,可供商业使用。

Hugging Face链接:https://huggingface.co/vectara/hallucination_evaluation_model
GitHub链接:https://github.com/vectara/hallucination-leaderboard

版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《大型语言模型在幻觉表现排行,GPT-4准确率97.0%,幻觉率仅3.0%稳居第一》
文章链接:https://heehel.com/ai-news/ai-autonews/large-language-model-ranking-in-hallucination-performance.html
本站资源仅供个人学习交流,未经许可不得用于商业用途,自行承担法律责任。
如有疑问,请联系微信:heehelcom

评论 抢沙发

喜好儿——再不认真就输了!

致力于发现ai人工智能应用的新世界, 长期更新目前热门AI教程与动态!期待在这个工业变革时代中,希望你我都能发出一点光。

登录

找回密码

注册