斯坦福联手谷歌研发“搜索增强事实评估器”,确保聊天机器人回复真实可靠

斯坦福联手谷歌研发“搜索增强事实评估器”,确保聊天机器人回复真实可靠

尽管现今的AI聊天机器人功能强大,但常因提供与事实不符的答复而备受质疑。简言之,AI有时会在回答中“信口开河”,甚至“编造事实”。然而,解决AI大模型此类问题并非易事,它是一项复杂的技术挑战。但据外媒Marktechpost报道,谷歌DeepMind与斯坦福大学似乎找到了一个解决方案。

论文链接:https://arxiv.org/pdf/2403.18802.pdf

项目开源文件下载:链接:https://pan.quark.cn/s/ad79f8e20d01
提取码:48UF

斯坦福联手谷歌研发“搜索增强事实评估器”,确保聊天机器人回复真实可靠

研究人员开发了一种基于大语言模型的工具——搜索增强事实评估器(原名Search-Augmented Factuality Evaluator,简称SAFE),用于对聊天机器人生成的长回复进行事实核查。

该系统通过四个步骤对聊天机器人的回复进行细致的分析、处理和评估,以确保其准确性和真实性:首先,将回复分割为多个待核查内容;其次,搜索增强事实评估器对这些内容进行必要的修正;然后,与谷歌搜索结果进行对比验证;最后,系统还会检查每个事实与原始问题的相关性。

为了验证搜索增强事实评估器性能,研究人员创建了一个包含约16000个事实的数据集LongFact,并在Claude、Gemini、GPT、PaLM-2等13个大语言模型上进行了测试。结果显示,在对100个有争议的事实进行深入分析时,SAFE的判定在进一步审查下准确率高达76%。值得一提的是,该框架还具有显著的经济性优势,其成本仅为人工注释的1/20多。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索