斯坦福联手谷歌研发“搜索增强事实评估器”，确保聊天机器人回复真实可靠

尽管现今的AI聊天机器人功能强大，但常因提供与事实不符的答复而备受质疑。简言之，AI有时会在回答中“信口开河”，甚至“编造事实”。然而，解决AI大模型此类问题并非易事，它是一项复杂的技术挑战。但据外媒Marktechpost报道，谷歌DeepMind与斯坦福大学似乎找到了一个解决方案。

论文链接：https://arxiv.org/pdf/2403.18802.pdf

项目开源文件下载：链接：https://pan.quark.cn/s/ad79f8e20d01
提取码：48UF

斯坦福联手谷歌研发“搜索增强事实评估器”，确保聊天机器人回复真实可靠

研究人员开发了一种基于大语言模型的工具——搜索增强事实评估器（原名Search-Augmented Factuality Evaluator，简称SAFE），用于对聊天机器人生成的长回复进行事实核查。

该系统通过四个步骤对聊天机器人的回复进行细致的分析、处理和评估，以确保其准确性和真实性：首先，将回复分割为多个待核查内容；其次，搜索增强事实评估器对这些内容进行必要的修正；然后，与谷歌搜索结果进行对比验证；最后，系统还会检查每个事实与原始问题的相关性。

为了验证搜索增强事实评估器性能，研究人员创建了一个包含约16000个事实的数据集LongFact，并在Claude、Gemini、GPT、PaLM-2等13个大语言模型上进行了测试。结果显示，在对100个有争议的事实进行深入分析时，SAFE的判定在进一步审查下准确率高达76%。值得一提的是，该框架还具有显著的经济性优势，其成本仅为人工注释的1/20多。