【科普向】什么是AI、AGI 和 RAG？请不要担心，这是你的备忘单

（请注意，本文只是对其中许多术语进行了初步概述，并不代表是唯一正解。其中许多术语通常非常科学，但希望能让您掌握基础知识。）

人工智能是科技领域的热门新事物——感觉每家公司都在谈论如何通过使用或开发人工智能来取得长足进步。但人工智能领域也充满了术语，以至于很难理解每项新发展的实际情况。

为了帮助您更好地了解正在发生的事情，我们整理了一些最常见的人工智能术语的列表。我们将尽力解释它们的含义以及它们的重要性。

AI论文与新生技术专题：
https://heehel.com/collection/topic-aipapers-jiaocheng

AIGC图文教程合集专题：
https://heehel.com/collection/topic-tuwem-jiaocheng

文章目录

人工智能到底是什么？

人工智能：“人工智能”一词通常缩写为 AI，从技术上讲是计算机科学的一门学科，致力于制造能够像人类一样思考的计算机系统。

但现在，我们听到的人工智能大多是一种技术，甚至是一个实体，而这到底意味着什么却很难确定。它也经常被用作营销流行语，这使得它的定义比应有的更加可变。

例如，谷歌经常谈论其多年来如何投资人工智能。例如，这指的是该公司有多少产品是通过人工智能改进的，以及该公司如何提供像 Gemini 这样看似智能的工具。许多人工智能工具都有底层人工智能模型，例如 OpenAI 的 GPT。然后，Meta 首席执行官马克·扎克伯格 (Mark Zuckerberg) 将人工智能用作名词来指代单个聊天机器人。

【科普向】什么是AI、AGI 和 RAG？请不要担心，这是你的备忘单

随着越来越多的公司试图将人工智能作为下一个重大事件来推销，他们使用该术语和其他相关术语的方式可能会变得更加混乱。您可能会在有关人工智能的文章或营销中遇到很多短语，因此为了帮助您更好地理解它们，我总结了目前正在广泛讨论的人工智能中的许多关键术语。然而，最终这一切都归结为让计算机变得更智能。

机器学习：机器学习系统根据数据进行训练（稍后我们将详细解释什么是训练），以便它们可以对新信息进行预测。这样，他们就可以“学习”。机器学习是人工智能领域，对许多人工智能技术至关重要。
通用人工智能 (AGI)：与人类一样聪明或更聪明的人工智能。（OpenAI 尤其对 AGI 进行了大量投资。）这可能是一项非常强大的技术，但对于很多人来说，这也可能是人工智能可能性中最可怕的前景——想想我们看过的所有关于超级智能机器的电影占领世界！如果这还不够，我们还正在研究“超级智能”，即比人类聪明得多的人工智能。
生成式人工智能：一种能够生成新文本、图像、代码等的人工智能技术。想一想您所看到的由ChatGPT或Google 的 Gemini生成的所有有趣的（如果偶尔有问题的）答案和图像。生成式人工智能工具由人工智能模型提供支持，这些模型通常经过大量数据的训练。
幻觉：不，我们不是在谈论奇怪的幻象。事情是这样的：因为生成式人工智能工具的好坏取决于它们所训练的数据，所以它们可以“产生幻觉”，或者自信地做出他们认为对问题的最佳回答。这些幻觉（或者，如果你想完全诚实，那就是废话）意味着系统可能会犯事实错误或给出胡言乱语的答案。关于人工智能幻觉是否可以被“修复”，甚至还存在一些争议。
偏见：幻觉并不是处理人工智能时出现的唯一问题——这一问题可能是可以预见的，因为人工智能毕竟是由人类编程的。因此，根据训练数据，人工智能工具可能会表现出偏差。例如，2018 年，麻省理工学院媒体实验室计算机科学家 Joy Buolamwini 和分布式人工智能研究所 (DAIR) 创始人兼执行董事 Timnit Gebru共同撰写了一篇论文，阐述了面部识别软件如何在尝试识别深色皮肤女性的性别时的错误率。

我不断听到很多关于模型的讨论。那些是什么？

AI 模型： AI 模型接受数据训练，以便能够自行执行任务或做出决策。
大型语言模型，或LLMs：一种可以处理和生成自然语言文本的人工智能模型。 Anthropic 的 Claude，据该公司称，是“一位乐于助人、诚实且无害的助手，具有对话式的语气”，就是一个例子。LLM 。
扩散模型：人工智能模型，可用于根据文本提示生成图像等。他们的训练方法是，首先向图像添加噪声（例如静态噪声），然后反转该过程，以便人工智能学会如何创建清晰的图像。还有适用于音频和视频的扩散模型。
基础模型：这些生成式人工智能模型经过大量数据的训练，因此可以成为各种应用程序的基础，而无需针对这些任务进行专门的训练。（这个术语是斯坦福大学研究人员在 2021 年创造的。）OpenAI 的 GPT、 Google 的 Gemini 、 Meta 的 Llama和Anthropic 的 Claude都是基础模型的例子。许多公司还将其人工智能模型作为多模式进行营销，这意味着它们可以处理多种类型的数据，例如文本、图像和视频。
前沿模型：除了基础模型之外，人工智能公司还在研究他们所谓的“前沿模型”，这基本上只是他们未发布的未来模型的营销术语。从理论上讲，这些模型可能比当今可用的人工智能模型强大得多，尽管也有人担心它们可能会带来重大风险。

【科普向】什么是AI、AGI 和 RAG？请不要担心，这是你的备忘单

但人工智能模型如何获取所有这些信息呢？

嗯，他们受过训练。训练是人工智能模型通过分析数据集以特定方式学习理解数据的过程，以便做出预测和识别模式。例如，大型语言模型是通过“阅读”大量文本来训练的。这意味着，当像 ChatGPT 这样的人工智能工具响应您的查询时，它们可以“理解”您所说的内容，并生成听起来像人类语言的答案并解决您的查询的内容。
训练通常需要大量的资源和计算能力，许多公司依靠强大的 GPU 来帮助进行这种训练。人工智能模型可以输入不同类型的数据，通常是大量数据，例如文本、图像、音乐和视频。从逻辑上讲，这就是所谓的训练数据。
简而言之，参数是人工智能模型在训练过程中学习的变量。我找到的关于这实际含义的最佳描述来自 Helen Toner ，她是乔治城安全与新兴技术中心战略和基础研究资助主任，也是OpenAI 前董事会成员：
参数是 AI 模型内的数字，用于确定如何将输入（例如，提示文本块）转换为输出（例如，提示后的下一个单词）。 “训练”人工智能模型的过程包括使用数学优化技术一遍又一遍地调整模型的参数值，直到模型非常擅长将输入转换为输出。
换句话说，人工智能模型的参数有助于确定他们将向你吐出的答案。公司有时会吹嘘模型有多少参数，以此来证明模型的复杂性。

【科普向】什么是AI、AGI 和 RAG？请不要担心，这是你的备忘单

我还可能遇到其他术语吗？

自然语言处理 (NLP)：机器通过机器学习理解人类语言的能力。 OpenAI 的 ChatGPT 是一个基本示例：它可以理解您的文本查询并生成响应文本。另一个可以进行 NLP 的强大工具是 OpenAI 的Whisper 语音识别技术，据报道该公司使用该技术从超过 100 万小时的 YouTube 视频中转录音频来帮助训练 GPT-4。
推论：当生成式 AI 应用程序实际生成某些内容时，例如 ChatGPT 响应有关如何通过共享食谱制作巧克力曲奇饼的请求。这是您的计算机在执行本地 AI 命令时执行的任务。
标记：标记是指文本块，例如单词、单词的一部分，甚至单个字符。例如，LLMs将把文本分解成标记，以便他们可以分析它们，确定标记之间的相互关系，并生成响应。模型一次可以处理的标记越多（称为“上下文窗口”的数量），结果就越复杂。
神经网络：神经网络是一种计算机体系结构，可帮助计算机使用节点处理数据，这可以与人类大脑的神经元进行比较。神经网络对于流行的生成人工智能系统至关重要，因为它们无需显式编程即可学会理解复杂的模式，例如，对医疗数据进行训练以进行诊断。
Transformer： Transformer 是一种神经网络架构，它使用“注意力”机制来处理序列的各个部分如何相互关联。亚马逊有一个很好的例子来说明这在实践中意味着什么：
考虑这个输入序列：“天空的颜色是什么？” Transformer 模型使用内部数学表示来识别单词颜色、天空和蓝色之间的相关性和关系。它利用这些知识生成输出：“天空是蓝色的。”
Transformer 不仅非常强大，而且比其他类型的神经网络训练得更快。自从谷歌前员工于 2017 年发表第一篇关于 Transformer 的论文以来，它们已经成为我们现在如此多地谈论生成式 AI 技术的一个重要原因。（ChatGPT 中的 T 代表变压器。）
RAG：这个缩写词代表“检索增强一代”。当 AI 模型生成某些内容时，RAG 让模型从其训练内容之外查找并添加上下文，这可以提高其最终生成内容的准确性。
假设你问人工智能聊天机器人一些问题，根据其训练，它实际上并不知道答案。如果没有 RAG，聊天机器人可能会产生错误的答案。然而，通过 RAG，它可以检查外部来源（例如互联网上的其他网站）并使用该数据来帮助给出答案。

【科普向】什么是AI、AGI 和 RAG？请不要担心，这是你的备忘单

硬件怎么样？人工智能系统运行在什么之上？

Nvidia 的 H100 芯片：用于 AI 训练的最流行的图形处理单元 (GPU) 之一。许多公司都在热捧H100，因为它被认为比其他服务器级 AI 芯片更能处理 AI 工作负载。然而，尽管对英伟达芯片的巨大需求使其跻身全球最有价值的公司之列，但许多其他科技公司正在开发自己的人工智能芯片，这可能会削弱英伟达对市场的控制。
神经处理单元 (NPU)：计算机、平板电脑和智能手机中的专用处理器，可以在您的设备上执行 AI 推理。（Apple 使用术语“神经引擎”。）NPU 可以比 CPU 或 GPU 更有效地在设备上执行许多人工智能驱动的任务（例如在视频通话期间添加背景模糊）。
TOPS：这个缩写词代表“每秒万亿次运算”，是技术供应商用来吹嘘他们的芯片在人工智能推理方面的能力的术语。