Generative AI Handbook：AI学习手册，通过系统化的学习帮助理解应用AI技术

喜好儿小斥候提醒，需要的朋友们先收藏以后慢慢看！手册分为九个主要部分，每个部分包含若干章节，覆盖了 AI 的不同方面。

包含了从基础知识到最新技术的全面内容，通过系统化的学习路径，帮助读者理解和应用AI技术。

无论你是想要学习如何使用现有的AI工具，还是希望深入研究AI的原理，这本手册都能提供有价值的指导。

AIGC专区：
https://heehel.com/category/aigc

学习手册传送门：https://genai-handbook.github.io

更多消息：
https://heehel.com/category/ai-news

以下是作者视角的简介：

本文档旨在作为学习现代人工智能系统背后的关键概念的手册。考虑到人工智能最近的发展速度，确实没有一个好的教科书式的资源来快速了解 LLMs 或其他生成模型的最新和最伟大的创新，但互联网上有大量关于这些主题的优秀解释资源（博客文章、视频等）。我的目标是将这些资源中的“最好的”组织成教科书式的演示文稿，它可以作为满足个人人工智能相关学习目标的先决条件的路线图。我希望这将是一份“活文件”，随着新的创新和范式不可避免地出现而进行更新，并且理想情况下也是一份可以从社区投入和贡献中受益的文件。本指南针对的是那些具有某种技术背景、出于好奇或潜在职业而有兴趣深入研究人工智能的人。我假设您有一些编码和高中数学水平的经验，但否则将提供填写任何其他先决条件的指导。如果您认为有什么需要补充的，请告诉我！

截至 2024 年 6 月，自 OpenAI 发布 ChatGPT 以来已经过去了大约 18 个月，世界开始更多地谈论人工智能。此后发生了很多事情：Meta 和 Google 等科技巨头发布了自己的大型语言模型，Mistral 和 Anthropic 等较新的组织也被证明是有力的竞争者，无数初创公司开始在他们的 API 基础上构建，每个人都在争夺强大的 Nvidia GPU、论文以极快的速度出现在 ArXiv 上、由 LLMs 驱动的物理机器人和人工程序员的演示在流传，聊天机器人似乎正在寻找进入在线生活的各个方面的方法（在不同程度上）的成功）。与LLM竞赛同时进行的，通过扩散模型生成图像也取得了快速发展； DALL-E 和 Midjourney 正在展示越来越令人印象深刻的结果，这些结果常常在社交媒体上难倒人们，随着 Sora、Runway 和 Pika 的进步，高质量视频生成似乎也指日可待。关于“AGI”何时到来、“AGI”到底意味着什么、开放模型与封闭模型的优点、价值一致性、超级智能、存在风险、假新闻和经济的未来，一直存在争论。许多人担心自动化会导致工作岗位流失，或者对自动化可能推动的进步感到兴奋。世界在不断发展：芯片变得更快，数据中心变得更大，模型变得更智能，上下文变得更长，能力通过工具和愿景得到增强，但目前尚不完全清楚这一切的发展方向。如果您在 2024 年关注“人工智能新闻”，您通常会感觉几乎每天都会发生某种重大的新突破。有很多事情需要跟上，尤其是当你刚刚收听时。

Generative AI Handbook：AI学习手册，通过系统化的学习帮助理解应用AI技术

随着进展如此之快，那些寻求“参与行动”的人自然倾向于选择最新最好的可用工具（截至撰写本文时，可能是 GPT-4o、Gemini 1.5 Pro 或 Claude 3 Opus），取决于你问的是谁）并尝试在它们之上构建一个网站或应用程序。当然还有很大的空间，但这些工具会很快发生变化，对底层基础知识有深入的了解将使您更容易地充分利用您的工具，并在新工具推出时快速使用它们，并评估成本、性能、速度、模块化和灵活性等方面的权衡。此外，创新不仅仅发生在应用层，Hugging Face、Scale AI 和 Together AI 等公司通过专注于开放权重模型的推理、训练和工具（等等）而站稳了脚跟。无论您是想参与开源开发、从事基础研究，还是在因成本或隐私问题而无法使用外部 API 的环境中利用 LLMs，了解这些事情在hood，以便根据需要调试或修改它们。从更广泛的职业角度来看，当前的许多“AI/ML 工程师”角色除了高级框架之外还将重视具体知识，就像“数据科学家”角色通常寻求对理论和基础知识的牢固掌握一样对当前的 ML 框架过于熟练。深入研究是一条更艰难的道路，但我认为这是一条值得的道路。但随着过去几年创新的步伐，您应该从哪里开始呢？哪些主题是必不可少的，您应该按什么顺序学习它们，以及您可以浏览或跳过哪些主题？

教科书非常适合提供一系列领域的高级路线图，其中“关键思想”集更加稳定，但据我所知，确实没有公开的 ChatGPT 后“人工智能指南”和教科书-风格的全面性或组织性。目前还不清楚有人编写一本涵盖当前人工智能现状的传统教科书是否有意义；许多关键想法（例如 QLoRA、DPO、vLLM）都还不到一年的时间，到印刷时该领域可能已经发生了巨大变化。经常引用的《深度学习》一书（Goodfellow 等人）已经有近十年的历史了，并且只粗略地提到了通过 RNN 进行语言建模。较新的《深入深度学习》一书涵盖了 Transformer 架构和 BERT 模型的微调，但 RLHF 和 RAG 等主题（按照我们将要涉及的一些更前沿主题的标准来看，这些主题已经“过时”））缺失。即将出版的《大型语言模型实践》一书可能很不错，但它尚未正式出版（现在可以通过付费专区在线获取），并且可能不会免费。如果您是斯坦福大学的学生，CS224n 课程似乎很棒，但如果没有登录，您只能使用幻灯片和主要由密集的学术论文组成的阅读列表。微软的“面向初学者的生成式人工智能”指南相当可靠，可以帮助您熟悉流行的框架，但它更侧重于应用程序而不是理解基础知识。

Generative AI Handbook：AI学习手册，通过系统化的学习帮助理解应用AI技术

据我所知，与我的想法最接近的资源是 Github 上 Maxime Labonne 的 LLM 课程。它具有许多交互式代码笔记本，以及用于学习基本概念的资源链接，其中一些与我将在此处包含的内容重叠。我建议您在阅读本手册时将其作为主要配套指南，特别是如果您对应用程序感兴趣的话；本文档不包括笔记本，但我涵盖的主题范围更广泛，包括一些不太“标准”的研究线程以及多模式模型。

尽管如此，还有大量其他高质量且易于访问的内容涵盖了人工智能的最新进展——只是不是全部都井井有条。快速了解新创新的最佳资源通常是一次性博客文章或 YouTube 视频（以及 Twitter/X 线程、Discord 服务器以及 Reddit 和 LessWrong 上的讨论）。我编写本文档的目标是提供一个导航所有这些内容的路线图，将其组织成教科书式的演示文稿，而无需重新设计各个解释器。在整个过程中，我将尽可能包含多种风格的内容（例如视频、博客和论文），以及我对目标相关知识优先顺序的看法以及我在第一次遇到这些主题时发现有用的“心理模型”注释。

我不是以“生成式人工智能专家”的身份创建此文档，而是以最近在短时间内熟悉了许多此类主题的经验的人的身份创建了这份文档。虽然我从 2016 年左右就开始从事人工智能相关工作（如果我们将运行视觉模型评估的实习项目算作“开始”），但我只是在 18 个月后才开始密切关注 LLM 的发展之前，随着 ChatGPT 的发布。大约 12 个月前，我第一次开始使用开放重量 LLMs。因此，在过去的一年里，我花了很多时间筛选博客文章、论文和视频，以寻找其中的精华；希望本文档是该路径的更直接版本。它也是我与朋友进行的许多对话的精华，我们试图找到并分享处理复杂主题的有用直觉，以加快彼此的学习速度。编译这篇文章对于填补我自己的理解空白也是一个很大的推动作用。直到几周前我才知道 FlashAttention 是如何工作的，而且我仍然认为我还没有真正理解状态空间模型。但我比刚开始的时候知道了很多。

Generative AI Handbook：AI学习手册，通过系统化的学习帮助理解应用AI技术