昨晚的Google I/O 发布会主要聚焦于AI模型和应用的更新与扩展,特别在生成模型领域取得了显著进步。以下是模型层面内容的简要总结:
DeepMind官网链接:https://deepmind.google/
Google Veo官方:https://deepmind.google/technologies/veo/
Google Gemini官方:https://deepmind.google/technologies/gemini/
Gemini模型家族:
Gmini 1.5 Pro:支持高达200万的上下文长度,并在多个关键用例中进行了质量改进,包括翻译、编码和推理。
Gemini Flash:针对高频或特定任务优化的轻量级模型,特别关注模型响应速度,其百万Token的价格较GPT-3.5更低。
模型家族构成:包括Ultra(最大模型)、Pro(最佳总体性能)、Flash(轻量级模型)和Nano(设备上模型)。
- 1.0 Ultra: 针对高度复杂任务的最大模型。
- 1.5 Pro: 适用于广泛任务的通用性能最佳模型。
- 1.5 Flash: 轻量级模型,优化速度和效率。
- 1.0 Nano: 设备上任务的最高效模型。
视频生成模型Veo:
- 旨在帮助用户(无论经验水平)创建和编辑视频,为教育和讲故事等场景提供新可能性。
- 初期功能将通过VideoFX实验工具向选定的创作者开放。
阿斯特拉计划(Project Astra):
- 基于Gemini模型,旨在探索AI助手的未来。
- 能够快速处理多模式信息,理解上下文,并以对话速度回答问题。
Gemini Gems:
- 类似于GPTs的自定义互动方式,允许用户自定义与Gemini的交互。
Gemini Live:
- 提供了使用声音进行双向深入对话的能力,支持实时视频理解的个人助理应用。
Gemma 2:
- 6月发布的模型,规模为27B,提供接近Llama-3-70B的性能,但模型尺寸更小。
PaliGemma:
- 谷歌首个视觉语言开放模型,基于PaLI-3的灵感。
Imagen 3:
- 图像生成模型,能理解自然语言的提示,生成高质量、逼真的图像,特别是在文本渲染方面表现卓越。
Music AI Sandbox:
- 旨在彻底改变音乐创作方式的AI工具套件,使用户能够全新创作乐器部分,轻松转换不同风格。
Trillium:
- 谷歌最新的TPU,相比上一代TPU v5e,每颗芯片的计算性能实现了高达4.7倍的显著提升。
- 这次发布展示了Google在AI领域的广泛布局和深厚实力,通过一系列模型和应用更新,进一步推动了AI技术的边界,为开发者、创作者和用户提供了更强大的工具和平台。
相关文章:Google DeepMind对标Open AI的Sora推出:Veo视频模型-喜好儿网 (heehel.com)
完整发布会:【中英双字】Google I/O 2024 Keynote 大会完整版|Gemini 1.5 Pro 重塑搜索引擎,升级到200万tokens!-喜好儿网 (heehel.com)