喜好儿AI周报Weekly（第2期）musicfyAI随便哼唱就能编曲 | PixelDance | Draw-A-ui | Stable Video Diffusion| ChatGPT | RunwayTV

探索人工智能，洞察智慧价值，一口气读完本周AIGC新鲜事

本期导读：

字节跳动发布AI视频模型PixelDance
draw-a-ui草图生成HTML页面
Stability AI推出SVD视频基础AI模型
ChatGPT免费开放语音功能
Runway推出全天候AI视频频道
Musicfy AI随口声音模仿节奏就能编曲
GOAT导航系统结合AI机器人测试良好

PixelDance是一款字节跳动开发引领视频AI人工智能生成领域的创新工具，不仅通过纯文本描述生成视频内容，还结合了用户提供的首帧和尾帧图像，使生成的视频更加生动和连贯。这一先进系统在处理复杂场景和动作的视频生成方面表现出色，为用户提供了更高程度的创造性控制。

PixelDance项目展示地址链接：https://makepixelsdance.github.io/

详情文章：

https://heehel.com/aigc/bytedance-builds-pixeldance-model.html

传统的界面设计通常需要使用专业的设计工具来创建原型，然后手动编写 HTML 和 CSS 代码。“draw-a-UI”则可以将手绘的草图快速转化为可交互的网页原型，Draw-a-UI利用 AI 技术，使得从草图到静态 HTML 页面的转换自动化，大大提高了原型设计的速度和效率。

Github 开源地址：https://github.com/SawyerHood/draw-a-ui

详情文章：

https://heehel.com/aigc/draw-a-ui-gpt-4-vision-api-drawing-ui-design.html

Stability AI公司宣布推出了他们的最新成果——Stable Video Diffusion，这是该公司首个基于图像模型的生成式AI视频基础模型。该模型作为Stable Diffusion研究预览的一部分，其代码、权重和研究论文已经正式发布。该模型借鉴了公司先前成功的Stable Diffusion图像生成系统的基础，为用户提供了更加出色的视频生成体验。与此同时，Stability AI宣布，作为公司发展的一部分，他们将很快推出一款具有文本到视频界面的全新网络体验。

StabilityAI官方网址链接：https://stability.ai/
官方网址注册候补链接：https://stability.ai/contact
官方论文网址链接：https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
如何开始使用模型教程及下载网址链接：https://github.com/Stability-AI/generative-models

详情文章：

https://heehel.com/aigc/svd-video-memory-requirements-dropped-to-20g.html

ChatGPT将语音功能开放给所有免费用户，成为在人员大震动之后的首个重要更新。用户只需下载最新版本的客户端，即可直接体验这一引人瞩目的语音功能。
为用户提供更加多样化、自然的交互体验。现在，不仅是付费用户，所有人都可以在对话中使用语音功能，极大地提升了平台的可访问性和用户友好性。要使用这一新功能，用户只需在手机上下载最新版本的 ChatGPT 应用程序。一旦安装完成，点击耳机图标即可开始语音对话。这一简便的流程使用户能够轻松地享受到语音交流的乐趣，无需额外的复杂设置。

详情文章：

https://heehel.com/aigc/chatgpt-tests-new-features.html

Runway推出了一项令人振奋的新服务——一个全新的全天候直播的AI视频频道。这个频道中的所有内容都是由Runway强大的Gen2模型生成，一旦你踏入这个令人着迷的直播频道，你将被不断滚动的AI生成视频所包围，每一个画面都如同大片般引人入胜。这个直播频道不仅为观众提供了不间断的创意盛宴，还提供了选择其他视频节目的机会，确保每位观众都能找到自己喜爱的内容。

体验链接：https://www.runway.tv/

详情文章：

https://heehel.com/aigc/runway-launches-24-7-ai-video-channel.html

即将推出的音轨分离器功能将使用户能够从任何歌曲中分离出特定的音轨，如鼓、人声、贝斯等。此外，AI文字转音乐功能允许用户将文字和情感转化为美妙的歌曲。

MusicfyAI官方网站使用地址：https://musicfy.lol/

详情文章：

https://heehel.com/aigc/musicfy-ai.html

GOAT是通用导航系统，无需预先计算地图或物体位置，适用于家庭环境执行拾取任务、社交导航、避开人群、紧急辅助探索。全局策略接收内存表示和以语言、图像或类别指定的目标，输出长期目标。通过感知系统处理RGB-D相机输入，将物体实例检测定位到语义地图，同时维护对象实例内存，使agent能导航到之前观察到的物体。全局策略接收内存表示和以语言、图像或类别指定的目标，输出长期目标。局部策略规划实现长期目标轨迹，输出执行动作。在9个未知住宅中进行10轨迹评估，每轨包含5-10目标，总计90小时实验。GOAT成功率83%，路径效率（SPL）0.64。GOAT提升了AI机器人实时数据处理、大规模实证评估、多模态目标匹配、环境感知和对象识别，为未来AI服务设备做出重大贡献。

项目地址：
https://theophilegervet.github.io/projects/goat/
GOAT通用导航系统下载地址：
https://github.com/facebookresearch/home-robot

详情文章：

https://heehel.com/ai-news/goat.html