好好看好好听~这项技术能通过识别图像信息生成环境声音

好好看好好听~

这个项目研究了利用扩散潜在对齐器进行开放域的视听生成。通过利用现有的强大模型并构建共享潜在空间,实现了跨视觉和音频的联合生成。该方法在多个生成任务上表现出色,为从学术界到工业界的技术转移提供了解决方案。

传送门:https://huggingface.co/papers/2402.17723

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索