受电影《十次幂》的启发：研究人员开发了文本提示的无限缩放扩充图像生成器

+AI动态网站公告
23年12月6日
🍔喜好值+
编辑

HeeHel喜好儿官方小编

这是一种图像无限缩放技术，其质量极高，能够根据文本描述生成一系列在不同尺度上连贯一致的图像。用户可以通过输入文字描述所需场景，系统会生成从非常远的景象（如整个宇宙）到非常近的细节（如一个细胞）的图像序列。这项目的灵感来自于1977年原版《Powers of Ten 十次幂》电影，该电影首次展示了这种连续缩放效果。研究团队的目标是利用生成模型自动创建类似的动画，使用户能够从自己的照片中生成这种无限缩放的视觉体验。

项目及演示网址链接：https://powers-of-10.github.io
论文网址链接：https://arxiv.org/abs/2312.02149

这项技术具有几个关键特点：

连续缩放视频：通过一系列文本提示描述不同尺度的场景，该技术能够创建无缝缩放的视频。例如，用户可以通过文字描述从森林的广阔景观缩放到树枝上昆虫的特写镜头。
多尺度生成：该技术可以从大范围（如整个星系）到小范围（如单个细胞）的不同尺度生成图像，展现了强大的多尺度处理能力。
文本驱动：图像生成是基于文本提示的，用户可以通过文字描述来引导图像的生成过程，提供了灵活性和用户参与度。
内容一致性：在不同的放大级别之间，生成的图像在视觉和内容上保持一致性。这是传统图像放大技术难以实现的重要特点，确保了生成结果的质量和连贯性。
实际图像的缩放：该技术能够引导一个缩放级别，使生成的图像与输入图像匹配，从而实现对真实图像的有效缩放。
多样性：通过改变生成过程的随机输入，即种子，即使对于相同的输入提示，也可以获得不同的生成结果，提供了更多的多样性和探索空间。

该算法的核心特点包括：

并行扩散采样过程：该算法能够同时处理多个尺度的图像，使其能够在每个尺度上生成图像。这意味着算法具备处理多尺度信息的能力，为生成图像提供更全面的视角。
尺度图像的一致性：采样过程通过迭代频带合并过程进行协调。这个迭代过程确保在从一个尺度到另一个尺度的过渡中，图像内容保持连贯和一致。这种方法有助于避免尺度间的不自然过渡，提高生成图像的整体质量。
优化所有尺度的内容：与传统的增加图像分辨率来生成更高细节图像的方法不同，该算法通过优化所有尺度的内容来生成图像。这种独特的方式使得算法不仅在每个尺度上生成合理的图像，同时还保持了不同尺度之间内容的一致性。这种综合考虑不同尺度的信息有助于生成更具细节和整体一致性的图像。

https://heehel.com/aigc/endless-zoom-lcms-image-infinite-expansion-technology.html

这种图像生成技术采用了一系列关键步骤和先进技术：

文本提示驱动的图像生成：用户提供了一系列文本提示，描述他们期望在不同缩放级别上看到的场景。这为生成过程提供了方向和内容。
预训练的扩散模型：采用了预训练的扩散模型，用于同时处理不同尺度上的多个图像。通过逐步去噪，该模型能够从随机噪声中逐渐构建出清晰的图像。
多尺度联合采样：在每个缩放级别上，噪声图像和相应的文本提示被同时输入到同一个预训练的扩散模型中。这有助于估计每个尺度上的清晰图像，尽管在重叠区域可能存在不一致性。
多分辨率融合：为了解决不同尺度图像在重叠区域的不一致性，采用了多分辨率融合方法。这种方法将重叠区域融合成一个一致的缩放堆栈，确保生成的图像在不同尺度上是连贯的。
连续缩放视频的生成：通过上述步骤，该技术能够生成连续缩放的视频。这些视频在视觉上呈现出平滑过渡，且内容在不同尺度之间保持连贯。这为用户提供了一种流畅的观感，使他们能够从一个尺度过渡到另一个尺度而不感到突兀。

这些步骤和技术的结合使得该图像生成技术能够根据用户的文本提示生成高质量、连贯且具有多尺度特性的图像和视频。

https://heehel.com/aigc/midjourney-runway-produce-3d-animated-short-films.html