全部标签

新生技术

【AI论文与新生技术】LivePortrait：快手研发具有拼接和重定向控制的高效肖像动画技术

我们摒弃了主流的基于扩散的方法，探索并扩展了基于隐式关键点的框架的潜力，该框架有效地平衡了计算效率和可控性。在此基础上，我们开发了一个名为LivePortrait的视频驱动人像动画框架，重点是在实际使用中更好地泛化、可控性和效率。为了提高生成质量和泛化能力，我们将训练数据放大到约6900万帧的高质量帧，采用混合图视频训练策略，升级网络架构，设计更好的运动变换和优化目标。此外，我们发现紧凑的隐式关…
+AI动态
- 238
- 0
HeeHel20小时前
【AI论文与新生技术】InternLM-XComposer-2.5：支持长上下文输入和输出的多功能大视觉语言模型

我们介绍了 InternLM-XComposer-2.5（IXC-2.5），这是一种多功能的大视觉语言模型，支持长上下文输入和输出。IXC-2.5在各种文本图像理解和合成应用中表现出色，仅需 7B LLM 后端即可实现 GPT-4V 级别的能力。使用 24K 交错图像-文本上下文进行训练，它可以通过 RoPE 外推无缝扩展到 96K 长上下文。这种长上下文功能使 IXC-2.5能够在需要大量输入和…
+AI动态
- 368
- 0
HeeHel7月4日
【AI论文与新生技术】Meta 发布 Meta 3D Gen 文本生成3D模型

我们推出了 Meta 3D Gen （3DGen），这是一种用于文本到 3D 资产生成的最先进的快速管道。3DGen 可在一分钟内提供具有高提示保真度和高质量 3D 形状和纹理的 3D 资产创建。它支持基于物理的渲染（PBR），这是在实际应用程序中重新照明 3D 资产所必需的。此外，3DGen 还支持使用用户提供的其他文本输入对先前生成（或艺术家创建）的 3D 形状进行生成式重纹理处理。3DG…
+AI动态
- 449
- 0
HeeHel7月3日
【AI论文与新生技术】DiffIR2VR-Zero：使用基于扩散的图像恢复模型进行零拍摄视频恢复

本文介绍了一种叫DiffIR2VR-Zero的使用预训练图像恢复扩散模型的零样本视频恢复方法。传统的视频恢复方法通常需要针对不同的设置进行重新训练，并且在各种退化类型和数据集中的泛化有限。我们的方法对关键帧和局部帧使用分层标记合并策略，并结合混合光流和基于特征的最近邻匹配（潜在合并）的混合对应机制。我们表明，我们的方法不仅在零镜头视频恢复方面取得了最佳性能，而且在跨不同数据集和极端退化（8倍超分…
+AI动态
- 667
- 0
HeeHel7月2日
【AI论文与新生技术】OMG-LLaVA：桥接图像级、对象级、像素级推理和理解图片

我们提出了OMG-LLaVA，这是一个新颖而优雅的框架，将强大的像素级视觉理解与推理能力相结合。它可以接受各种视觉和文本提示，以实现灵活的用户交互。具体来说，我们使用通用分割方法作为视觉编码器，将图像信息、感知先验和视觉提示集成到提供给 LLM.负责LLM理解用户的文本指令，并根据视觉信息提供文本响应和像素级分割结果。 OMG-LLaVA在单个模型中实现了图像级、对象级和像素级的推理和理解，在多个…
AI+图片生成
- 562
- 0
HeeHel7月1日
【AI论文与新生技术】YouDream：生成解剖学上可控的一致文本转 3D 动物

由文本到图像扩散模型引导的 3D 生成能够创建具有视觉吸引力的资产。然而，以前的方法探索基于图像或文本的生成。创造力的界限受到可以通过文字或可获取的图像表达的内容的限制。我们推出 YouDream，一种生成高质量解剖学可控动物的方法。 YouDream 使用由 3D 姿势先验的 2D 视图控制的文本到图像扩散模型进行引导。我们的方法生成 3D 动物，这是使用以前的文本到 3D 生成方法无法创建的…
AI+3D
- 503
- 0
HeeHel6月28日
【AI论文与新生技术】ClotheDreamer：使用 3D 高斯函数生成文本引导的3D服装资产

从文本合成高保真 3D 服装对于数字化身创建来说是理想的，但也具有挑战性。最近通过分数蒸馏采样 (SDS) 进行的基于扩散的方法已经实现了新的可能性，但要么与人体错综复杂地耦合，要么难以重复使用。我们推出了 ClotheDreamer，这是一种基于 3D 高斯的方法，用于根据文本提示生成可穿戴、可立即投入生产的 3D 服装资产。我们提出了一种新颖的表示解缠结高斯分布（DCGS）来实现单独的优化。…
AI+3D
- 761
- 0
HeeHel6月26日
【AI论文与新生技术】Video-Infinity：分布式长视频生成，5分钟生成2300帧的视频

扩散模型最近在视频生成方面取得了显着的成果。尽管表现令人鼓舞，但生成的视频通常仅限于少量帧，导致剪辑仅持续几秒钟。制作较长视频的主要挑战包括大量的内存需求以及单个 GPU 所需的延长处理时间。一个简单的解决方案是将工作负载分散到多个 GPU 上，但这会导致两个问题：(1) 确保所有 GPU 有效通信以共享时序和上下文信息，以及 (2) 修改现有的视频扩散模型，这些模型通常是对短序列进行训练，无需…
AIGC
- 1k
- 0
HeeHel6月25日
【AI论文与新生技术】EvTexture：事件驱动的视频超分辨率纹理增强

基于事件的视觉因其独特的特性（例如高时间分辨率和高动态范围）而引起了越来越多的关注。它最近已被用于视频超分辨率（VSR），以增强流量估计和时间对齐。我们在本文中提出了第一种利用事件信号进行纹理增强的 VSR 方法，而不是用于运动学习。我们的方法称为 EvTexture，利用事件的高频细节来更好地恢复 VSR 中的纹理区域。在我们的 EvTexture 中，提出了一个新的纹理增强分支。我们进一步引…
AI+视频生成
- 828
- 0
HeeHel6月25日
【AI论文与新生技术】StyleFeatureEditor：用于细节丰富的 StyleGAN 反演和高质量图像编辑

通过 StyleGAN 反演来操纵真实图像属性的任务已经得到了广泛的研究。这个过程涉及从训练有素的 StyleGAN 生成器中搜索潜在变量，该生成器可以合成真实图像，修改这些潜在变量，然后合成具有所需编辑的图像。必须在重建质量和编辑能力之间取得平衡。早期的研究利用低维 W 空间进行潜在搜索，这有助于有效的编辑，但难以重建复杂的细节。最近的研究转向了高维特征空间 F，它成功地反转了输入图像，但在编辑…
AI+图片生成
- 934
- 0
HeeHel6月23日
【AI论文与新生技术】ExVideo：通过参数高效的后期调整扩展视频扩散模型

最近，视频合成的进步引起了人们的广泛关注。 AnimateDiff 和 Stable Video Diffusion 等视频合成模型已经证明了扩散模型在创建动态视觉内容方面的实际适用性。 SORA的出现进一步凸显了视频生成技术的潜力。尽管如此，视频长度的扩展受到计算资源的限制。大多数现有的视频合成模型只能生成短视频片段。在本文中，我们提出了一种新颖的视频合成模型后调整方法，称为 ExVideo。这…
AI+视频生成
- 942
- 0
HeeHel6月22日
【AI论文与新生技术】VoCo-LLaMA：利用大型语言模型实现视觉压缩

视觉语言模型（VLM）在各种多模态任务中取得了显着的成功，但它们经常受到有限的上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉标记数量来缓解这个问题。以前的方法使用外部模块压缩视觉令牌并强制 LLMs 理解压缩的令牌，从而导致视觉信息丢失。然而，视觉标记的LLMs理解范式在压缩学习过程中并未得到充分利用。我们提出了 VoCo-LLaMA，这是第一种使用 LLMs…
+AI动态
- 1k
- 0
HeeHel6月19日
【AI论文与新生技术】L4GM：大型4D高斯重建模型，可生成高质量的动画 3D 资产

3D资产是指在三维空间中创建的数字化资源，这些资源通常包括3D模型、纹理、动画等，被广泛应用于游戏、影视、建筑、教育等多个产业。这是第一个 4D 大型重建模型，它可以通过单视图视频输入生成动画对象，只需一秒钟的一次前馈传递。我们成功的关键是一个新颖的多视图视频数据集，其中包含来自 Objaverse 的精选、渲染的动画对象。该数据集描绘了 44K 个不同的对象，并在 48 个视点渲染了 110…
+AI动态
- 719
- 0
HeeHel6月18日
【AI论文与新生技术】Glyph-ByT5-v2：准确的多语言视觉文本渲染的强大美学基准

最近，Glyph-ByT5在平面设计图像中实现了高精度的视觉文本渲染性能。然而，它仍然只专注于英语，在视觉吸引力方面表现相对较差。在这项工作中，我们通过提出 Glyph-ByT5-v2 和 Glyph-SDXL-v2 来解决这两个基本限制，它们不仅支持 10 种不同语言的准确视觉文本渲染，而且还实现了更好的美学质量。为了实现这一目标，我们做出了以下贡献：(i) 创建高质量的多语言字…
+AI动态
- 893
- 0
HeeHel6月17日
【AI论文与新生技术】Samba：用于高效无限上下文语言建模的简单混合状态空间模型

对具有无限上下文长度的序列进行有效建模一直是一个长期存在的问题。过去的工作要么面临二次计算复杂性，要么长度泛化的外推能力有限。在这项工作中，我们提出了 Samba，这是一种简单的混合架构，它逐层将 Mamba（一种选择性状态空间模型 (SSM)）与滑动窗口注意 (SWA) 相结合。 Samba 有选择地将给定序列压缩为循环隐藏状态，同时仍然保持通过注意力机制精确回忆记忆的能力。我们使用 3.…
+AI动态
- 624
- 0
HeeHel6月17日
【AI论文与新生技术】DiMR新型图像生成模型：通过多分辨率扩散模型减轻图像生成中的失真

本文通过集成新颖的多分辨率网络和时间相关层归一化，对扩散模型进行了创新增强。扩散模型因其在高保真图像生成方面的有效性而受到重视。虽然传统方法依赖于卷积 U-Net 架构，但最近基于 Transformer 的设计已经展示了卓越的性能和可扩展性。然而，由于与令牌长度有关的自注意力操作的二次性质，对输入数据进行令牌化（通过“补丁化”）的 Transformer 架构面临着视觉保真度和计算复杂性之间的权…
+AI动态
- 806
- 0
HeeHel6月15日
【AI论文与新生技术】Depth Anything V2：快速估计物体的距离和空间位置

这项工作呈现了 Depth Anything V2。在不追求花哨技术的情况下，我们的目标是揭示重要的发现，为构建强大的单目深度估计模型铺平道路。值得注意的是，与 V1 相比，该版本通过三个关键实践产生了更精细、更稳健的深度预测：1）用合成图像替换所有标记的真实图像，2）扩大教师模型的容量，3）通过以下方式教授学生模型：大规模伪标记真实图像的桥梁。与基于稳定扩散构建的最新模型相比，我们的模型明显更高…
+AI动态
- 1.1k
- 0
HeeHel6月14日
【AI论文与新生技术】3D-GRAND：百万规模的 3D-LLMs 数据集，具有更好的基础和更少的幻觉

喜好儿网小斥候语言和 3D 感知的集成对于开发理解物理世界并与之交互的实体代理和机器人至关重要。虽然大型语言模型 (LLMs) 已表现出令人印象深刻的语言理解和生成能力，但它们对 3D 环境 (3D-LLMs) 的适应仍处于早期阶段。主要挑战是缺乏在语言和 3D 场景之间提供密集基础的大规模数据集。在本文中，我们介绍了 3D-GRAND，这是一个开创性的大型数据集，包含 40,087 个家庭场景…
AI+3D
- 779
- 1
HeeHel6月13日
【AI论文与新生技术】TiTok新型图像处理技术：将图片转换成更紧凑的数字Tokens表示形式

喜好儿网小斥候消息，生成模型的最新进展凸显了图像标记化在高分辨率图像的有效合成中的关键作用。与直接处理像素相比，标记化将图像转换为潜在表示，减少了计算需求，并提高了生成过程的有效性和效率。现有方法（例如 VQGAN）通常利用具有固定下采样因子的 2D 潜在网格。相关文章：【是花子呀_】3分钟搞清楚大模型的Token是什么，新手萌新小白都能听懂的讲解视频 - 喜好儿网 (heehel.com) 然…
+AI动态
- 1.1k
- 0
HeeHel6月12日
【AI论文与新生技术】自回归模型击败扩散：用于可扩展图像生成的 Llama

我们介绍了 LlamaGen，这是一个新的图像生成模型系列，它将大型语言模型的原始“下一个标记预测”范式应用于视觉生成领域。对于视觉信号上没有归纳偏差的普通自回归模型（例如 Llama）是否可以在适当缩放的情况下实现最先进的图像生成性能，这是一个肯定的答案。我们重新检查图像标记器的设计空间、图像生成模型的可扩展性属性及其训练数据质量。这一探索的成果包括：图像标记器，在 ImageNet 基准…
+AI动态
- 987
- 0
HeeHel6月11日
【AI论文与新生技术】ShareGPT4Video：通过更好的字幕提高视频理解和生成

我们推出 ShareGPT4Video 系列，旨在通过密集且精确的字幕促进大型视频语言模型 (LVLM) 的视频理解以及文本到视频模型 (T2VM) 的视频生成。该系列包括： 1）ShareGPT4Video，通过精心设计的数据过滤和注释策略开发的40K GPT4V注释了各种长度和来源的视频的密集字幕。 2）ShareCaptioner-Video，高效、强大的任意视频字幕模型，可标注480万部…
+AI动态
- 904
- 0
HeeHel6月9日
【AI论文与新生技术】Follow-Your-Emoji：精细可控且富有表现力的自由式人像动画技术

我们提出了 Follow-Your-Emoji，这是一种基于扩散的肖像动画框架，它使用目标地标序列对参考肖像进行动画处理。肖像动画的主要挑战是保留参考肖像的身份并将目标表情转移到该肖像，同时保持时间一致性和保真度。为了应对这些挑战，Follow-Your-Emoji 为强大的稳定扩散模型配备了两项精心设计的技术。论文链接：https://arxiv.org/abs/2406.01900 项目介绍…
+AI动态
- 707
- 0
HeeHel6月8日
【AI论文与新生技术】SPO步骤感知偏好优化：使偏好与每一步的去噪性能保持一致

最近，直接偏好优化 (DPO) 已将其成功范围从对齐大型语言模型 (LLMs) 扩展到将文本到图像扩散模型与人类偏好对齐。与大多数现有 DPO 方法假设所有扩散步骤与最终生成的图像共享一致的偏好顺序不同，我们认为这种假设忽略了特定于步骤的去噪性能，并且偏好标签应根据每个步骤的贡献进行定制。为了解决这个限制，我们提出了步进感知偏好优化（SPO），这是一种新颖的训练后方法，它使用步进感知偏好模型和步…
+AI动态
- 683
- 0
HeeHel6月7日
【AI论文与新生技术】BitsFusion：大幅度减少扩散模型的文件大小,提高生成质量

近年来，基于扩散的图像生成模型通过展示合成高质量内容的能力而取得了巨大成功。然而，这些模型包含大量参数，导致模型尺寸非常大。保存和传输它们是各种应用程序的主要瓶颈，特别是那些在资源有限的设备上运行的应用程序。在这项工作中，我们开发了一种新颖的权重量化方法，将 UNet 从 Stable Diffusion v1.5 量化到 1.99 位，实现了尺寸缩小 7.9 倍的模型，同时表现出比原始模型更好…
+AI动态
- 425
- 0
HeeHel6月7日

❯

今日签到

有新私信私信列表

搜索

客服

扫码打开当前页
扫码加入交流群
公众号客服

返回顶部

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部