阿里巴巴展示了其图像到视频模型AtomoVideo

阿里巴巴的研究团队推出了一种用于图像到视频生成的高保真框架,名为AtomoVideo。该团队分享了 AtomoVideo 的论文和图像到视频示例,以及来自 Runway 的 Gen-2 和 Pika 1.0 的样本。

请记住,AtomoVideo 是第一代产品,提供的样本看起来确实很有希望,尽管它们看起来还远非现实。令人惊讶的是,将其与 Runway 的第二代型号(Gen-1 于 2023 年 2 月发布)进行比较,可以发现这款刚刚亮相的型号在缓解帧之间的一些奇怪过渡方面做得更好。

例如,在太空中宇航员的比较样本中,当 Gen-2 四处走动时,反光玻璃覆盖物或遮阳板刚刚从 Gen-2 的样本中消失了。虽然AtomoVideo使运动相对简单,但它并没有产生这样的结果。在另一个比较样本中,Gen-2 描绘了人们在雪地上飞行时消失,而 Pika 1.0 则在斜坡上展示了一些难以用物理学定义的奇怪运动。AtomoVideo再次保持相对简单,但设法避免了此类错误。尽管如此,这些比较样本很可能是一些精选样本,而不是随机生成的样本。

阿里巴巴AtomoVideo的主要特点

AtomoVideo 的特点包括能够保持对输入图像的高保真度、确保平滑的运动过渡以及支持对后续视频帧的预测。此外,该框架还兼容各种现有的 T2I(文本到图像)模型,并提供高语义可控性。它允许用户根据自己的特定喜好自定义视频内容。

AtomoVideo 通过利用预训练的 T2I 模型作为基础,并通过一维时空卷积和注意力模块对其进行增强,从而实现了卓越的性能。这些附加层使框架能够捕获复杂的细节和风格,同时确保整个生成的视频的时间一致性。通过交叉注意力机制整合先进的图像语义,AtomoVideo进一步增强了其制作具有精确语义控制的视频的能力。

尽管AtomoVideo展示了令人印象深刻的功能,但研究团队尚未为用户提供一个在线平台,让他们亲身体验该技术。尽管如此,阿里巴巴的AtomoVideo框架代表了图像到视频合成领域的重要补充。

来源:IT时代网

IT时代网(关注微信公众号ITtime2000,定时推送,互动有福利惊喜)所有原创文章版权所有,未经授权,转载必究。
创客100创投基金成立于2015年,直通硅谷,专注于TMT领域早期项目投资。LP均来自政府、互联网IT、传媒知名企业和个人。创客100创投基金对IT、通信、互联网、IP等有着自己独特眼光和丰富的资源。决策快、投资快是创客100基金最显著的特点。

相关文章
阿里巴巴展示了其图像到视频模型AtomoVideo

精彩评论