谷歌演示了两个新的文本到视频的人工智能系统专注于质量和长度

2022-10-09 09:25:40 汪琼有

上周，Facebook的母公司Meta分享了一种新的AI模型，可以将文本提示变成简短的无声视频。但事实证明，谷歌一直在解决同样的问题，并且最近发布了两个新的AI文本到视频系统，其中一个专注于图像质量，另一个优先考虑创建更长的剪辑。

我们先来看看高质量的模型：ImagenVideo。顾名思义，该模型建立在Google早期的文本到图像系统Imagen中磨练出来的技术之上，但将一堆新组件捆绑到管道中，以将静态帧转换为流畅的运动。

与Meta的Make-A-Video模型一样，最终结果同时令人难以置信、不可思议和令人不安。最有说服力的样本是那些复制动画的视频，比如形成“Imagen”字样的绿芽或在太空中冲浪的木雕。那是因为我们不一定期望这些镜头遵循严格的时间和空间构成规则。它们可以稍微宽松一些——这适合模型的弱点。

最不令人信服的剪辑是那些复制真实人和动物的动作的剪辑，例如铲雪的人物或在沙发上跳跃的猫。在这里，当我们对身体和四肢应该如何运动有了如此清晰的认识时，镜头的变形和恶化就更加明显了。不过，无论如何，这些视频都非常令人印象深刻，每个剪辑都是使用下面每个标题中的文本提示生成的。

谷歌的研究人员指出，ImagenVideo模型以24x48分辨率输出16帧3fps的素材。然后，这些低分辨率内容通过各种AI超分辨率模型运行，这些模型将输出提升到128帧24fps素材，分辨率为1280x768。这比Meta的Make-A-Video模型质量更高，后者被提升到768x768。

正如我们在Meta系统的首次亮相时所讨论的，即将到来的文本转视频AI带来了各种挑战;从嵌入在这些系统中的种族和性别偏见(对从互联网上抓取的材料进行培训)到它们被滥用的可能性(即，制造未经同意的色情、宣传和错误信息)。

谷歌表示“还存在几个重要的安全和道德挑战”

谷歌的研究人员在他们的研究论文中简要地回避了这些问题。“视频生成模型可用于对社会产生积极影响，例如通过放大和增强人类的创造力，”他们写道。“然而，这些生成模型也可能被滥用，例如生成虚假、仇恨、露骨或有害的内容。”该团队指出，他们尝试使用过滤器来捕捉NSFW提示并输出视频，但没有对他们的成功发表评论，并得出结论——读起来像是无意的轻描淡写——“还存在几个重要的安全和道德挑战。”嗯，相当。

这并不奇怪。ImagenVideo是一个研究项目，谷歌只是通过不向公众发布它来减轻其对社会的潜在危害。(Meta的Make-A-VideoAI同样受到限制。)但是，与文本到图像系统一样，这些模型很快就会被第三方研究人员复制和模仿，然后作为开源模型传播。当这种情况发生时，毫无疑问，更广泛的网络将面临新的安全和道德挑战。

标签：

免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！