行业洞察 | 文本生成视频，Meta、Google哪家更胜一筹？

发布时间 :2020-07-07 阅读量 : 693

图片来源 #

当我们沉浸于抖音、快手。这个世界正在悄然刷新着我们的认知，吃着零食葛优躺。此前。普通用户可以输入简单的文本内容，经过人工智能创作出艺术插画，9游会j9通过 DALL-E、MidJourney 和 CrAIyon 等 AI 工具。近期。Meta和Google在此基础上更进一步，相继推出文本、语音生成视频的黑科技。

Google

除了Meta，Google也在假期之末献上两名视频生成竞争选——Imagen Video和Phenaki。根据Google CEO Sundar Pichai介绍，每秒24帧的视频分段，能生成1280*768，Imagen Video比Meta的Make-A-Video拥有更高的分辨率。样例网站：#

而Phenaki则可以根据200个单词左右的文字描述。堪比一个小小的导演，生成2分钟以上的视频，讲述一个完整的小故事。样例网站：#

背后到底依赖什么技术？

Make-A-Video - Meta

Make-A-Video的模型架构如下所示，并从无监督视频中学习现实世界录制视频时的镜头移动，主要动机是了解世界的样子，以及描述与其配对的文本图像数据，该技术是在原来Text-to-Image的基础上改进而来。
首先，作者解耦了完整的时间 U-Net 和注意力张量，并在空间和时间上对它们进行近似逼近。其次、其中包含一个视频解码器、插值模型和两个超分辨率模型，可以实现包括 Text-to-Video的各种文本生成应用，作者设计了一个时空流水线来生成高分辨率和帧率视频。

来自源论文：#

Make-A-Video 的高级架构图中显示，解码器 Dt 生成 16 个 64 × 64 分辨率的帧，最后生成高时空分辨率的视频 y^，并提高分辨率到 SRt l 为 256 × 256，给定由先验 P 翻译成图像嵌入的输入文本 x 和所需的帧速率 f ps ，然后9游会j9通过 ↑F 将其插值到更高的帧速率，SRh 为 768 × 768。

Imagen Video - Google

Imagen Video是基于最近大火的扩散模型，直接继承图像生成SOTA模型Imagen。除了分辨率高以外，还展示出三种特别能力。
首先它能理解并生成不同艺术风格的作品、物体的3D结构在旋转展示中不会变形。Imagen Video是一系列模型的集合。语言模型部分是Google自家的T5-XXL、训练好后冻结文本编码器部分。其中、语言模型只负责编码文本特征，把文本到图像转换的工作交给了后面的视频扩散模型。基础模型在生成图像的基础上。首先生成一个48*24每秒3帧的视频，以自回归方式不断预测下一帧。其从文本提示输入开始到生成视频的流程图如下图所示：

来自源论文：#paper.pdf

Phenaki - Google

在Phenaki之前。AI模型可以一个具体提示生成一个超短视频，但是无法生成2分钟连贯的视频。Phenaki实现了脑部故事情节，生成2分钟以上视频。
研究人员引入了一个新的因果模型来学习表示视频：将视频视作图像的一个时间序列。该模型基于Transformer。可以将视频分解成离散的小表示，而分解视频则是按照时间的因果顺序来进行的。也就是9游会j9通过空间Transformer将单个提示进行编码，随后再用因果Transformer将多个编码好的提示串联起来。其流程图如下所示：

来自源论文：#

文本生成视频所带来的冲击

随着文本生成视频技术的快速发展。各大短视频平台的视频或许不再是真人表演秀，而是合成视频的秀场，这将给依靠短视频平台的视频剪辑和录制的人员带来经济冲击，未来。

AI正在革新着各行业、在带来挑战的同时，也带来了更多进步。Stability AI新任首席信息官Daniel Jeffries表示，AI最终会带来更多的工作岗位。任何时候都是挑战与机遇并存，把握时代脉搏就能创造更好的未来。

产品推介｜LLM多领域超自然SFT多轮对话文本数据集

晴数智慧深耕对话式AI领域多年、覆盖近20个语种及方言，涉及休闲娱乐、衣食住行、教育医疗等近20个领域，构建了累计千万轮LLM多领域超自然SFT多轮对话文本数据集，语料话题分布广泛。

勇立潮头！高品质SFT语音数据实现Zero-Shot语音复刻大模型

文本到语音合成（Text to Speech、TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。为了实现高效合成既自然又高质量的人类语音，有不少机构及企业都进行了相关项目的研究，包括微软亚洲研究院机器学习组和微软 Azure 语音团队去年推出的NaturalSpeech（#。

巴别塔再现？高质量端到端数据9游会j9助力Meta推出AI模型SeamlessM4T

追求卓越与无限的精神一直流淌在人类的基因里。圣经中有故事：在古代，以彰显人类的力量和创造力，被称为巴别塔，人们说着同一种语言，决定建造一座高耸入云，塔顶能触及天堂的塔。然而上帝看到人类的意图，并认为这个塔的建造是人们的傲慢和自大的表现。上帝让人类的语言变得不同，使他们无法相互理解。这导致了混乱和分裂，无法继续合作建造塔。语言不通让人类的沟通变得低效和困难。近日，该模型可翻译和转录近百种语言，Meta推出AI模型SeamlessM4T，似乎将破除因语言不同而导致的沟通障碍。可谓是人类构建“巴别塔”的又一次尝试。

9游会j9助力数据要素市场标准化，晴数智慧发布大模型数据集企业标准

数据确权授权的标准制定、首先是对数据进行分级分类。结合在高质量数据上多年积累、晴数智慧首发了大模型数据集企业标准。晴数智慧将大模型数据集生产分为L1到L3三个标准、数据精度越高，级别越高。晴数智慧希望9游会j9通过这套企业标准划分不同的数据处理层级，规范并提升数据质量，并确保数据的可靠性、有效性和知识产权的清晰性。

新闻

行业洞察 | 文本生成视频，Meta、Google哪家更胜一筹？

Meta

Google

背后到底依赖什么技术？

Make-A-Video - Meta

Imagen Video - Google

Phenaki - Google

文本生成视频所带来的冲击

即刻与建立联系？

新闻

Meta

Google

背后到底依赖什么技术？

Make-A-Video - Meta

Imagen Video - Google

Phenaki - Google

文本生成视频所带来的冲击

即刻与 建立联系？

即刻与建立联系？