北京时候 3 月 13 日上昼,2023 年奥斯卡授奖礼在洛杉矶举行,影片《一会儿全寰宇》一举斩获七项大奖,成为最大赢家。主演杨紫琼也凭借该片将奥斯卡最好女主角奖收入囊中,成为奥斯卡历史上首位华侨影后。杨紫琼奥斯卡封后,图源荟萃据了解,这部正在被热议的科幻电影背后的视觉遵循团队仅有 5 东谈主,为了尽快完成这些殊效镜头,他们采选了 Runway 公司的技巧来匡助创建某些场景,比如为图像去除布景的绿幕器用 (The Green Screen)。「只是几次点击就让我精真金不怕火几个小时,我不错用这些时候尝试三四种不同的遵循,让影片遵循更好。」导演兼编剧 Evan Halleck 受访时谈谈。手指进化成热狗寰宇,图源荟萃Runway:参与初代Stable Diffusion开发2018 年底lisa ai换脸,Cristóbal Valenzuela 救济其他成员创立 Runway。它是一家东谈主工智能视频裁剪软件提供商,奋勉于欺诈策画机图形学及机器学习的最新发扬,为假想师、艺术家和开发东谈主员镌汰践诺创作的门槛、股东创意践诺的发展。据 Forbes 报谈,该公司年收入快要 500 万好意思元,职工仅 40 东谈主傍边2023 年 2 月 6 日,Runway 官方推特发布 Gen-1 模子,不错通过应用文本教导或者参考图像所指定的自便作风,将现存视频诊疗为新视频。Runway Twitter 官宣 Gen-1Gen-1:structure + content 双管都下科研东谈主员残忍了一个结构 (structure) 和践诺 (content) 劝诱的 video diffusion model--Gen-1,不错依据预期输出的视觉或文本刻画,对视频进行裁剪。Gen-1 模子旨趣展示所谓 content,是指刻画视频的外在 (appearance) 和语义的特征,如主意物体的情态、作风以及场景的灯光。而 structure 则是指刻画其几何和动态的特征,如主意物体的时势、位置以实时候变化。Gen-1 模子的主意是在保留视频 structure 的同期,裁剪视频 content。在模子测验经由中,科研东谈主员用到了一个由未加字幕的视频及 text-image pair 组成的大范畴数据集,同期,用单目场景深度预计 (monocular depth estimates) 来默示 structure,用预测验神经荟萃预计的 embedding 来默示 content。该边幅在生成经由中提供了几种雄伟的限度花式:1. 参考图像合成模子,测验模子使得推理的视频 content(如呈现或作风)与用户提供的 image 或 prompt 相匹配。
Guided Video Synthesis 示例
在保留输入视频(中间)structure 的同期
基于文本教导或图像合成的视频(上及下)
2. 参考 diffusion 经由,对结构表征 (structure representation) 进行 information obscuring,这使得开发者不错自行设定 model adhere 关于给定 structure 的不异进程。3. 参考 classifier-free guidance,借助自界说 guidance 边幅,调整推理经由,从而限度生成 clip 的时候一致性。在该实验中,科研东谈主员:通过在预测验的图像模子中引入 temporal layer,并对图像和视频进行救济测验,将 latent diffusion model 膨胀到视频生成中。残忍了一个 structure 和 content-aware 模子,不错在示例图像或文本的指导下修改视频。视频裁剪全都是在推理阶段进行的,无需逐一视频进行测验或预搞定。对 temporal、content 和 structure 一致性的全都限度。实验标明,在图像和视频数据上的救济测验,好像在推理时间上限度一致性 (temporal consistency)。关于结构一致性 (structure consistency),在表征的不同细节水平上测验,使用户得以在推理经由中采选所需的拓荒。一项用户调研标明,该边幅比其他几种边幅更受迎接。通过对一小部分图像进行微调,不错进一步定制测验过的模子,以生成更准确的特定 subject 的视频。为了评估 Gen-1 的性能,科研东谈主员用 DAVIS 数据销亡的视频以过甚他各式素材进行了评估。为了自动创建裁剪 prompt,商榷东谈主员最初启动了一个 captioning 模子来获取原始视频践诺的刻画,然后使用 GPT3 生成裁剪 prompt。Gen-1 与其他模子生收遵循的用户闲隙度对比实验扫尾标明,在对所有边幅生收遵循的闲隙度调研中,75% 的用户更倾向 Gen-1 的生收遵循。 AIGC:争议中前行2022 年,生成式东谈主工智能成为自十多年前移动和云策画兴起以来最引东谈主瞩主意技巧,咱们正有幸见证其应用层的萌芽,好多大模子正速即从实验室中走出来,扑向真确宇宙的各个场景。
哥要射相干词,尽管有擢升遵循、精真金不怕火本钱等诸多刚正,咱们也需要看到,生成式东谈主工智能仍是靠近多种挑战,包括若何擢升模子的输出质地和种种性、若何擢升其生成速率,以及应用经由中的安全、隐讳和伦理宗教等问题。
有些东谈主对 AI 艺术创作残忍质疑,更有甚者以为这是一种 AI 对艺术的「入侵」,面对这种声息,Runway 救济独创东谈主兼 CEO Cristóbal Valenzuela 以为,AI 只是器用箱中一个用来给图像等践诺上色或修改的器用,与 Photoshop、LightRoom 未达一间。固然生成式东谈主工智能还存在一些争议,但它为非技巧东谈主员和创意东谈主员翻开了创作的大门,并将携带践诺创作界限走向新的可能。
参考联络:[1]https://hub.baai.ac.cn/view/23940[2]https://cloud.tencent.com/developer/article/2227337