爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

爆火「视频版ControlNet」开源了！靠提示词精准换画风，全华人团队出品

news/2024/7/10 20:19:59 标签: 人工智能, 开源, 安全, ai

aidu_pl">

“视频版ControlNet”来了！

让蓝衣战神秒变迪士尼公举：

视频处理前后，除了画风以外，其他都不更改。

女孩说话的口型都保持一致。

正在插剑的姜文，也能“下一秒”变猩球崛起了。

这就是由全华人团队打造的最新视频处理算法CoDeF，发布才几天，迅速在网上爆火。

网友们看了直呼：

这一天天的，虚实分辨越来越难了！

只需要自己拍点东西，然后覆盖上去，就能变成各种各样的动画了。

有人说，只需给它一年时间，就能被用在电影制作上了。

这马上引来其他人的肯定：技术发展真的非常疯狂、非常快。

目前，团队已将这一方法在GitHub上aiYuan.html" title=开源>开源。

姿势不变，画风“皮套”随便换

之所以会被称为是“视频版ControlNet”，主要原因在于CoDeF能够对原视频做到精准控制。

（ControlNet实现了根据提示词精准控制图像元素改变，如人物动作、图像结构等）

根据给到的提示词，它仅改变视频的画风，而且是针对完整视频。

比如输入“Chinese ink painting”，风景纪录片能秒变国风水墨大作。

包括水流也能很好跟踪，整个流体动向都没有被改变。

甚至一大片穗子，在原视频里怎么摆动，改变画风后频率和幅度也如出一辙。

在画风改变上，CoDeF也做了很多细节处理，让效果更加逼真合理。

“由春入冬”后，原本有涟漪的河流静止了，天空中的云彩被换成了太阳，更加符合冬日景象。

霉霉变成魔法少女后，耳环被换成了发光宝石，手里的苹果也换成了魔法球。

这样一来，让电影角色一键变老也简单了许多。

皱纹可以“悄无声息”上脸，其他一切都没有变化。

所以，CoDeF是怎么实现的呢？

可跟踪水和烟雾，跨帧一致性更强

CoDeF是英文“the content deformation field”的缩写，即作者在此提出了一种叫做内容形变场的新方法，来用于视频风格迁移任务。

比起静态的图像风格迁移，这种任务的复杂点在于时间序列上的一致性和流畅度。

比如处理水、烟雾这种元素，两帧画面之间的一致性非常重要。

在此，作者“灵机一动”，提出用图片算法来直接解决视频任务。

他们只在一张图像上部署算法，再将图像-图像的转换，提升为视频-视频的转换，将关键点检测提升为关键点跟踪，而且不需要任何训练。

这样一来，相较于传统方法，能够实现更好的跨帧一致性，甚至跟踪非刚性物体。

具体而言，CoDeF将输入视频分解为2D内容规范场（canonical content field）和3D时间形变场（temporal deformation field）：

前者用于聚合整个视频中的静态内容；后者则负责记录图像沿时间轴的每个单独帧的转换过程。

利用MLP（多层感知器），每个场都用多分辨率2D或3D哈希表来表示。

在此，作者特意引入了正则化，来保证内容规范场能够继承原视频中的语义信息（比如物体的形状）。

如上图所示，这一系列设计使得CoDeF可以自动支持各种图像算法直接应用于视频处理——

也就是只需利用相应算法提取出来一张规范图像，然后通过时间形变场沿着时间轴传播结果即可。

比如，给CoDeF“套上”本用于图片处理的ControlNet，就可以完成视频风格的“翻译”（也就是我们开头和第一段看的那一堆效果）：

“套上”分割一切算法SAM，我们就能轻松做到视频的对象跟踪，完成动态的分割任务：

“套上”Real-ESRGAN，则给视频做超分也是信手拈来……

整个过程非常轻松，不需要对待操作视频进行任何调整或处理。

不仅能处理，还能保证效果，即良好的时间一致性和合成质量。

如下图所示，相比去年诞生的Layered neural atlas算法，CoDeF能够呈现非常忠于原视频的细节，既没有变形也无破坏。

而在根据文本提示修改视频风格的任务对比中，CoDeF全部表现突出，不仅最匹配所给要求，也有着更高的完成度。

跨帧一致性则如下图所示：

一位一作刚本科毕业

这项研究由香港科技大学、蚂蚁团队、浙江大学CAD&CG实验室共同带来。

共同一作有三位，分别是欧阳豪、Yujun Shen和Yuxi Xiao。

其中欧阳豪为港科大博士，师从陈启峰（本文通讯作者之一）；本科导师为贾佳亚。曾在MSRA、商汤、腾讯优图实验室实习过，现在正在谷歌实习。

另一位是Qiuyu Wang。Yujun Shen是通讯作者之一。

他是蚂蚁研究所的高级研究科学家，主管交互智能实验室，研究方向为计算机视觉和深度学习，尤其对生成模型和3D视觉效果感兴趣。

第三位一作为Yuxi Xiao才刚刚从武大本科毕业，今年9月开始在浙大CAD&CG实验室读博。

他以一作身份发表的论文Level-S2fM: Structure from Motion on Neural Level Set of Implicit Surfaces，被CVPR2023接收。

论文地址：
https://arxiv.org/abs/2308.07926

项目地址：
https://qiuyu96.github.io/CoDeF/

参考链接：
https://twitter.com/LinusEkenstam/status/1692492872392626284

http://www.niftyadmin.cn/n/4965021.html

相关文章

双碳目标下DNDC模型教程

双碳目标下DNDC模型教程

详情点击链接：双碳目标下DNDC模型建模方法及在土壤碳储量、温室气体排放、农田减排、土地变化、气候变化中的实践技术应用教程前沿碳循环的精确模拟是实现“双碳”行动的关键。DNDC（Denitrification-Decomposition，反硝化-分解模型&#…

阅读更多...

LeetCode面试经典150题（day 1）

LeetCode面试经典150题（day 1）

LeetCode是一个免费刷题的一个网站，想要通过笔试的小伙伴可以每天坚持刷两道算法题。接下来，每天我将更新LeetCode面试经典150题的其中两道算法题，一边巩固自己，一遍希望能帮助到有需要的小伙伴。 88.合并两个有序数组给你两个…

阅读更多...

VUE调用高德地图之电子围栏

VUE调用高德地图之电子围栏

最近项目上电子围栏功能，就是地图上限定的区域内实现限行功能，用我们身边的事物来举例，共享单车的限行、限停区域就是电子围栏。由此可见，电子围栏最基础的做法就是在地图上实现多边形覆盖物。效果图大概如下： 照例…

阅读更多...

SpringBoot 调用外部接口

SpringBoot 调用外部接口

SpringBoot 调用外部接口一、第一种方式(HttpClient等) 使用插件方式，比如自带的HttpClient，或者OkHttp，甚至是原生的HttpURLConnection 等等，这里以HttpClient为例。 1、封装工具类简单封装的get请求 /*** 发送get请求:带请求…

阅读更多...

JavaScript Es6_3笔记

JavaScript Es6_3笔记

JavaScript 进阶文章目录 JavaScript 进阶编程思想面向过程面向对象构造函数原型对象constructor 属性对象原型原型继承原型链了解构造函数原型对象的语法特征，掌握 JavaScript 中面向对象编程的实现方式，基于面向对象编程思想实现 DOM 操作的封装。 …

阅读更多...

龙蜥社区标准化SIG举行线下社区标准研讨会，助力开源社区规范发展

龙蜥社区标准化SIG举行线下社区标准研讨会，助力开源社区规范发展

8月11日下午，龙蜥社区标准化SIG组织召开线下MeetUp会议，来自阿里云、浪潮信息、Intel、CSDN、联通软件研究院、红旗软件、中兴通讯|中兴新支点、中科曙光、中科方德、统信软件、龙芯、上海兆芯、麒麟软件、万里红、普华基础软件、飞腾信息等公司的30多位…

阅读更多...

【图像分割】理论篇（2）经典图像分割网络基于vgg16的Unet

【图像分割】理论篇（2）经典图像分割网络基于vgg16的Unet

UNet 是一种用于图像分割任务的深度学习架构，最早由 Olaf Ronneberger、Philipp Fischer 和 Thomas Brox 在2015年的论文 "U-Net: Convolutional Networks for Biomedical Image Segmentation" 中提出。UNet 在医学图像分割等领域取得了显著的成功&#x…

阅读更多...

Python爬取斗罗大陆全集

Python爬取斗罗大陆全集

打开网址http://www.luoxu.cc/dmplay/C888H-1-265.html F12打开Fetch/XHR，看到m3u8，ts，一眼顶真，打开index.m3u8 由第一个包含第二个index.m3u8的地址，ctrlf在源代码中一查index，果然有，不过/…

阅读更多...

最新文章