打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!
“2024年,单目深度估计发生了翻天覆地的变化,尤其DepthAnything V1和V2模型的出现,同时兼容精度与效率!然而它们主要是针对为静态图像设计的,在视频中会出现闪烁和运动模糊等问题。这种限制限制了它们在机器人、增强现实和高级视频编辑等场景中的广泛应用。最近的工作主要集中在前馈模型上,主要分为两种方法。第一种方法涉及设计一个即插即用模块,从而增强单目深度模型预测的时间一致性。第二种方法将预训练的视频扩散模型重新调整为视频到深度模型。为了解决上面的问题,作者提出Video Depth Anything,它在不牺牲效率的情况下,在超长视频(超过几分钟)中实现高质量、一致的深度估计。该模型可以应用于任意长度的视频中,而不会其影响质量、一致性或泛化能力。作者提供不同规模的模型来支持一系列场景,最小的模型能够按照30 FPS的速率实时运行。”
项目主页-https://videodepthanything.github.io/
代码链接-https://github.com/DepthAnything/Video-Depth-Anything
Demo链接-https://huggingface.co/spaces/depth-anything/Video-Depth-Anything
论文链接-https://arxiv.org/pdf/2501.12375
01-VDA背景简介
近期,单目深度估计取得了重大进展,例如,Depth Anything V2在生成各种场景中具有丰富细节的深度预测方面表现出很强的泛化能力,同时具有较高的计算效率。然而,这些模型有一个主要的局限性:它们主要是针对为静态图像设计的,在视频中会出现闪烁和运动模糊等问题。这种限制限制了它们在机器人、增强现实和高级视频编辑等场景中的广泛应用,这些领域需要时间上一致的深度。
02-VDA算法简介
此外,作者还开发了一种新的基于关键帧的长视频推理策略。大量的实验结果表明,该模型可以应用于任意长度的视频中,而不会其影响质量、一致性或泛化能力。多个视频基准的综合评估结果表明:该方法在零样本视频深度估计方面成为新的SOTA。作者提供不同规模的模型来支持一系列场景,最小的模型能够按照30 FPS的速率实时运行。
上图展示了通过MoGe运行视频的第一帧,可以获得相机的内参以及对齐比例和偏移参数,MoGe是从单眼开放域图像中恢复3D几何的强大模型。
右图展示了作者提出的时空头的实现细节,它在DPT头中插入了几个时间层,同时保留了DPT头的原始结构。
上图展示了不同推理策略的在相同的输入视频上的定性比较结果。作者将重叠对齐(OA)与其提出的重叠插值和关键帧参考(OI+KR)在7320帧的自捕获视频上进行了比较与分析。通过直观观察,我们可以发现:OI+KR的效果明显更好一些。
上图展示了多个SOTA的单目视频深度估计算法的推理延迟比较结果。所有的模型的分辨率为518×518,均在单个A100 GPU上测量每帧的平均运行时间。通过观察与分析,我们可以发现:VDA-S模型按照FP32精度进行推理也只需要9.1ms,比DAv2-L快了6.6倍左右。
06-VDA算法性能评估
06.01-主观效果性能评估
06.02-客观效果性能评估
上面的表格展示了该方法与多个SOTA的视频深度估计方法在多个不同的视频评估基准的上面的比较结果。通过观察与分析,我们可以发现:VDL-A在多项评估指标上面获得最佳的得分,而VDA-S的效果次之,大幅优于DAv2-L。
# 步骤-利用git克隆代码
git clone https://github.com/DepthAnything/Video-Depth-Anything
# 步骤2-进入该路径
cd Video-Depth-Anything
# 步骤3-创建并进入虚拟环境
vda python3.8
conda activate vda
# 步骤4-安装三方依赖
pip install -r requirements.txt
07.02-运行样例Demo
# 步骤1-下载模型权重
bash get_weights.sh
# 步骤2-将其存放在checkpoints目录
# 步骤3-运行样例
python3 run.py --input_video ./assets/example_videos/davis_rollercoaster.mp4 --output_dir ./outputs --encoder vitl
08-VDA算法效果展示
图8.5-VDA算法视频深度估计效果展示5
关注我,AI热点早知道,AI算法早精通,AI产品早上线!
禁止私自转载,需要转载请先征求我的同意!
欢迎你的加入,让我们一起交流、讨论与成长!