字数
1930 字
阅读时间
8 分钟
这些数据集涵盖了从大规模合成数据到真实世界高精度扫描的多个级别,适用于从深度学习模型训练到算法基准测试的各种三维计算机视觉任务。以下是每个数据集的级别和特点的中文概述:
大型合成数据集 (大规模训练和通用场景理解)
这类数据集的特点是规模庞大、场景多样,通常由程序化生成或通过游戏引擎渲染,为深度学习模型的训练提供了丰富的数据。
✅ Aria Synthetic Environments (ASE)
- 级别: 超大规模、程序化生成的室内场景数据集。
- 特点: 包含10万个独特的程序化生成的室内场景,模拟Aria眼镜的传感器特性,专为以自我为中心(egocentric)的3D场景重建、物体检测和追踪等任务设计。 数据集规模巨大,包含超过5800万张图像,总大小约23TB,旨在为机器学习模型的训练提供前所未有的规模。
- 级别: 大规模、多样化的多视角立体(MVS)数据集。
- 特点: 包含覆盖113个不同场景的1.7万个MVS训练样本,涵盖建筑、雕塑和小型物体等。 它是通过将真实世界场景的三维重建模型重新渲染成图像和深度图而创建的,旨在提高MVS网络的泛化能力。 后来还升级为BlendedMVG,场景和图像数量都大幅增加。
- 级别: 大规模、真实的、以场景为中心的视频数据集。
- 特点: 包含从65类兴趣点(POI)位置拍摄的10,510个4K分辨率视频,共计5130万帧图像。 该数据集旨在填补现有数据集中真实世界场景多样性的空白,特别适用于新视角合成(NVS)和通用三维表示学习的研究。
- 级别: 照片级真实感的合成多视角立体(MVS)数据集。
- 特点: 包含120个城市景色的序列,每个序列有100帧图像,通过视频游戏《侠盗猎车手V》创建。 它的优势在于提供了在真实世界数据集中通常缺失的完整深度信息,例如天空、反射表面和精细结构。
- 级别: 超高分辨率的合成双目立体数据集。
- 特点: 提供3840x2160分辨率的4K立体图像对,包含室内和室外静态场景,并带有像素级精确的深度图。 为了便于使用,也提供了一个四分之一分辨率的版本。
- 级别: 带有逐帧3D网格标注的合成视频数据集。
- 特点: 扩展自SAIL-VOS,专注于动态场景中的物体检测和3D网格重建。 该数据集旨在推动对视频中物体三维形态的理解,特别是处理遮挡和视角变化等问题。
真实世界和基准测试数据集 (算法评估和特定场景研究)
这类数据集通常通过高精度设备(如激光扫描仪)采集真实世界场景,提供高质量的真值,是评估和比较算法性能的黄金标准。
✅ ETH3D
- 级别: 高精度、多样化的真实世界多视角立体和SLAM基准。
- 特点: 包含使用高精度激光扫描仪和数码单反相机记录的各种室内外场景。 它提供高分辨率图像和同步的低分辨率视频,旨在弥补现有基准在场景多样性和分辨率方面的不足,是评估MVS和SLAM算法性能的重要基准。
✅ Mapillary Planet Scale Depth & Reconstructions (MPSD)
- 级别: 地球规模的、众包街景深度数据集。
- 特点: 规模比以往的深度数据集大一个数量级,包含来自世界各地的约75万张图像,覆盖了前所未有的地点、相机型号和场景类型。 该数据集通过运动恢复结构(SfM)和多视角立体技术生成稠密的度量深度,适用于训练和评估单目深度估计算法在真实、多样环境下的性能。
✅ MegaDepth (including Tanks & Temples)
- 级别: 大规模、非结构化的真实世界多视角立体数据集。
- 特点: 利用互联网上大量的照片集创建,通过运动恢复结构(SfM)和多视角立体(MVS)技术生成稀疏和半稠密的深度图。它包含了“Tanks and Temples”基准,这是一个用于评估高精度三维重建算法的流行基准。
- 级别: 高质量、精细标注的真实世界室内场景数据集。
- 特点: 作为ScanNet的升级版,提供了更高质量的几何重建、更精细的语义分割标注以及更丰富的相机姿态信息。它适用于室内场景理解、三维重建和语义分割等任务的深入研究。
特定任务和新兴方向数据集
这些数据集针对特定的计算机视觉问题或新兴的研究领域,提供专门的数据和评估标准。
✅ Spring
- 级别: 高分辨率、高细节的合成场景流、光流和立体匹配基准。
- 特点: 基于开源Blender电影《Spring》的场景渲染,提供照片级的高清(1920x1080)数据集和超高清(4x)的真值。 其规模远超之前的同类基准,旨在推动对精细结构估计的研究。 数据集还包含一个用于评估算法在20种真实图像损坏下鲁棒性的版本。
- 级别: 照片级真实感的动态室内场景数据集。
- 特点: 专注于动态环境下的立体匹配和场景理解。它提供了包含移动物体和变化的照明条件的逼真室内环境,并带有精确的深度、光流和物体姿态真值。
- 级别: 面向自动驾驶的程序化生成4D(3D+时间)数据集。
- 特点: 提供高度逼真且可控的驾驶场景,包含各种天气、光照和交通状况。它不仅提供3D标注,还包含时间维度上的动态信息,适用于自动驾驶感知系统的训练和验证。
- 级别: 具有挑战性的大基线立体匹配合成数据集。
- 特点: 专为宽基线立体匹配任务设计,图像对之间存在较大的视角差异,这对匹配算法提出了更高的挑战。数据在逼真的模拟环境中生成,提供精确的深度和相机姿态真值。