该数据是由纽约大学创建,提供了各种室内场景数据,欢迎访问帕伊提提下载使用.
NYU-Depth V2数据集由Microsoft Kinect的RGB和Depth摄像机记录的各种室内场景的视频序列组成。
它具有以下特点:
1、1449个密集标记的RGB和深度图像对齐对
2、来自3个城市的464个新场景
3、407,024个新的未标记帧
4、每个对象都标有一个类和一个实例号(cup1,cup2,cup3等)
数据集包含几个组成部分:
标记的:视频数据的子集,并带有密集的多类标记。此数据也已进行了预处理,以填写缺少的深度标签。
Raw:Kinect提供的原始rgb,深度和加速度计数据。
工具箱:用于处理数据和标签的有用功能。
Labeled Dataset(标记数据集)
标记的数据集是原始数据集的子集。它由成对的RGB和深度帧组成,这些帧已同步并为每个图像标注了密集标签。除了投影的深度图,我们还包括一组预处理的深度图,其缺失值已使用Levin等人的着色方案进行了填充。与Raw数据集不同,带有标签的数据集作为Matlab
.mat文件提供,具有以下变量:
accelData –拍摄每帧时指示的Nx4加速度计值矩阵。列包含设备的滚动,偏航,俯仰和倾斜角。
1、depths –深度图的HxWxN矩阵,其中H和W分别是高度和宽度,N是图像数。深度元素的值以米为单位。
2、images – RGB图像的HxWx3xN矩阵,其中H和W分别是高度和宽度,N是图像数。
3、实例–实例图的HxWxN矩阵。在工具箱中使用get_instance_masks.m可以恢复场景中每个对象实例的蒙版。
4、标签–对象标签蒙版的HxWxN矩阵,其中H和W分别是高度和宽度,N是图像数。标签的范围是1..C,其中C是类的总数。如果像素的标签值为0,则该像素为“未标签”。
5、名称–每个类的英语名称的Cx1单元格数组。
6、namesToIds –从英文标签名称到类ID的映射(带有C键-值对)
7、rawDepths –原始深度图的HxWxN矩阵,其中H和W分别是高度和宽度,N是图像数。这些深度图在将深度图像投影到RGB图像平面之后但在填充缺失的深度值之前会捕获它们。此外,已删除了Kinect设备的深度非线性,并且每个深度图像的值都是以米为单位。
8、rawDepthFilenames –用于标签数据集中每个深度图像的文件名(在Raw数据集中)的Nx1单元数组。
9、rawRgbFilenames –用于标记数据集中的每个RGB图像的文件名(在Raw数据集中)的Nx1单元格数组。
10、场景–拍摄每个图像的场景名称的Nx1像元数组。
11、sceneTypes –拍摄每个图像的场景类型的Nx1像元数组。
Raw Dataset(原始数据集)
RGB相机(左)和深度相机(右)的输出。深度图像中的缺失值是由于(a)由红外发射器和照相机之间的差异引起的阴影,或者(b)由镜面反射率或低反照率表面引起的随机缺失或伪造值造成的。
原始数据集包含来自kinect的原始图像和加速度计转储。
RGB和深度相机的采样率介于20到30
FPS(随时间变化)。当帧不同步时,每个RGB,深度和加速度计文件的时间戳都作为每个文件名的一部分包含在内,可以使用工具箱中的get_synched_frames.m函数进行同步以产生连续的视频。
ContactIf you use the dataset, please cite the following work: Indoor Segmentation and Support Inference from RGBD Images ECCV 2012 [PDF][Bib]