勇敢心资源网

当前位置:首页 > 百科 / 正文

立体视觉匹配

(2020-07-18 04:05:00) 百科

立体视觉匹配

立体匹配(Stereo Matching)的目标是从不同视点图像中找到匹配的对应点。

基本介绍

  • 中文名:立体视觉匹配
  • 外文名:Stereo Matching
  • 目标:从不同视点图像中找到匹配点
  • 意义:计算机视觉中的重要又困难的问题

简介

立体视觉匹配(Stereo Matching)是计算机视觉中的一个重要而又非常困难的问题,它的目标是从不同视点图像中找到匹配的对应点。

背景

人类的双目立体视觉系统是一个非常智慧型的系统。场景中的光线在人眼这个精密的成像系统中被採集,通过神经中枢被送入包含有数以亿计的神经元的大脑中被并行的处理,得到了实时的高清晰度的準确的深度感觉信息。凭藉着大脑的智慧型与人类的知识,即使是高度近视的人,在摘掉眼镜之后仍然能够得到比较準确的深度感。这样智慧型的系统,使得人类对环境的适应能力大大提高,很多複杂的动作能够得以完成: 如行走、体育运动、驾驶车辆以及进行科学实验等。
相比之下,机器的立体视觉系统则要落后得多。相机採集到的图像数据中可能存在较大的噪声,相机参数也有可能不对称; 用于处理图像的计算机大部分还是冯·诺依曼结构的串列计算机,处理能力与人脑相差甚远。计算机视觉的研究历史也不长:上世纪七十年代末之前的视觉研究主要集中于生理学和心理学上;在大卫·马尔提出了视觉计算模型以后,人们才慢慢的开始利用计算机和数学模型进行视觉处理。早期的立体视觉,由于受限于硬体条件,只能对图像上的特徵点进行匹配, 得到离散点的深度信息。 然而, 计算机硬体的发展非常迅速,正如摩尔定律所指出的,每 18 个月,计算机的硬体价格就下降一半,而性能则提高一倍。当计算机的处理能力不断提高的时候,人们开始尝试计算整幅图的稠密对应关係,同时也开始採用一些更加複杂更加準确的数学工具进行计算。
当前计算机立体视觉的水平与人类的双目视觉水平还相距甚远,对它的研究仍然是一个非常活跃的领域。大量的学校、公司以及研究机构的研究人员仍然在进行着对计算机立体视觉的研究,这是因为计算机立体视觉与人眼立体视觉相比,主要有以下不可替代的优点:
1、精度高。人眼的立体感知能力虽然很强,能够很轻鬆的正确判断出两个物体的深度顺序,但是却无法得到其精确的距离信息。然而,使用计算机立体视觉,通过精确的标定,使用合适的计算方法,在匹配正确的情况下可以得到非常精确的深度和位置等数值信息,这使得机器人的精密控制、三维模型重建等工作可以更好的完成。
2、扩展能力强大。由于计算机硬体和软体不像人类的器官那样不可改变,计算机立体视觉可以从各个方面对其进行扩展,以满足不同套用的需求。首先,计算机立体视觉并不限于双目视觉,很多系统使用了三相机、多相机甚至相机矩阵採集图像。相机的摆放方式除了类似人眼的水平摆放,还可以採用垂直摆放、环绕摆放以及立体摆放等多种灵活的方式,有一些系统的相机间的关係还可以根据需要进行动态变化。此外,除了可见光,使用特殊的相机,还可以採集到其它各种类型的输入数据,如红外线、核磁共振等。所以说,计算机立体视觉技术具有强大的扩展能力,能够提供比人眼立体视觉系统更丰富的信息。
3、除了以上的两个特点,计算机还具有连续工作时间长、不易损坏、保密性好、没有培训成本、结果易于保存和複製等优点。
由此看来,对于立体视觉匹配的研究,能够大大的增强计算机或机器人对环境的感知能力,使得机器人能够更好的适应环境、更加智慧型,从而能够更好的为人们服务。
如今立体视觉技术主要套用于如下一些领域:三维环境感知与建模、机器人导航、物体跟蹤与检测以及图像分割等。随着立体视觉技术的进一步发展,可能会有更多的领域使用这项技术。

发展现状

如前所述,计算机视觉起始于大卫·马尔等人提出的视觉的可计算模型。最简单的的匹配算法利用匹配点周围一个固定大小的视窗的灰度分布,在一个可能的视差範围内,通过寻找两个对应视窗图像向量的归一化相关值的最大值得到视差,这一类方法也被称为“区域匹配”方法(Area Matching)。区域匹配的一个假设是空间的平面是所谓的正平面,也就是与相机平面平行的平面,而实际的场景中存在着大量的非正平面,因此人们开始考虑利用一些更有意义的特徵点(感兴趣点)来进行匹配, 这种方法也被称为特徵匹配(Feature Matching)方法,如 Marr和 Poggio 提出了多尺度的匹配算法,利用不同的 Laplacian 过零点以及梯度进行匹配。
立体视觉匹配的另一个挑战在于匹配的歧义性:对于一幅图上的某个像素或特徵,另一幅图像可能有若干特徵与之相似,如何选择正确的匹配是一个困难而又必须解决的问题。Barn 提出了鬆弛标号法(Relaxation-Labeling),利用平滑性和投票的策略解决歧义性问题;Pollard 等人定义了离散视差的视差梯度,通过限制视差梯度减小歧义情况下的错匹配;Marr 和 Poggio 以及 Zitnick 和 Kanade 採用了合作的匹配框架,试图通过多个特徵的匹配信息以及唯一性假设来解决歧义。 更好的方法是採用全局的方法进行求解,把多个像素或特徵的视差求解归一到一个能量框架下。使用了能量最佳化的框架之后,能量函式的定义和最佳化变成了两个较为独立的问题, 可以分别加以研究和解决。在定义能量函式方面,不同的算法採用不同的匹配信息和不同的先验假设来描述能量函式中的不同部分,通过这些假设把大量的特徵联繫起来,联合求解以消除歧义。在能量最佳化方法方面,较传统的有模拟退火(Simulated Annealing)算法、最可靠有限算法等。近些年,基于图切割(Graph-Cuts)和置信度传递(Belief-Propogation)的最佳化算法逐渐被广泛採用。以上算法的速度都较慢,主要原因在于当平滑函式为一般函式的时候,以上的能量最佳化函式是一个NP难题。为了提高效率,一些研究人员考虑採用具有低阶多项式複杂度的动态规划算法,此时需要把最佳化局限于单条扫描线或把多连通的图变成一棵树。

问题描述

立体视觉匹配问题的输入为若干不同视角的相机採集的图像,输出是这些图像上的点的对应关係。图 1 为标準配置下双目立体视觉的几何模型。c 和 c' 为两相机的光心,f 为焦距,B 为两光心的连线,也称为基线,过光心且垂直于成像平面的直线称为光轴。所谓标準配置是指两个相机的光轴垂直于基线且互相平行。设两相机的焦距相等,且相机的坐标系的水平坐标与基线方向平行, 则空间中的点 P 在两相机上成的像具有相同的竖直坐标,这个特点也叫立体视觉的外极线(Epipolar Line)(所谓的外极线是指外极平面和图像平面的交线,其中外极平面是包含两个焦点和空间点的平面)约束。对于一般配置的相机(如图 2),通过相机标定和配準,可以得到标準配置下的图像。如无特殊说明, 本文余下的部分所涉及的立体匹配问题,都是建立在标準配置下的几何模型。
设 P 点投影到两相机后的图像分别为 x 和 x', 我们说 x 和 x' 是一对对应点。如果我们用 x 和 x' 来表示它们的水平坐标,这两个点的对应关係可以由如下定义的视差来描述:
d = x - x'
通过简单的几何关係推导, 我们可以得到如下等式:
d = Bf / Z
可见当基线和焦距固定的时候,也就是相机的参数以及相机之间的相对位置和姿态固定不变的时候,视差与空间的点的深度成反比。因此,只需要知道了视差就可以得到物体的深度,从而立体视觉匹配问题可以定义为根据来自于不同的相机的图像求解视差的问题。
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net
搜索
随机推荐

勇敢心资源网|豫ICP备19027550号