摘要:介绍了机器视觉的Marr视觉框架、三维重建理论和图像处理的原理与应用。对三维重建理论重点介绍了基本几何元素点、直线和二次曲线的具体重建方法。对机器视觉在工业中的应用作了相关介绍,最后对机器视觉的前景进行了展望。
关键词:机器视觉;三维重建;图像处理
中图分类号:TP301
文献标识码:A 文章编号:1672-7800(2014)003-0013-02
作者简介:罗尤春(1989-),男,华中科技大学机械科学与工程学院硕士研究生,研究方向为机器视觉。
1 Marr机器视觉框架
在漫漫进化历程中,人类和大部分动物通过视觉、听觉、触觉等来获取周围世界的信息,并通过大脑处理这些信息。而根据调查,人类大脑处理的信息有80%是来自视觉,我们通过双目感受深度信息,通过对不同频率光信号进行判别来获取颜色信息[1]。通过运用摄像机来达到模拟人眼的识别和测量功能,机器视觉成为人工智能研究的重要环节。机器视觉区别于计算机视觉,更偏向于应用,一个机器视觉系统一般通过摄像机之类的光学仪器以图像的形式获取周围世界的信息,通过计算机进行图像处理和图像理解,再根据相应的控制程序和机械驱动设备对智能输出设备发出操作指令,实现智能控制和操作功能。
早期的机器视觉局限于对二维图像的分析、识别和理解上[2]。20世纪80年代初,Marr第一次融合图像处理、神经科学的相关研究,提出了里程碑式的视觉系统框架。具体来说,Marr框架包括三个层次:计算理论层次、表达与算法层次、硬件实现层次。计算理论层次,可以理解为通过对二维图像的理解来重建三维客观世界的视觉三维重建理论研究。因为现实世界是复杂多变的,如何建立一种通过二维图像来实现三维重建的普适性方法成为机器视觉系统中最重要也是终极的目的。Marr提出的这一层次是想通过建立某种普适性模型来获取客观世界任何物体的形状、位置以及运动的信息;表达与算法层次低于计算理论层次,是要解决“软件”的问题,即如何实现机器视觉系统各个模块之间信息输入、输出和信息表达的问题,亦即各种算法的实现;硬件实现层次可理解为如何组建机器视觉系统的硬件实体设备,与表达与算法层次一起为计算理论层次服务。
Marr提出的视觉框架中研究最多的是计算理论层次和表达与算法层次,分别对应下节要介绍的三维重建理论和图像处理。
2 三维重建
视觉三维重建理论是整个视觉领域研究的重点和前沿。客观世界的物体都是由基本的几何要素组成的:点、直线、二次曲线等。因此,要实现对客观世界的描绘,利用这些最基本的几何要素来组建客观世界是可以实现的。在很多研究中,通过大量的点对匹配得到三维世界中物体的三维点云模型,从而模拟出真实物体的形状。在三维重建研究中,立体视觉或称双目(多目)视觉是最重要的手段。仿照人眼的原理,要获得对周围三维世界的认知,必须知道深度信息,最少需要两个眼睛。与此同理,立体视觉一般都需要两个或者多个摄像机同时工作,才能较好地得到周围世界的三维信息。
2.1 摄像机针孔模型
摄像机的普适模型——针孔模型来源于小孔成像现象。简单地说,针孔模型是指空间中一点P与摄像机中一特定点C(称为光心)的连线交摄像机的图像平面于点p,这个点p便是空间点P的成像点,蕴含了空间点P的几何信息。从数学的观点,摄像机的成像模型是一个从三维到二维的映射f:P→p,是一个降维映射,丢失掉了深度信息,即处于光心C—空间点P的直线上任意一点Q的投影也都是p。从数学上可以证明,至少需要两幅或以上图像才能重建出空间点P的深度信息zP。
2.2 空间点三维重建
采用两个不同的摄像机位拍摄空间中同一点P的图像,分别得到P在左右摄像机图像平面上的投影点p\-L和p\-R,如果事先知道左右摄像机的相对位置关系——称为双目摄像机标定,那么就知道了左右摄像机的光心C\-L和C\-R的位置。简而言之,双目视觉系统能够提供给我们一个坐标系(左或者右摄像机坐标系),在这个坐标系下通过摄像机标定知道两个光心C\-L和C\-R的位置以及投影点p\-L和p\-R的位置,直线C\-Lp\-L和C\-Rp\-R的交点就是要重建的空间点P。
2.3 空间直线三维重建
空间直线的重建原理和空间点的重建类似,假如要重建空间直线L,得到L在左右摄像机图像平面上的投影直线l\-L和l\-R,那么左摄像机光心C\-L和左投影l\-L形成一个平面S\-L,同理右摄像机光心C\-R和右投影l\-R形成一个平面S\-R,则空间直线L就是平面S\-L和S\-R的相交直线。
2.4 二次曲线三维重建
实二次曲线一般包括椭圆、双曲线、抛物线和圆[3]。关于二次曲线的三维重建,司少华等[4]在1993年提出了一种特征值的方法,其开创性贡献在于首先将二次曲线视为一个几何元素来进行重建,而非利用二次曲线由其上的若干点(至少5个点)决定的原理,更不是利用点云的思想来重建二次曲线。将要重建的对象视作整体而非利用局部元素(点)去拟合逼近的思想是视觉理论更进一步的发展。圆作为最常见的二次曲线特征被广泛应用在物体空间定位上[5]。
3 图像处理
图像处理是指利用计算机对图像进行分析,得到需要的信息。所谓图像,其数学模型即一个二元向量函数f(x,y),其坐标(x,y)表示图像的横纵坐标。对于灰度图像,这个向量函数成为一个标量函数,f(x,y)表示对应平面坐标(x,y)的灰度值。对于彩色图像,一般使用RGB三原色来表征,即f=[R,G,B]\+T。图像处理的内容非常丰富,包括了图像滤波去噪、边缘检测、图像复原、形态学处理、图像分割等。其中,为了得到三维重建所必须知道的点、直线、二次曲线等图像信息,边缘检测至关重要。所谓边缘检测,目的是要识别出图像中灰度值变化明显的图像点。图像中突变的位置一般代表了三维世界中的不同属性。现有的边缘检测算子包括Canny算子[6]、Sobel算子、Prewitt算子、Roberts Cross算子、罗盘算子、Marr-Hildreth算子等。
A=imread('Beach.jpg');
B=rgb2gray(A);
C=edge(B,'canny',0.1);
imshow(C)
4 机器视觉应用及前景
机器视觉技术广泛应用于机器人、工业检测等领域。由于机器视觉系统是一套光学系统,因此具有非接触式测量的优点。由于计算机的运算速度不断刷新纪录,使得图像处理效率也不断提升,运用机器视觉系统能够为工业中的不同应用提供实时数据。加载视觉系统的智能机器人不仅拥有灵活、快捷的操作手臂,而且配置了灵敏的摄像机充当“眼睛”,还有超强计算能力的计算机充当“大脑”,真正实现了手—眼—脑同体。在工业检测以及测量领域,机器视觉利用自身的独特优势在质量缺陷、生产监控等方面占据了重要地位。机器视觉是一种人工智能技术,在未来的智能化时代,视觉技术必定能成为人机交互的最重要途径之一。
参考文献:
[1] 张广军.机器视觉[M].北京:科学出版社,2005.
[2] 马颂德,张正友.计算机视觉:计算理论与算法基础[M].北京:科学出版社,2003.
[3] 吕林根,许子道.解析几何[M].北京:高等教育出版社,2006.
[4] 司少华,马颂德.基于二次曲线的立体视觉[J].自动化学报,1993,19(4):420-427.
[5] 刘成,马瑾,李一兵,等.基于空间圆三维重建的车辆定位方法[J].汽车工程,2008,30(8):681-686.