itti算法

|为人处事   |

【www.yin56.com--为人处事】

视觉注意机制理论分析
篇一:itti算法

第2章 视觉注意机制理论分析

2.1 引言

随着信息技术的快速发展,数字图像、视频成为信息的重要载体。如何高效地处理和分析图像数据,理解图像内容已经成为当前的研究热点。众所周知,人类可以从复杂的场景中快速地找到我们感兴趣的区域,容易地完成对场景的理解。这是因为人类视觉系统(Human Visual System/HVS)的信息选择策略,利用视觉注意机制引导人眼在海量数据中注视到显著的区域,并分配资源对重要区域优先进行处理[10]。多数情况下,当我们的眼睛接收到来自外界的大量的视觉信息,大脑并不能对所有的视觉信息进行同时,而是删除大部分无用信息,筛选出少许感兴趣的重要信息,优先对这些视觉信息进行处理。

计算机作为目前处理信息最快的工具之一,在计算机图像处理中引入视觉注意机制,不仅可以提高数据筛选能力和计算机的运算速度,还在物体识别、目标跟踪、图像分析与理解等领域具有重要的应用价值,这就为汽车车牌的快速处理提供了一个很好的解决方法。但是目前的计算机视觉与人类的视觉在能力上存在着巨大的差异。视觉注意机制是涉及生物视觉处理等学科交叉领域,生物视觉与计算机视觉进行的学科交流为理论创新带来了新的思路:一个可行的方法是从研究人类的视觉系统(大脑)如何感知和识别外界视觉刺激出发,模拟人的视觉注意机制,建立一种有效的视觉注意计算模型,使计算机拥有人类所具备的观察和理解世界的能力,并将其应用于静态场景、动态场景的感兴趣区域检测及场景分类中。

2.2 人类视觉感知系统

关于人类的视觉感知系统,尤其是人类自身的视觉神经系统,心理学等相关领域专家已经进行了长期的探索和研究。通过深入研究探索,人们发现人类视觉神经系统中的视觉感官信息在人脑中是按照某一固定路径来进行传递的,其输入的是视觉刺激,输出的是视觉感知,主要是由视觉感官、视觉通路、视感觉中枢组织和视知觉中枢组织组成的,其分别负责视觉信息的生成、传送和分析。其中视觉信息分析过程可分为视感觉分析和视知觉分析,如图2.1所示。

图2.1 人类视觉感知系统信息感知流程

2.2.1 视觉系统生理结构

人类视觉系统的感觉器宫是眼睛,一般人眼睛直径大约24毫米,近似球形,由眼球壁和眼球两部分组成。角膜和巩膜位于眼球壁的外层,其中角膜具有屈光作用,能够将光线折射到眼睛内,巩膜保护眼球。眼球壁的中间层由控制瞳孔大小的虹膜和吸收外来散光的脉络膜组成,内层有视网膜由视锥细胞和视杆细胞组成,有感光作用。视觉信息的传递过程如下:视觉刺激从光感受细胞出发,作用在视网膜引起视感觉,再经由视神经、视束以及皮层下中枢,最终到达视皮层,引起视知觉[11] 。所谓的视感觉,指光的明暗,视知觉指颜色、形状等特性。

图2.2 人眼结构示意图

眼睛的角膜是透明的、高度弯曲的折射窗口,光线通过它进入人眼内,随后有部分被带色的不透明的虹膜表面所阻挡。瞳孔随光照强度而改变,光线暗时扩张,在正常的光照条件下它处于收缩状态,以限制眼内因球面像差引起的图像模

糊。一只人眼视网膜中不均匀分布了大约有上亿个视杆细胞及500万个圆锥细胞。视网膜中心区域是黄斑,圆锥细胞密集程度密度特别高。视网膜上还有一个盲点,神经中枢细胞轴突从视网膜盲点中离开,组成视神经[12]。

视网膜具有感光层、双极细胞层和节细胞层的三层生理结构,感光层中的感光细胞将视觉信号(光信号)转变为电信号,接着双极细胞分析处理这些转换的电信号,并进行分类成形状、深浅和色彩等信号。接着节细胞把传入视网膜分类过后不同的信号传输到大脑形成图像。除了上述细胞外,视网膜还有其它细胞:水平细胞和无长突细胞。

人眼是包含有限球壁、眼内容物和神经系统等,是一个前后直径大约24毫 米,垂直直径大约23毫米的近似球状体。眼睛的主要感光系统是眼球壁内层的 视网膜,它由视锥细胞和视杆细胞组成的,视锥细胞主要用于分辨颜色。我们会 有对外界事物的色觉,其原因在于视网膜上有三种视锥细胞分别感受了蓝色、红 色和绿色。另外,视杆细胞也是主要用于感受运动物体和弱光[13]。晶状体富有弹性,中央厚边缘薄,像一块双面凸起的球镜,它的作用是聚焦光线和调节屈光,并且玻璃体充满晶状体和视网膜之间,占据眼内腔的4/5,内含99%的水分,是眼球壁的主要支撑物[14]。

2.2.2 视觉感知系统加工特点

人类视觉感知系统在视觉信息处理过程中,并不是原封不动的传送,而是结合输入信息进行相应的处理,再输出给其他神经元。人眼的视觉系统只能选择少数显著性信息进行处理,摒弃大部分无用信息。在视网膜上,每个神经元有不同形式的感受野,并呈现同心圆拮抗的形式[11]。这种形式根据刺激对细胞的影响分为“on中心-off环绕”和“off中心-on环绕”两种类型。“on中心-off环绕”类型,当光照充满中央区域时,激活反应最强;当光照充满了周边的区域时,则产生最大的抑制作用。“off中心-on环绕”由中央抑制区和周边兴奋区组成,与“on中心一off环绕”相反。大脑皮层上的感受野分简单细胞的感受野和复杂细胞的感受野。其中简单细胞的感受野也分为兴奋区与抑制区,对刺激的方向和位置有很强的敏感性;复杂细胞的感受野对刺激敏感性取决于刺激的形式,和刺激的位置无关。

一般来说,不同的视觉信息要经过腹侧通路和背侧通路的加工处理操作。腹侧通路由V1, V2, V3, V4和颞下回组成,主要对刺激信息负责接收。视觉意识的产生须要腹侧一背侧这二条通路的共同参与。这两条通路之间相辅相成、互相依赖与作用:人眼调整视觉注意焦点可以通过目标识别来完成,而视觉焦点可以

有效地对目标识别进行指导,两者相辅相成帮助人类理解场景中的事物[15]。作为一种生理机制,视觉注意与个人主观因素有关,也与眼球感知到的物象、环境条件和心理感受等外部刺激有关,视觉注意流程如图2-3所示。

图2.3 人类神经视觉注意识别框图

在视觉处理中,视皮层中腹侧通路和背侧通路对视觉刺激信号的输入和视觉信息的进一步的处理起着重要作用。腹侧通路中接收的信息由初级视皮层V1区经过V2区和V3区从腹侧延伸到V4和IT区直至颞叶,腹侧通路输入的信息来 源主要是来源于视网膜的P型神经节细胞,该通路主要负责的是物体的识别功能,这也是另外叫“what通路”的缘由[15]。背侧通路则由初级视皮层V2和V3区从背侧延伸向MT和MST区一直到顶叶后部,它的信息输入源主要由视网膜的M型神经节细胞,也称为“Where”通路,主要负责空间位置的信息。

根据神经生理学的相关研究结果,通过串行和并行的加工机制,可以将形状、颜色、深度和运动的相关视觉信息分离出来,并且在V2区以上层级的视皮层的分离趋向更为明显点[16]。为比较快速完成不同的视觉任务处理,视通路各个层次上存在着基本互相独立的并行通道。在人类视觉处理机制中,视网膜读入的信息是存在着反馈的双向传输,大脑中更高层区域都有许多反馈通路到达初级视皮层V1区和V2区,这些不同的反馈通路在一定程度与人类的意识行为有关联。

2.3 视觉注意机制模型

视觉注意实质上是一种生物机制,这种机制能够从外界复杂的环境中选出重

要的和所需要关注的信息,逐步排除相对不重要的信息,通过这种方式能够将十分复杂的外界视觉场景进行简化和分解,进而在接下来对重要的信息进行进一步处理。这种机制的优势在于它能够使得我们在十分复杂的外界视觉场景环境中,可以十分迅速的注意所需要关注的重要的信息和物体。

在图像理解和分析中,人类视觉系统的视觉注意使得人们可以在复杂的场景中选择少数的感兴趣区域作为注意焦点(Focus Of Attention , FOA),并对其进行优先处理,从而极大地提高视觉系统处理的效率。在日常生活中,我们会常常的感受到视觉注意机制的存在。比如说一幅图像,我们会轻易的发现,墙壁上的小坑和黑点,白色打印纸上的纸张缺陷,蓝色车牌上的车牌号码等等。图2.4列举了几个关于视觉注意的示例图,当人们观察以下几张图片时,观察者会迅速将自己的注意力集中在左边图中的空心圆、中间图中的实心圆以及右边图中间部分的斜线,这种人眼的选择过程就是视觉注意,而被选中的对象或者区域就被称为注意焦点【17】。

图2.4 视觉注意机制示例图

关于视觉注意机制,研究者们最初从生物神经科学、心理科学等方面进行了大量的探索。心理学家将视觉注意划分为两种:一种是以自底向上(数据驱动)的方式驱使的,另一种是以自顶向下(任务驱动)的信息来控制的。自底向上的视觉注意机制是基于刺激的、与任务无关的,比如在绿油油的草地上有一只白色的羊,大部人会第一时间注意到与周围环境不一样的羊。自顶向下的视觉注意机制是基于任务的,受意识支配。比如在机场接人时,我们会立刻看到我们要接的人,而对其他的人则视而不见。

2.3.1 数据驱动的视觉注意机制模型

数据驱动的视觉注意机制的初级计算模型的研究从80年代后就开始成为很热的研究点,Koach等人在1985年提出了这种计算模型的理论框架[18],其中的神经网络理论的焦点抑制机制为众多模型所参考和借鉴。Milaness等学者也提出了特征显著图的理念并利用中央—周边差分算法进行特征的提取[19],数据驱动的注意模型原理是从输入图像提取多方面的特征,如图片颜色、图像朝向、光照

基于meanshift的目标跟踪算法——完整版
篇二:itti算法

itti算法。

基于Mean Shift的

目标跟踪算法研究

指导教师:

摘要:该文把Itti视觉注意力模型融入到Mean Shift跟踪方法,提出了一种基于视觉显著图的Mean Shift跟踪方法。首先利用Itti视觉注意力模型,提取多种特征,得到显著图,在此基础上建立目标模型的直方图,然后运用Mean Shift方法进行跟踪。实验证明,该方法可适用于复杂背景目标的跟踪,跟踪结果稳定。

关键词:显著图 目标跟踪 Mean Shift

Mean Shift Tracking Based on Saliency Map

Abstract:In this paper, an improved Mean Shift tracking algorithm based on saliency map is proposed. Firstly, Itti visual attention model is used to extract multiple features, then to generate a saliency map,The histogram of the target based on the saliency map, can have a better description of objectives, and then use Mean Shift algorithm to tracking. Experimental results show that improved Mean Shift algorithm is able to be applied in complex background to tracking target and tracking results are stability.

1 引言

Mean Shift方法采用核概率密度来描述目标的特征,然后利用Mean Shift搜寻目标位置。这种方法具有很高的稳定行,能够适应目标的形状、大小的连续变化,而且计算速度很快,抗干扰能力强,能够保证系统的实时性和稳定性[1]。近年来在目标跟踪领域得到了广泛应用

[2-3]。但是,核函数直方图对目标特征的描述比较弱,在目标周围存在与目标颜色分布相似的物体时,跟踪算法容易跟丢目标。目前对目标特征描述的改进只限于选择单一的特征,如文献[4]通过选择跟踪区域中表示目标主要特征的Harris点建立目标模型;文献[5]将初始帧的目标模型和前一帧的模型即两者的直方图分布都考虑进来,建立混合模型;文献[6]提出了以代表图像的梯度方向信息的方向直方图为目标模型;文献[7-8]提出二阶直方图,是对颜色直方图一种改进,是以颜色直方图为基础,颜色直方图只包含了颜色分布信息,二阶直方图在包含颜色信息的前提下包含了像素的均值向量和协方差。文献[9]提出目标中心加权距离,为离目标中心近的点赋予较大的权值,离目标中心远的点赋予较小的权值。文献[4-9]都是关注于目标和目标的某一种特征。但是使用单一特征的目标模型不能适应光线及背景的变化,而且当有遮挡和相似物体靠近时,容易丢失目标;若只是考虑改进目标模型,不考虑减弱背景的干扰,得到的效果毕竟是有限的。

针对上述问题,文本结合Itti 提出的视觉注意模型[5],将自底向上的视觉注意机制引入到Mean Shift跟踪中,提出了基于视觉显著图的Mean Shift跟踪方法。此方法在显著图基础上建立目标模型,由此得到的目标模型是用多种特征来描述的,同时可以降低背景对目标的干扰。

2 基于视觉显著图的Mean Shift跟踪方法

对人类视觉系统(human visual system,HVS)研究发现,图像的主要信息只集中在少数的关键区域中,正确地提取这些关键区域,可以大大提高图像分析和处理的效率和准确度,降低计算的复杂度,避免不必要的计算资源浪费。

在现存的众多视觉模型中,本文选取最具代表性的Itti视觉模型,它在特征提取阶段,采用多个低层视觉特征,如颜色、亮度、方向等;这些特征通过高斯金字塔和Center-Surround算子形成各个特征的关注图;然后将这些特征合成一幅显著图;再在显著图上,利用Mean Shift进行迭代搜索。整个算法流程如图1所示。

图1 基于视觉显著图的Mean Shift跟踪过程

2.1 视觉显著图的概念

所谓的显著图[6],就是一幅和原始图像大小相同的二维“图像”,其中的每个象素值表示原图像对应点的显著性大小。

2.2 获取视觉显著图[7-9]

Itti显著图原理是:(1)提取亮度、颜色和方向特征;(2)用高斯滤波器(5×5)对亮度、颜色和方向特征图像进行滤波,得到9层的高斯金字塔(其中第0层是原尺度图像,1到8层分别是为原尺度图像的1 /2 ~ 1 /256);(3)“中心—周围” 差分(Center-surround difference)和归一化,获取亮度、颜色和方向特征图;(4)对特征图进行跨尺度融合及归一化后,合成视觉显著图。

本文考虑到Mean Shift对实时性的要求,考虑到采用方向特征的计算复杂度,本文主要采用颜色、亮度和边缘特征。

2.2.1视觉特征提取

1)获取颜色特征图

HSV模型与人类对颜色的感知接近,它把彩色信息表示为3种属性:色调(H)、饱和度(S)、亮度(V)。其中的H表示色彩信息,既所处的光谱颜色的位置。本文采用HSV模型中的颜色分量H来提取颜色特征。颜色特征图由下式求出:

H( c , s) =| H ( c) Θ H ( s) | (1)

其中:c∈{2, 3},s = c +δ ,δ ∈{3, 4}。

2)获取亮度特征图

亮度特征代表了白色与黑色之间的一系列信息,有利于增强白黑或黑白之间的显著性。亮度特征图由下式求出:

I( c , s) =| I( c) Θ I ( s) | , (2)

其中:c∈{2, 3},s = c +δ ,δ ∈{3, 4}。

3)获取边缘特征图

边缘能勾划出目标物体的轮廓,是图像的重要属性之一。人看到一个物体时,首先注意到是这个物体的轮廓特征,符合人类的视觉注意机制。边缘特征图由下式求出:

E( c , s) =| E( c) ΘE ( s) | (3)

其中:c∈{2, 3},s = c +δ ,δ ∈{3, 4}。

2.2.2 生成视觉显著图

由式(1)、式(2)和式(3)经获取颜色、亮度和边缘三个方面12张特征图,现在将每个方面的4个特征图组合成特征显著图,分别用,,来表示。Itti在模型中定义了归一化算子N(⋅),来对每组特征图进行归一化,,,分别由如下公式求得:

N(H(c,s)) (4) c2sc33c4

N(I(c,s)) (5) c2sc33c4

N(E(c,s)) (6) c2sc33c4

然后将,,线性组合成视觉显著图。itti算法。

实验证明,本文的方法在保留图像特征的前提下,减少了Mean Shift迭代次数,加快了收敛速度,更加适用于目标跟踪。

原图 H分量显著图 亮度显著图 边缘显著图 视觉显著图

图2 显著图

3 Mean Shift跟踪算法[10]

Mean Shift算法是一种半自动化跟踪算法。首先需要在起始帧内为选中的跟踪目标建立概率模型,即计算核函数窗口中的直方图分布。设初始内核窗口的带宽h,x1,x2,,xn为内核窗口所包含采样点,x0为目标中心,则目标的直方图分布为:itti算法。

xx0ˆuCk(iq)b(xi)u u1,,m (7) hi1n2

本文是计算显著图中的直方图,公式同(7),在显著图中计算,减少了背景的干扰,更真实的反应跟踪目标的直方图特性。

式中:k为核函数,m为特征空间中特征值的个数,为Kronecker 函数,b(yi)为像素yi对应的特征值,C为归一化系数,h为核函数的带宽。

位于y候选目标可以描述为

nkˆuChk(p

i1xiyh2)b(xi)u (8)



ˆu(y)与qˆu最相似。pˆu(y)与qˆu的相似因此物体跟踪可以简化为寻找最优的y,使得p

性用Bhattacharyya系数来度量,即

mu(y)qu (9) (y)p

u1

对应的迭代公式为

显著性检测
篇三:itti算法

显著性检测

视觉注意机制(Visual Attention Mechanism,VA),即面对一个场景时,人类自动地对感兴趣区域进行处理而选择性地忽略不感兴趣区域,这些人们感兴趣区域被称之为显著性区域。人类视觉注意机制有两种策略,即采用自底向上策略注意机制和采用自顶向下策略注意机制。前者利用图像的颜色、亮度、边缘等特征表示,判断目标区域和它周围像素的差异,进而计算图像区域的显著性。后者针对图像的特定特征来计算图像区域的显著性。

显著性检测就是提取图像中重要的、人类感兴趣的区域。根据显著性区域的应用不同,产生了很多不同的显著性区域定义,相应的显著性检测算法也不相同。按检测目标,显著性检测可分为基于显著性点的显著性检测和基于显著性对象(图像前景)的显著性检测。前者以最能引起人类视觉系统的点为检测目标,后者以最能引起人类视觉系统的前景为检测目标。按显著性检测的变换域,显著性检测还可以分为时域显著性检测和变换域显著性检测。下面我们介绍几种经典的显著性检测方法。

Itti等人提出Itti视觉注意力模型。根据视觉系统的行为和神经网络结构,它

是经典的基于自底向上策略视觉注意力模型。该模型组合多尺度图像特征到一个单一视觉显著性图中。首先,通过线性滤波对图像颜色、亮度、方向等特征进行提取。其次,通过高斯金字塔、中央周围(center-surround)算子和归一化处理获得显著性图,其中包括6个亮度特征图、12个色彩特征图和24个方向特征图。最后,再根据显著图确定图像显著性区域,从而实现图像的显著性检测。

Hou等人提出了一种基于傅里叶频谱残差(Spectrum Residual,SR)的分析方法。该方法将输入图像进行对数频谱分析,去除对数频谱中的通用信息,得到目标的频谱信息,最后利用傅里叶反变换得到其显著性映射,即得到其空间域对应的目标区域。我们可以通过阈值选择确定重要物体。该方法原理简单、运算速度快并且具有较强的抗干扰性。

Guo等人提出了基于四元数傅里叶变换相位谱(PQFT)信息来计算图像的显著性映射。每幅图像的每个像素都用四元数表示,即两个颜色通路、一个强度通路和一个运动通路。然后,用其四元数傅里叶变换相位谱来求其显著性映射,也就是对四元数进行傅里叶变换,仅用它的相位信息做傅里叶反变换得到其显著性映射。该方法的显著性映射提供主要物体的位置。因此可以通过阈值的选取,在显著性映射结果中提取重要物体。本文提出的模型增加了有效的运动信息,不仅能够应用于图像中,同时在视频中也同样适用

图像显著性检测在图像处理相关领域有非常广泛的应用,例如:图像编辑、基于内容的图像缩放、自动聚焦以及图像智能压缩等,应用较为广泛。


itti模型

本文来源:http://www.yin56.com/qingganrizhi/88547/

    热门推荐
    • 职场中哪些为人处事的技巧【三篇】

      以下是小编收集整理的职场中哪些为人处事的技巧【三篇】,仅供参考,希望能够帮助到大家。

    • 在职场中为人处事的方法精选三篇

      以下是为大家整理的在职场中为人处事的方法精选三篇,欢迎品鉴!

    • 职场中为人处事的职场法则(锦集3篇)

      以下是小编整理的职场中为人处事的职场法则(锦集3篇),仅供参考,大家一起来看看吧。

    • 为人处事的名言警句134句【热】

      名言是一个汉语词汇,拼音为míng yán,基本意思是很出名的说法,著名的话,一般指名人说的话。出自刘义庆 《世说新语·言语》、欧阳修《归田录》等。下面是小编为大家整理的为人处事的名言警句134句,欢迎大家借鉴与参考,希望对大家有所帮助。

    • 职场中为人处事的职场法则锦集三篇

      下面是小编精心整理的职场中为人处事的职场法则锦集三篇,仅供参考,大家一起来看看吧。

    • 习惯决定你是否成功议论文

      习惯是一种最不被人重视的存在,谁都会不在意它的作用。然而,习惯却会把你导向成功或者失败。良好的习惯能使平庸者成为人才,不好的习惯却只能埋没人才。  习惯人皆有之。南方人习惯吃大米,北方人习惯吃面条,这

    • 走与停初一说明文

      走是漫漫前程奋斗。  停为深深思绪反省。  走与停就像是配合默契的左右手,使人感觉在为人处事的路上得心应手,顺心顺意。——题记  走一走,即奋斗奋斗。人生奋战的征途中,有很大一部分时间我们是在走着的。

    • 为人师表的名言警句精选

      母欺子,子而不信其母,非以成教也。 《韩非子》  贤母使子贤也。 《韩诗外传》  教育最复杂的任务之一,就是把服从法律的强制性向教育孩子善于动用自己的自由权力结合起来。孩子只要不做有害于自己和他人的事