基于小波分解和颜色熵的浮游生物图像识别

来源:百度文库 编辑:神马文学网 时间:2024/10/04 21:26:17
·人工智能及识别技术· 文章编号:1000—3428(2008)14—0188—03 文献标识码:A 中图分类号:TP391.41
基于小波分解和颜色熵的浮游生物图像识别
丁伟杰,周国民,任文华
(浙江警察学院公共基础部,杭州 310053)
摘 要:浮游生物图像识别分类是海洋生态研究的重要内容和必要前提,传统的浮游生物图像识别分类需要由专业人员进行人工识别,工
作量大,效率低.该文提出一种基于小波分解结合颜色信息熵的浮游生物图像识别方法,提取图像的三层小波分解后系数的数学特征和四
叉树分块后的颜色信息熵构造特征向量,采用相似度模型和 K-近邻分类器对浮游生物图像进行分类.实验表明,与传统方法相比,该方法
能在保证识别率的基础上提高识别效率,并具有良好的稳定性.
关键词:浮游生物;小波分解;颜色信息熵;K-近邻
Plankton Image Recognition
Based on Wavelet Decomposition and Color Entropy
DING Wei-jie, ZHOU Guo-min, REN Wen-hua
(Department of Commonality Basic, Zhejiang Police College, Hangzhou 310053)
【Abstract】The recognition and classification of plankton images is the important content and precondition to the research of zoology. Traditional
methods of plankton images recognition is mainly to be recognized under the microscope by professional. But this method has the demerit of lower
efficiency. Under this background, this paper presents a plankton image recognition based on wavelet decomposition and color information entropy.
The plankton and eigenvectors are extracted from the images, and K-neighbor classification method is used to recognize the plankton images in
database. Experiment proves that the recognition rate is higher than others, and this method is deemed to have high efficiency and stability.
【Key words】plankton; wavelet decomposition; color information entropy; K-neighbor
1 概述
传统的浮游生物分类计数是在显微镜下由专业人员按照
其形态,大小,颜色等特征进行辨别,分类,计数.人工识
别工作量巨大,容易使操作者疲劳而影响识别和统计的准确
度,这严重制约了生态环境调查的效率和可靠性.目前国内
外实验室采用的浮游生物图像处理软件大都只能对浮游生物
图像进行简单的几何测量及计数,具体的种属识别,分类仍
然需要人工干预.近年来,应用数字图像处理技术实现浮游
生物图像的自动识别与分类已引起人们的广泛关注,目前已
经有一些学者在这一领域开展了卓有成效的工作,如Jeffries
等人使用个体长度这一参数对某些桡足类动物进行分类,但
由于图像噪声和腹部触毛的影响,导致特征参数不够具体[1]
;
Chehdi等人对文献[1]的方法提出了改进,针对二值图像的结
果进行滤波抑制了噪声和触毛的影响[2]
;Thonnat等人建立了
浮游生物专家系统,针对地中海地区主要的 4 种浮游生物进
行分类,取得了较好的分类效果[3]
;杨榕等人提出的基于内
容特征的浮游生物图像识别算法也取得了一定的成效[4]
.
然而,随着海洋生物学界对浮游生物研究的进一步深入,
传统识别方法效率较低的缺点逐渐凸现.因此,在保证识别
率的前提下,提高识别算法的效率逐步成为浮游图像识别领
域新的研究切入点.
2 基于信息熵的图像特征提取
众所周知,颜色直方图是一种重要的图像内容特征,具
有特征提取和相似度计算简便,并且随图像尺度,旋转等变
化不敏感的特点,在以往的图像识别研究中,颜色直方图作
为图像识别的一种重要方法已经得到了大量的证实.然而,
基于颜色的图像特征描述方法也有 2 个致命的缺点:(1)颜色
直方图丢失了图像的颜色空间分布信息;(2)当待识别图像数
据库与颜色直方图空间的维数比较大时,识别时间的花费巨
大.鉴于此,本文提出了基于颜色信息熵的图像描述方法,
希望通过该描述方法提取图像的空间颜色信息,并将可视化
对象的级别从向量级别聚集到数字级别,减少相似性度量空
间的维数,从根本上改善识别性能.
2.1 图像颜色信息熵
如上所述,颜色直方图以及其组成的空间可以作为图像
识别的训练集(数据库)中颜色特征的表示.利用信息论的方
法去扩展基于颜色信息的图像属性特征.根据颜色直方图的
定义可以推出该图像的概率密度函数如下:
1 2
( )
( ) iN C
h i
N N
=
×
(1)
其中, 表示图像中像素颜色是 C 的像素总数.( )iN C i
用颜色直方图来定义图像的概率密度函数表明了一幅图
像的信息熵是可以计算的.向量 是被量化的颜色 i 的像素
在图像 I 中所占的百分比,它的值等于颜色 i 的概率密度函
iv
基金项目:国家自然科学基金资助项目(60374047);浙江省自然科学
基金资助重点项目(ZD0205)
作者简介:丁伟杰(1980-),男,助教,硕士,主研方向:模式识别,
图像处理与应用;周国民,任文华,副教授,硕士
收稿日期:2008-04-21 E-mail:dingwei212@163.com
数 ip 的值,即颜色 的直方图块,因此图像颜色信息熵可以
由下式定义:
i
1
( ) lg( )
n
i i
i
H
=
= ?∑v v v (2)
这样图像可视化的级别就由向量级别降到数字级别,一
幅图像可由某个数字表示,相似性度量空间就由 N 维减少到
一维.
2.2 基于颜色信息熵的浮游生物图像特征表示
众所周知,颜色直方图作为图像识别的一种重要特征具
有丢失空间信息的缺点,基于颜色直方图的图像颜色信息熵
也是如此.所以人们常常将图像分块( ),利用其分块的
局部熵来反映图像的整体信息量及其空间关系,解决了熵相
同而图像内容不同的问题.但是也存在一个问题,那就是识
别效果与图像分块层数有关,要想达到更好的识别效果,就
要将图像分成更多的块.因此增加了维数,加大了计算量.
因此,对于图像颜色信息熵的特征表示,本文采用基于四叉
树结构组织的图像颜色信息熵特征向量的方法,将图像的颜
色信息进行有限层分解,较好地表征了图像的颜色信息熵信
息,同时简化了识别算法.在图像颜色信息熵的四叉树分块
方法中,用根节点表示基于图像颜色的整体熵值,以 4 个子
孙节点值为将其父节点一分为四的 4 个分块局部颜色信息
熵,可以逐层划分并计算各块的颜色信息熵值.
U V×
由实验得知,如果将小于 300×300 的图像进行超过
3 层以上的划分,其最小分块的颜色信息熵将会出现较大的
波动,从而会对实验结果造成不利影响,因此本文中的实验
将图像进行 2 层四叉树分块,共取 21 个颜色熵作为图像的颜
色信息熵特征向量.
图 1 为某类浮游生物图像 2 层四叉树分块示意图.
A B C D
O PNM
...
...
...
图 1 浮游生物图像四叉树分块示意图
3 基于小波分解的图像特征描述
小波多分辨率分析(multiresolution analysis)是在 20 世纪
80 年代发展起来的里程碑式的数学分支,小波变换(wavelet
transform)的概念是 1984 年法国地球物理学家J.Morlet在分析
处理地球物理勘探资料时提出的.1989 年S.Mallat提出了多
分辨率分析的概念,统一了在此之前的各种构造小波的方法,
特别是提出了二进制小波变换的快速算法,使得小波变换完
全走向实用性[5]
.
在浮游生物图像识别过程中,首先使用 Mallat 算法对图
像进行分解,分解示意过程如图 2(a)所示.其中,子图 LL
为原图像的平滑图像,保持原图像的低频分量;子图 LH 保
持了原图像的垂直边缘细节;子图 HL 保持了原图像的水平
边缘细节;子图 HH 保持了原图像对角线方向的细节.因此,
对浮游生物图像进行适当层次的小波分解后可以得到稳定性
好,刻画其纹理特性,边缘轮廓特性及形态特性的一系列子
图,大大减小了图像的维数,这也就意味着降低了算法的复
杂度.根据 Mallat 算法,原图像(如图 2(b)所示)经过 3 级小
波分解后,得到图 2(c).利用不同类型的小波构造出不同的
滤波器去获得低频子图,并由各子图小波系数的均值,方差
和能量特征构造出 36 维的特征向量.
LL HL
HL HH
HL
HL HH
(a)小波分解示意图 (b)原图像 (c)3 级小波分解结果
图 2 浮游生物 2 维离散小波分解
4 实验结果与分析
4.1 实验步骤
本文实验选择了 10 类,每类 20 幅浮游生物图像构成本
次实验的测试集.包括不同背景颜色,不同角度,不同尺度
的同类浮游生物的图像.图 3 是实验中用到的部分图片,分
属于水蚤和甲壳类浮游生物,在实验中用作测试图像.
图 3 浮游生物图像示例
实验步骤如下:
步骤 1 对实验图片进行预处理,包括去噪,增强幅度归
一化(100×100 像素)等,消除物理因素对特征提取的影响.
步骤 2 取 50 幅图片作为训练集,对训练集图片分别做
3 级小波分解和 2 级四叉树分块,提取小波分解后的小波系
数,方差,能量以及分块后各块图像的颜色信息熵,按照式:
1 (1 )ω ω= + ? 2D D D 构造浮游生物图像特征向量.其中, D 为
标准特征向量; 1D , 2D 分别为基于小波分解和颜色信息熵的
特征向量; ω 为权值.
步骤 3 对数据库中的测试图片作同步骤 2 一样的特征向
量提取.
步骤 4 将训练集特征向量与测试集特征向量进行相似
度匹配,使用 K-近邻法进行分类并统计识别率和耗时.
4.2 识别率的比较与分析
经过对大量实验数据的分析,确定实验步骤 2 中 ω =0.6.
下面以一组 10 幅图像为例验证 ω =0.6 的必要性.由图 4 可
以看出,当 ω =0.6 时,识别率是最高的.
识别率(%)
0.5 0.6 0.8 1.0
w
识别率/(%)
90
88
86
84
82
80
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 1.00.9
ω值
图 4 不同 ω 值时的识别率
实验中,K-近邻法分类器的 K 值选择同样对识别结果有
—189—
一定的影响,在浮游生物图像数据库中任选 5 类,每类选择
一张组成一幅图像进行实验,由图 5 可以看出,当 K=3 时,
得到了最好的识别效果.
1 2 3 4 5
识别率%)
84.0
1 2 3 4 5
识别率/(%)
K值
84.5
85.0
83.5
82.5
81.5
83.0
82.0
图 5 不同 K 值时的识别率
本文实验采用如图 3 所示的浮游生物数据库示例图像作
为 2 组测试集,将数据库中每一类浮游生物任取 5 幅图像作
为训练集进行实验.直观上图 3 中第 1 排图像内容简单,颜
色相对单一(从左到右,图像分别用 a1, b1, c1, d1, e1 来表示),
而第 2 排图像内容比较复杂,颜色多样(从左到右,图像分别
用 a2, b2, c2, d2, e2 来表示),在视觉上较之第 1 排具有较难
的区分度.识别结果如表 1 所示,其平均值为 83.7%.
表 1 基于小波分解-信息熵的图像识别率
训练图像序号 识别率/(%) 训练图像序号 识别率/(%)
a1 84.8 a2 82.6
b1 83.6 b2 81.7
c1 86.5 c2 79.8
d1 88.5 d2 80.5
e1 84.2 e2 82.8
在接下来的实验中,本文还分别对传统的基于内容的识
别方法和基于PCA的图像识别方法[6]
进行了仿真.实验结果
如图 6 所示.
80
85
90
95
100
识别率(%)
c1
95
90
85
a1 b1 c1 d1
小波-信息熵
基于PCA
传统基于内容
识别率/(%)
图像序列
e1
100
80
(a)图 3 中第 1 排图像识别率
识别率(%)
基于PCA
d2
小波-信息熵
图 片 编
号图像序列
100
95
90
85
80
75
70
a1a2 b2 c2 d2
识别率/(%)
传统基于内容
e2
(b)图 3 中第 2 排图像识别率
图 6 基于 PCA,传统内容特征,小波分解-颜色信息熵的识别率
由图 6(a)可以看出,在对图 3 中第 1 排图像进行识别时,
基于小波分解和颜色信息熵的算法的识别率和基于 PCA 的
图像识别方法的识别率相差不大,但两者均比传统的基于颜
色,纹理,形状等图像内容的图像识别方法的识别率有明显
的优越性,原因就在于浮游生物图像的纹理,形状特征较难
描述,基于内容特征的识别方法在特征向量的选取上未能尽
述浮游生物图像的特征而导致最后的识别效果不佳.
在图 6(b)中对图 3 中第 2 排图像的识别结果可以看出,
本文提出的识别方法明显优于其他 2 种方法,原因是本组图
像的颜色信息比较丰富,而本文的方法通过基于颜色信息熵
的图像特征提取,考虑了图像颜色的空间分布信息及其信息
量的大小,因此达到了较佳的识别效果.
同时,本文使用熵函数对浮游生物图像的特征向量进行
降维处理,降低了算法的复杂度,提高了识别效率,如图 7
所示.
0 10 20 30 40 50 60 70 80 90
小波-信息熵
基于内容特征
基于PCA
耗时/s
图 7 3 种算法识别耗时
综上,可以得出这样的结论:本文算法的提出是有必要
的,实验结果也验证了其可行性.与传统的基于内容特征的
识别方法和基于 PCA 的识别方法相比,该算法不仅在识别率
方面有一定优势,更重要的是提高了识别效率,并具有良好
的稳定性,体现出了优越的识别性能.
5 结束语
本文针对浮游生物图像的特点,提出了基于小波分解和
颜色信息熵的识别方法.实验表明:与传统的识别方法相比,
本文的算法不仅在识别率方面有一定的优势,而且缩短了识
别时间,提高了识别效率.
特征向量的维数同时影响着识别算法的效率和识别率,
如何在算法的效率和识别率之间寻找一个恰当的平衡点是一
个广泛的难题.后续的研究将陆续展开这方面的探讨,同时
将考虑如何更加客观地确定 K 值,权值 ω 等,使算法的提出
具有更严谨的理论支撑.
参考文献
[1] Jeffries H P, Berman M S, Poularikas A D. Automated Sizing,
Counting and Identification of Zooplankton by Pattern
Recognition[J]. Marine Biology, 1984, 78(3): 329-334.
[2] Chehdi K, Boucher J M, Hillion A. Automatic Classification of
Zooplankton by Image Analysis[C]//Proc. of IEEE International
Conference on Acoustics, Speech, and Signal Processing. Berlin,
Germany: Springer Verlag, 1986: 1477-1480.
[3] Thonnat M, Gandellin M H. Study for the Automatic Recognition of
Zooplankton Organisms with an Expert System[C]//Proc. of
RFIA'97. Antibes, France: [s. n.], 1997: 182-188.
[4] 杨 榕, 张 荣, 孙 松. 基于图像处理技术的浮游生物自动分
类研究[J]. 计算机仿真, 2006, 23(5): 167-170.
[5] Mallat S G. A Theory of Multiresolution Signal Decomposition: The
Wavelet Representation[J]. IEEE Trans. on Paffern. Anal. and
Machine Intell., 1989, 11(4): 674-693.
[6] 王宏漫, 欧宗瑛. 采用PCA/ICA特征和 SVM分类的图像识别[J].
计算机辅助设计与图形学学报, 2003, 15(4): 416-420.