模式识别总结

发布时间：2020-03-02 21:05:18 来源：范文大全收藏本文下载本文手机版

监督学习与非监督学习的区别：

监督学习方法用来对数据实现分类，分类规则通过训练获得。该训练集由带分类号的数据集组成，因此监督学习方法的训练过程是离线的。

非监督学习方法不需要单独的离线训练过程，也没有带分类号（标号）的训练数据集，一般用来对数据集进行分析，如聚类，确定其分布的主分量等。

（实例：道路图）就道路图像的分割而言，监督学习方法则先在训练用图像中获取道路象素与非道路象素集，进行分类器设计，然后用所设计的分类器对道路图像进行分割。

使用非监督学习方法，则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算，以实现道路图像的分割。

1、写出K-均值聚类算法的基本步骤, 算法：

第一步：选K个初始聚类中心，z1(1)，z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个模式样本的向量值作为初始聚类中心。第二步：逐个将需分类的模式样本{x}按最小距离准则分配给K个聚类中心中的某一个zj(1)。假设i=j时，Dj(k)min{xzi(k),i1,2,K}，则xSj(k)，其中k为迭代运算的次序号，第一次迭代k=1，Sj表示第j个聚类，其聚类中心为zj。第三步：计算各个聚类中心的新的向量值，zj(k+1)，j=1,2,…,K zj(k1)1NjxSj(k)x,j1,2,,K 求各聚类域中所包含样本的均值向量：

其中Nj为第j个聚类域Sj中所包含的样本个数。以均值向量作为新的聚类中心，

JjxSj(k)xzj(k1),2j1,2,,K可使如下聚类准则函数最小：

在这一步中要分别计算K个聚类中的样本均值向量，所以称之为K-均值算法。第四步：若zj(k若zj(k 1)zj(k)，j=1,2,…,K，则返回第二步，将模式样本逐个重新分类，重复迭代运算；

1)zj(k)，j=1,2,…,K，则算法收敛，计算结束。

T线性分类器三种最优准则：

wSFisher准则：maxJ(w)wSwFTbwww根据两类样本一般类内密集, 类间分离的特点，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影满足类内尽可能密集，类间尽可能分开。该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大, 它的基本出发点是使期望泛化风险尽可能小。

写出两类和多类情况下最小风险贝叶斯决策判别函数和决策面方程。

什么是特征选择？.什么是Fisher线性判别？

答：1.特征选择就是从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的。

2.Fisher线性判别：可以考虑把d维空间的样本投影到一条直线上，形成一维空间，即把维数压缩到一维，这在数学上容易办到，然而，即使样本在d维空间里形成若干紧凑的互相分得开的集群，如果把它们投影到一条任意的直线上，也可能使得几类样本混在一起而变得无法识别。但是在一般情况下，总可以找到某个方向，使得在这个方向的直线上，样本的投影能分开得最好。问题是如何根据实际情况找到这条最好的、最易于分类的投影线，这就是Fisher算法所要解决的基本问题。

请论述模式识别系统的主要组成部分及其设计流程，并简述各组成部分中常用方法的主要思想。信息获取：通过测量、采样和量化，可以用矩阵或向量表示二维图像或以为波形。预处理：去除噪声，加强有用的信息，并对输入测量仪器或其他因素造成的退化现象进行复原。特征选择和提取：为了有效地实现分类识别，就要对原始数据进行变换，得到最能反映分类本质的特征。分类决策：在特征空间中用统计方法把识别对象归为某一类。

定性说明基于参数方法和非参数方法的概率密度估计有什么区别？

答：基于参数方法：是由已知类别的样本集对总体分布的某些参数进行统计推断非参数方法：已知样本所属类别，但未知总体概率密度函数形式简述支持向量机的基本思想。

答：SVM从线性可分情况下的最优分类面发展而来。最优分类面就是要求分类线不但能将两类正确分开(训练错误率为0)，且使分类间隔最大。SVM考虑寻找一个满足分类要求的超平面，并且使训练集中的点距离分类面尽可能的远，也就是寻找一个分类面使它两侧的空白区域(margin)最大。过两类样本中离分类面最近的点，且平行于最优分类面的超平面上H1，H2的训练样本就叫支持向量。

（1）贝叶斯估计算法思想：准则，求解过程

(A)准则：通过对第i类学习样本X的观察，使概率密度分布P(X/θ)转化为后验概率P(θ/X) ，再求贝叶斯估计；

(B)求解过程： ① 确定θ的先验分布P(θ),待估参数为随机变量。

② 用第i类样本x=(x1, x2,….xN)求出样本的联合概率密度分布P(x|θ)，它是θ的函数。

P(|X) ③ 利用贝叶斯公式,求θ的后验概率

iP(Xi|).P()

P(Xi|)P()d ④ 求贝叶斯估计P(|Xi)d

2、模式识别系统的基本构成单元包括：模式采集、特征提取与选择和模式分类。

3、统计模式识别中描述模式的方法一般使用特真矢量；句法模式识别中模式描述方法一般有串、

树、网。

4、聚类分析算法属于无监督分类

；判别域代数界面方程法属于统计模式识别方法。

5、若描述模式的特征量为0-1二值特征量，则一般采用匹配测度进行相似性度量。



6、下列函数可以作为聚类分析中的准则函数的有

、、、、、、

7、Fisher线性判别函数的求解过程是将N维特征矢量投影在一维空间中进行。

8、下列判别域界面方程法中只适用于线性可分情况的算法有感知器算法；线性可分、不可分都适用的有

积累位势函数法。

9、影响层次聚类算法结果的主要因素有（计算模式距离的测度、（聚类准则、类间距离门限、预定的类别数目））。

10、欧式距离具有（平移不变性、旋转不变性）；马式距离具有（平移不变性、旋转不变性尺度缩放不变性、不受量纲影响的特性）。

11、线性判别函数的正负和数值大小的几何意义是（正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。）

12、积累势函数法较之于H-K算法的优点是（该方法可用于非线性可分情况（也可用于线性可分情况）

K(x)位势函数K(x,xk)与积累位势函数K(x)的

~xkXkK(x,xk)



13、在统计模式分类问题中，聂曼-皮尔逊判决准则主要用于（某一种判决错误较另一种判决错误更为重要）情况；最小最大判决准则主要用于（先验概率未知的）情况。

14、特征选择的主要目的是（从n个特征中选出最有利于分类的的m个特征（m>n ）的条件下，可以使用分支定界法以减少计

m算量。

15、散度Jij越大，说明i类模式与j类模式的分布（差别越大）；当i类模式与j类模式的分布相同时，Jij=（0）。

16、影响聚类算法结果的主要因素有（②分类准则 ③特征选取 ④模式相似性测度。）。

19、模式识别中，马式距离较之于欧式距离的优点是（③尺度不变性 ④考虑了模式的分布）。 20、基于二次准则函数的H-K算法较之于感知器算法的优点是（①可以判别问题是否线性可分 ③其解的适应性更好）。

21、影响基本C均值算法的主要因素有（④初始类心的选取 ①样本输入顺序 ②模式相似性测度）。

22、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的（②后验概率 ④类概率密度与先验概率的乘积）。

23、统计模式分类问题中，当先验概率未知时，可使用（②最小最大损失准则 ④N-P判决）

24、在（①Cn>>n,（n为原特征个数，d为要选出的特征个数）③选用的可分性判据J对特征数目单调不减）情况下，用分支定界法做特征选择计算量相对较少。

25、散度JD是根据（③类概率密度）构造的可分性判据。

26、似然函数的概型已知且为单峰，则可用（①矩估计②最大似然估计③Bayes估计 ④Bayes学习⑤Parzen窗法）估计该似然函数。

27、Kn近邻元法较之Parzen窗法的优点是（②稳定性较好）。

28、从分类的角度讲，用DKLT做特征提取主要利用了DKLT的性质：（①变换产生的新分量正交或不相关③使变换后的矢量能量更趋集中）。

29、一般，剪辑k-NN最近邻方法在（①样本数较大）的情况下效果较好。 d

29、如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有（②分类准则 ③特征选取）。 30、假设在某个地区细胞识别中正常（w1）和异常（w2）两类先验概率分别为 P(w1)=0.9，P(w2)=0.1，现有一待识别的细胞，其观察值为x，从类条件概率密度分布曲线上查得P(xw1)0.2，P(xw2)0.4，并且已知110，126，211，220

试对该细胞x用一下两种方法进行分类： 1.基于最小错误率的贝叶斯决策； 2.基于最小风险的贝叶斯决策；请分析两种结果的异同及原因。

将本文的Word文档下载到电脑，方便编辑。

推荐度：

点击下载文档