2.2 ＶＣ维 - 51CTO.COM

来源：百度文库编辑：神马文学网时间：2024/06/13 01:13:01

2.2 ＶＣ维

http://book.51cto.com 2009-06-21 12:37 范明/昝红英/牛常勇译机械工业出版社我要评论(0)

摘要：《机器学习导论》第２章监督学习，本章从最简单的情况开始讨论监督学习，首先从正例和负例集合中学习类别，继而推广并讨论多类的情况，然后再讨论输出为连续值的回归。本节为大家介绍ＶＣ维。
标签：机器学习机器学习导论
限时报名参加“甲骨文全球大会·2010·北京”及“JavaOne和甲骨文开发者大会2010”

2.2 ＶＣ维

假定我们有一个数据集，包含Ｎ个点。这Ｎ个点可以用种方法标记为正例和负例。因此，Ｎ个数据点可以定义种不同的学习问题。如果对于这些问题中的任何一个，我们都能够找到一个假设ｈ∈将正例和负例分开，那么我们就称散列（ｓｈａｔｔｅｒ）Ｎ个点。也就是说，可以用Ｎ个点定义的任何的学习问题都能够用一个从中抽取的假设无误差地学习。可以被散列的点的最大数量称为的ＶＣ维（ＶａｐｎｉｋＣｈｅｒｖｏｎｅｎｋｉｓｄｉｍｅｎｓｉｏｎ），记为ＶＣ（），它度量假设类的学习能力（ｃａｐａｃｉｔｙ）。

在图２５中，我们可以看到，轴平行的矩形能够散列二维空间的４个点。因此，当为二维空间中轴平行的矩形的假设类时，ＶＣ（）等于４。在计算ＶＣ维时，能找到４个被散列的点就够了；没有必要去散列二维空间中任意４个点。例如，位于同一直线上的４个点不能被矩形散列。然而，我们无法在二维空间的任何位置设置５个点，使得对于所有可能的标记，一个矩形能够分开正例和负例。

（点击查看大图）图２-５　轴平行的矩形能够散
列４个点，其中只显示了覆盖两个点的矩形　

也许ＶＣ维看起来比较悲观，它告诉我们使用矩形作为假设类，我们只能学习包括４个点的数据集。能够学习含有４个点的数据集的学习算法不是很有用。然而，这是因为ＶＣ维独立于数据实例的概率分布。在实际生活中，世界是平滑变化的，在大多数时间相近的实例具有相同的标记，我们并不需要担心所有可能的标记。有很多包含远不止４个点的数据集都可以通过我们的假设类来学习（参见图２-１）。因此，即便是具有较小ＶＣ维的假设类也是有应用价值的，并且比那些较大的ＶＣ维（例如，具有无穷ＶＣ维的查找表）更可取。

2.2 ＶＣ维 - 51CTO.COM C#调用VC DLL接口函数参数类型转换方法介绍 - 51CTO.COM 802.11标准 - 51CTO.COM 编写质量手册(2) - 51CTO.COM 软件工程师的务实职业生涯规划 - 51CTO.COM 布线：什么是PDS？ - 51CTO.COM 使用Jython编写Servlet - 51CTO.COM 详解Cassandra数据模型 - 51CTO.COM 13.3.2 程序设计 - 51CTO.COM 关于C#知识点总结 - 51CTO.COM XML节点学习总结 - 51CTO.COM 详解C# MessageBox用法 - 51CTO.COM C#正则表达式经验总结 - 51CTO.COM 网络管理经验谈 - 51CTO.COM 2.4 Servlet生命周期 - 51CTO.COM 10.1.1 一些基本概念 - 51CTO.COM 7.3 负载均衡技术 - 51CTO.COM C# COM组件开发之界面窗体 - 51CTO.COM Android 2.2开发初学者快速入门十一大秘技(1) - 51CTO.COM 浅析大型网站的架构 - 51CTO.COM MySQL+PHP乱码原理与解决 - 51CTO.COM 30岁软件工程师的迷茫和悲哀 - 51CTO.COM 职业生涯30年划分六大阶段 - 51CTO.COM Oracle与SQL Server事务处理的比较 - 51CTO.COM