向量空间模型

来源：百度文库编辑：神马文学网时间：2024/06/30 21:40:27

跳转到: 导航, 搜索

向量空间模型 (或 词组向量模型) 是一个应用于资讯过滤, 资讯撷取l, 索引以及评估相关性的代数模型。 SMART是首个使用这个模型的资讯检索系统。

文件(语料)被视为索引词(关键字)形成的多次元向量空间，索引词的集合通常为文件中至少出现过一次的词组。

搜寻时，输入的检索词也被转换成类似于文件的向量，这个模型假设，文件和搜寻词的相关程度，可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。

实务上，计算夹角向量之间的余弦比直接计算夹角容易：

余弦为零表示检索词向量垂直于文件向量，即没有符合，也就是说该文件不含此检索词。

[编辑] 范例

由Salton，Wong and Yang提出的古典的向量空间模型，一个词组在文件向量中的权重，为区域和全域参数的乘积。即所谓的TF-IDF (词频-逆向文件频率 )，文件 d 的权重向量为，其中

并且

在比较简单的词组计数模式中，词组的权重并没有考虑到全区参数。只是单纯地计算词组出现的次数：w_t,d = tf_t。

向量空间有以下的限制：

G. Salton, A. Wong, and C. S. Yang (1975), "[http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-

salton.pdf A Vector Space Model for Automatic Indexing]," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (The article

in which the vector space model was first presented)

Description of the vector space model
Description of the topic-based vector space model
[http://www.miislita.com/term-vector/term-vector-3.html Description of the classic vector space model by Dr E Garcia, a noted authority

in IR, SEO and SEM vector theories - also known as the Mi Islita website]

取自"http://zh.wikipedia.org/w/index.php?title=%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B&variant=zh-cn"

向量空间模型向量空间模型 - 维基百科，自由的百科全书坡印廷向量向量夹角法支持向量机及其应用1 支持向量机及其应用2 科学家向量子计算机迈进一大步复数的向量表示--免费教案复数的向量表示--教学设计转贴：向量相似度的计算和向量夹角余旋的关系转贴：向量相似度的计算和向量夹角余旋的关系 - jaddy0302 股市20家最具想象空间公司+产业链金字塔四维模型100新竞争力公司诞生（名单）范式模型角色模型八步选股模型心智模型学校模型领域模型领域模型模型123 语言模型模型123 模型123 DMAIC模型模型123