向量空间模型

来源:百度文库 编辑:神马文学网 时间:2024/06/30 21:40:27

向量空间模型

维基百科,自由的百科全书

跳转到: 导航, 搜索

向量空间模型 (或 词组向量模型) 是一个应用于资讯过滤, 资讯撷取l, 索引 以及评估相关性的代数模型。 SMART是首个使用这个模型的资讯检索系统。

文件(语料)被视为索引词(关键字)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。

搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。

实务上,计算夹角向量之间的余弦比直接计算夹角容易:

余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。

目录

[隐藏]
  • 1 范例
  • 2 向量空间的假设及限制
  • 3 向量空间模型的扩充
  • 4 进阶阅读
  • 5 参见

[编辑] 范例

由Salton,Wong and Yang提出的古典的向量空间模型,一个词组在文件向量中的权重,为区域和全域参数的乘积。即所谓的TF-IDF (词频-逆向文件频率 ),文件 d 的权重向量为 ,其中

并且

  • tft 是词组"t"的在文件"d"出现的次数(区域参数)
  • 是反文件频(全域参数)。 | D | 是文件的总数; 是含有词组"t" 的文件数。

在比较简单的词组计数模式中,词组的权重并没有考虑到全区参数。只是单纯地计算词组出现的次数:wt,d = tft

[编辑] 向量空间的假设及限制

向量空间有以下的限制:

  1. 不适合处理过长的文件,因为近似值不理想(过小的标量积以及过高的次元)。
  2. 检索词组必须要完全符合文件中出现的词组;不完整词组(子字串)会会生false positive。
  3. 语言敏感度不佳;情境相同但使用不同语汇的文件无法被关连起来,这产生所谓的false negative 。

[编辑] 向量空间模型的扩充

  • 一般化向量空间模型
  • 基于主题的向量空间模型

[编辑] 进阶阅读

  • G. Salton, A. Wong, and C. S. Yang (1975), "[http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-

salton.pdf A Vector Space Model for Automatic Indexing]," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (The article

in which the vector space model was first presented)

  • Description of the vector space model
  • Description of the topic-based vector space model
  • [http://www.miislita.com/term-vector/term-vector-3.html Description of the classic vector space model by Dr E Garcia, a noted authority

in IR, SEO and SEM vector theories - also known as the Mi Islita website]

[编辑] 参见

  • 反向索引
  • 全文检索
取自"http://zh.wikipedia.org/w/index.php?title=%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B&variant=zh-cn"