向量空间模型
来源:百度文库 编辑:神马文学网 时间:2024/06/30 21:40:27
向量空间模型
维基百科,自由的百科全书
跳转到: 导航, 搜索向量空间模型 (或 词组向量模型) 是一个应用于资讯过滤, 资讯撷取l, 索引 以及评估相关性的代数模型。 SMART是首个使用这个模型的资讯检索系统。
文件(语料)被视为索引词(关键字)形成的多次元向量空间, 索引词的集合通常为文件中至少出现过一次的词组。
搜寻时,输入的检索词也被转换成类似于文件的向量,这个模型假设,文件和搜寻词的相关程度,可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。
实务上,计算夹角向量之间的余弦比直接计算夹角容易:
余弦为零表示检索词向量垂直于文件向量,即没有符合,也就是说该文件不含此检索词。
目录
[隐藏]- 1 范例
- 2 向量空间的假设及限制
- 3 向量空间模型的扩充
- 4 进阶阅读
- 5 参见
[编辑] 范例
由Salton,Wong and Yang提出的古典的向量空间模型,一个词组在文件向量中的权重,为区域和全域参数的乘积。即所谓的TF-IDF (词频-逆向文件频率 ),文件 d 的权重向量为 ,其中
并且
- tft 是词组"t"的在文件"d"出现的次数(区域参数)
是反文件频(全域参数)。 | D | 是文件的总数;
是含有词组"t" 的文件数。
在比较简单的词组计数模式中,词组的权重并没有考虑到全区参数。只是单纯地计算词组出现的次数:wt,d = tft。
[编辑] 向量空间的假设及限制
向量空间有以下的限制:
- 不适合处理过长的文件,因为近似值不理想(过小的标量积以及过高的次元)。
- 检索词组必须要完全符合文件中出现的词组;不完整词组(子字串)会会生false positive。
- 语言敏感度不佳;情境相同但使用不同语汇的文件无法被关连起来,这产生所谓的false negative 。
[编辑] 向量空间模型的扩充
- 一般化向量空间模型
- 基于主题的向量空间模型
[编辑] 进阶阅读
- G. Salton, A. Wong, and C. S. Yang (1975), "[http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-
salton.pdf A Vector Space Model for Automatic Indexing]," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (The article
in which the vector space model was first presented)
- Description of the vector space model
- Description of the topic-based vector space model
- [http://www.miislita.com/term-vector/term-vector-3.html Description of the classic vector space model by Dr E Garcia, a noted authority
in IR, SEO and SEM vector theories - also known as the Mi Islita website]
[编辑] 参见
- 反向索引
- 全文检索