• SEO是一个到底多么牛叉的行业?SEO是一个到底多么牛叉的行业?
  • 郑州SEO郑州seo
  • 郑州SEO你只看到了别人的成功,却看不到别人默默的
  • 郑州SEOSEO切莫浪费时间在不必要的问题上
  • 1
  • 2
  • 3
  • 4

技术篇-信息检索与排序模型之布尔模型

时间:2012-12-28 作者:问候seo

在学习布尔模型之前首先让我们了解一下模型的基本概念为后面的学习奠定基础。模型是采用数学工具对现实世界某种事物或某种运动的抽象描述,面对相同的输入,模型输出应能够无限地逼近现实世界的输出(如:天气预报模型)。 信息检索模型就是表示文档与用户查询以及查询与文档的关系框架。下图是常用的信息检索模型以及所支撑其的相关数学背景。

布尔模型描述:

  1. 文档(用D表示)—— 一个文档被表示为关键字的集合;
  2. 查询式(用Q表示)—— 用于表示用户查询的关键词的布尔组合,并用“与(And)、或(or)、非(Not)”链接起来,且用括号知名优先次序;

举例
下面有2个文档:

  1. 文档1:a b c f g h;
  2. 文档2:a f b x y z;

用户想找出出现a或者b但一定要出现z的文档。当然我们仔细一看,结果显而易见是文档2符合用户的需求。但是对于计算机布尔排序模型它是怎么实现的呢 ?

  1. 将查询表示为布尔表达式Q=(a∨b) ∧z,并转换成析取范式qDNF=(1, 0,1) ∨(0,1,1) ∨(1,1,1);
  2. 文档1和文档2的三元组对应值分别为(1,1,0)和(1,1,1);
  3. 经过匹配,将文档2返回;

布尔模型的优点:

  1. 通过使用复杂的布尔表达式,可以很方便地控制查询结果,经过某种训练的用户可以容易地写出布尔查询表达式;
  2. 相当有效的实现方法,相当于识别包含了一个某个特定term的文档式;

布尔模型问题:

  1. 不支持部分匹配,而完全匹配会导致太多或者太少的,非常刚性: ―与”意味着全部; ―或”意味着任何一个;
  2. 很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回;
  3. 很难对输出进行排序;
  4. 如果一篇文档被用户确认为相关或者不相怎样,相应地修改查询式呢;

文章由郑州seo整理,转载请注明:http://www.leiju88.com

声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:1448228637@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。