• SEO是一个到底多么牛叉的行业?SEO是一个到底多么牛叉的行业?
  • 郑州SEO郑州seo
  • 郑州SEO你只看到了别人的成功,却看不到别人默默的
  • 郑州SEOSEO切莫浪费时间在不必要的问题上
  • 1
  • 2
  • 3
  • 4

搜索引擎超链分析

时间:2012-6-6 作者:问候seo

      超链分析是一种引用投票机制,对于静态网页或者网站主页,网站推广它具有一定的合理性, 因为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果 可以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。 搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引 数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索 关键词的相关度高低,依次排列。 
      搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之间的关联程度以及一个站点在整个网络上的关联程度来确定的。
      使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链接的 URL、AnchorText,百度排名优化,甚至链接周围的文字。所以,有时候,即使某个网页 A 中并没有某个词,比如“软件”,但如果有别的网页 B 用链接“软件”指向这个网页 A,那么用户搜索“软件”时也能找到网页 A。而且,如果有越多网页(C、D、E、F……)用名为“软件”的链接指向这个网页 A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页 A 在用户搜索“超链分析”时也会被认为相关度越高,排序也会越靠前。    
       专门用于检索信息的 Robot 程序像蜘蛛一样在网络间爬来爬去,网站推广利用能够从互联网上自动收集网页的 Spider 系统程序, 自动访问互联网,并沿着任何网页中的所有 URL 爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
随着互联网的迅速发展,检索所有新出现的网页变得越来越困难。因此,在 Wan-derer 基础上,一些编程者将传统的 Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。
      搜索引擎 Spider 一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,
      排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几千万至几十亿的网页索引, 网络推广数据量达到几千 G 甚至几万 G。但即使最大的搜索引擎建立超过 20 亿网页的索引数据库, 也占不到互联网上普通网页的 30%,不同搜索引擎之间的网页数据重叠率一般在 70%以下。人们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的网页。而互联网上有更大量的网页,是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的。 
      使用超链分析的搜索引擎未能收录的网页有:Spider 未能正确处理的网页性质及文件 类型(如 Flash、script、JS,某些动态网页及 Frame、数据库);没有主动登录搜索引擎 而且有指向链接的孤岛网页;Spider 访问时因为某些原因正好是死链接的网页;被认为 是劣质页而不抓;因为色情、反动、spam 等问题而不抓的非法网页;需要输入用户名、 密码方可打开的网页;网站用 robots 协议拒绝搜索引擎抓取的网页;搜索引擎还未来得及 抓取的新网页;go-pher、newsgroups、Telnet、np、wais 等非 http 信息的网页。 任何地址中带“?”和“&”号(及其他类似符号)的网页都会被“蜘蛛”程序挡在门外。
        这些网页通常由 CGL、PHP、ASP 等程序产生,技术上较先进,但不适合搜索引擎的“蜘 蛛”程序。虽然目前有的大型搜索引擎(如 Google)已具备检索动态网页的能力,网络营销但相当 一部分引擎还是不支持它的。而且即使是能够索引动态网页的 Google,也在多个场合中明 确表示不保证检索全部的动态网页。超链分析技术已为世界各大搜索引擎普遍采用,在我国使用该项技术的搜索引擎有: 百度搜索引擎使用了高性能的“网络蜘蛛”程序自动在互联网中 搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互 联网信息。

声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:1448228637@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。