上海网站建设
 
   首 页| 网站知识 | 域名注册 | 虚拟主机 | 数据库 | 企业邮局 | 网站建设 | 经典案例 | 网站推广 | 联系我们 |
 
  .com    .net 
  .cc     .org 
  .info   .biz 
  .cn       .com.cn
  .net.cn   .org.cn 
 
网站建设
网站建设
 
上海艾尚雪服装有限公司
  上海全拥家具有限公司
上海格润家具有限公司
上海浩酷礼品有限公司
  上海轩德纺织品有限公司
上海帝梵汽车销售有限公司
上海庆诺国际贸易有限公司
上海盛姿纺织有限公司
上海美柏塑胶有限公司
  上海晓晨国际快地有限公司
上海梓山玻璃钢有限公司
上海捷豹快递有限公司
  上海东方婚纱礼服有限公司
   
上海淘鑫依托自身多年的网站建设
、开发经验,为企业内部、企业与
其外部之间搭建良好的信息沟通桥
梁,上海淘鑫通过专业的项目实施流
程为您提供优质的服务,我们的项
目实施和管理流程可以最大限度地
控制整个项目进度、确保项目质量
和保障客户的权益。
齐宁:搜索引擎知识 网页查重技术
发布时间:2008-4-21 作者:上海网站建设公司

  对于搜索引擎来说,重复的网页内容是非常有害的。重复网页的存在意味着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制作中可能会在索引库里索引两份相同的网页。当有人查询时,在搜索结果中就会出现重复的网页链接。所以无论是从搜索体验还是系统效率检索质量来说这些重负网页都是有害处的。

  网页查重技术起源于复制检测技术,即判断一个文件内容是否存在抄袭、复制另外一个或多个文件的技术。

  1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年Stanford大学的Brin(Sergey Brin,Google创始人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995]。之后这种检测重复技术被应用到搜索引擎中,基本的核心技术既比较相似。

  网页和简单的文档不同,网页的特殊属性具有内容和格式等标记,因此在内容和格式上的相同相似构成了4种网页相似的类型。wap网站制作
1、两个页面内容格式完全相同。
2、两个页面内容相同,但格式不同。wap网站设计
3、两个页面部分内容相同并且格式相同。
4、两个页面部分重要相同但格式不同。 wap网站建设

实现方法:

网页查重,首先将网页整理成为一个具有标题和正文的文档,来方便查重。所以网页查重又叫“文档查重”。“文档查重”一般被分为三个步骤,一、特征抽取。二、相似度计算和评价。三、消重。

1.特征抽取
我们在判断相似物的时候,一般是才能用不变的特征进行对比,文件查重第一步也是进行特征抽取。也就是将文档内容分解,由若干组成文档的特征集合表示,这一步是为了方面后面的特征比较计算相似度。上海网站推广公司
特征抽取有很多方法,我们这里主要说两种比较经典的算法,“I-Match算法”、“Shingle算法”。
“I-Match算法”是不依赖于完全的信息分析,而是使用数据集合的统计特征来抽取文档的主要特征,将非主要特征抛弃。上海网站开发公司
“Shingle算法”通过抽取多个特征词汇,比较两个特征集合的相似程度实现文档查重。

2.相似度计算和评价
特征抽取完毕后,就需要进行特征对比,因网页查重第二步就是相似度计算和评价。
I-Match算法的特征只有一个,当输入一篇文档,根据词汇的IDF值(逆文本频率指数,Inverse document frequency缩写为IDF)过滤出一些关键特征,即一篇文章中特别高和特别低频的词汇往往不能反应这篇文章的本质。因此通过文档中去掉高频和低频词汇,并且计算出这篇文档的唯一的Hash值(Hash简单的说就是把数据值映射为地址。把数据值作为输入,经计算后即可得到地址值。),那些Hash值相同的文档就是重复的。 上海网站设计公司

Shingle算法是抽取多个特征进行比较,所以处理起来比较复杂一些,比较的方法是完全一致的Shingle个数。然后除以两个文档的Shingle总数减去一致的Shingle个数,这种方法计算出的数值为“Jaccard 系数”,它可以判断集合的相似度。Jaccard 系数的计算方法集合的交集除以集合的并集。 网站建设公司

3.消重
   对于删除重复内容,搜索引擎考虑到众多收录因素,所以使用了最简单的最实用的方法。先被爬虫抓取的页面同时很大程度也保证了优先保留原创网页。 上海网站建设公司

   网页查重工作是系统中不可缺少的,删除了重复的页面,所以搜索引擎的其他环节也会减少很多不必要的麻烦,节省了索引存储空间、减少了查询成本、提高了PageRank计算效率。方便了搜索引擎用户。 上海网站建设

 


上一篇: 跳出常规网站推广模式 时刻准备飙升流量 下一篇: Google去年调整搜索算法450次

版权所有:上海淘鑫网络科技有限公司 ( http://www.txidc.com/)2004-2008 All Rights Reserved