首 页 网络编程
网页制作 图形图象 操作系统 冲浪宝典
软件教学 认证考试

网络安全 网络办公 行业资讯 评测对比
您当前位置:站长天空 -> 图形图象-> 相关软件
google的搜索结果排列算法_google推广
作者:网友供稿 点击:0
推荐
西部数码-全国虚拟主机10强!20余项虚拟主机管理功能,全国领先!第6代双线路虚拟主机,南北访问畅通无阻!可在线rar解压,自动数据恢复设置虚拟目录等.免费赠送访问统计,企业邮局.Cn域名注册10元/年,自助建站480元起,免费试用7天,满意再付款!P4主机租用799元/月.月付免压金
站内搜索
文章页数:[1] 

本文作者马特-卡兹(Matt Cutts)是Google公司品质管理部门的软件工程师。他的工作主要是给好的网站评定等级,并负责开发阻止虚假或垃圾网站出现在Google搜索结果上的技术。

图书馆管理员们提出最多的问题之一是:“对于什么样的结果应该位于搜索列表的最上方, Google是如何选择的?”现在品质工程师马特-卡兹介绍了快速入门的知识,解释了Google是如何在网上爬行和索引,以及如何评定搜索结果等级的。马特也向学校图书馆管理员提出建议,告诉他们如何辅导学生。中国建站之家

爬行和索引

在你浏览包含了Google搜索结果的网页之前,要发生很多事情。首先是在万维网数以十亿计的网页上爬行和索引,这个工作是由Googlebot完成的,它负责与全球的网络服务器连接以收集文件。爬行不是真的在网上漫游,而是访问网络服务器返回到一个特定的网页上,接着扫描该网页建立超链接并为每一个网页编上号码。爬行可收集大量的文件,但这些文件还不能直接用于搜索。

如果没有索引,在你想查询如“civil war”(南北战争)等内容时,Google的服务器将不得不在你每次搜索时阅读每一份文件的内容。因此第二个步骤是要建立一个索引,这样就需要“转换” 爬行所获得的数据。为了不必在每一份文件上扫描每一个单词,就需要在数据上做些文章,以便显示包含了特定单词的所有文件。例如,假设单词“civil”在编号为3、8、22、56、68和92的文件上出现过,而单词“war”出现编号为2、8、15、22、68和77的文件上。中国建站之家

一旦建立了索引,就开始对文件进行等级评定并确定它们的相关性。假如某个人上Google搜索并输入“civil war”,为呈现和评价搜索结果需要做两件事:一是查找包含了用户提问的网页;二是按照相关性排定匹配网页的位置。Google已经开发出一个有趣的技术可加速第一步骤的过程:不是将所有索引存储在一台电脑上,而是使用数百台电脑做这种工作。由于任务被分配到很多电脑上,使得查询答案更为迅速。

为更加形象地描述这个过程,可以设想下一本30页厚书的索引。如果一个人在索引中查找数页的信息,那么每一次搜索都至少需要花几秒钟的时间;但如果你将索引的每一页分给不同的人去查找呢?三十个人分别查找索引的不同部分,要比一个人独自查找快的多。同样,Google也是将数据分配到各台电脑上以便可以更快地查找文件。中国建站之家

如何查找包含了用户提问的网页?让我们返回到上面举的“civil war”例子。单词“civil”在编号为3、8、22、56、68和92的文件上,单词“war”在编号为2、8、15、22、68和77的文件上,我们可以在网页上显示文件并寻找包含两个单词的文件(从下表中可以看出是8、22和68号文件)。

单词civil 3 8 22 56 68 92

单词war 2 8 15 22 68 77

两个单词都出现 8 22 68

包含了一个单词的文件列表被称为“文件标识列表”,查找包含两个单词的文件被称为“文件标识列表的交集”。

评定搜索结果

有了包含用户提问的网页后,就该按照相关性评定网页了。Google使用了很多技术,其中 PageRank算法是最有名的。PageRank评定的是两种事情:从网站到某一网页有多少个链接,提供链接的网站的排名。使用PageRank,来自 CNN和纽约时报网站的链接的价值,是很多不太有名网站的两倍。

除了PageRank外Google还使用了很多其他技术,例如一份文件所包含的 “civil”和“war”两个单词靠的很近,就比只使用了“war”单词的包含“Revolutionary War”(独立战争)的文件相关性要大的多。另外在题目中出现了“civil war”的网页,它的相关性就比题目为“19th Century American Clothing”(19世纪的美国服装)要重要的多。同样如果“civil war”在网页上出现了数次,比出现一次的网页要相关的多。中国建站之家

Google的目的是要找到知名度和相关性都大的网页。如果两个网页出现匹配提问的信息数量几乎一样,我们常常会选择更有名网站的链接。但如果其他方面表明一个网页更为相关,也会选择更少链接或更低排名的网页。例如,一个网页全篇都是讲“南北战争”的内容,会比只是略微提到“南北战争”的网页更为有用,即使这个网页是出现不太有名的网站上。一旦我们有了文件的列表和分值,就会选择最高分值、最匹配的文件。

Google从包含了提问单词的每一份文件中提取几句话作为摘要显示,接着将排好的URLs和摘要显示在搜索结果上。正如你所知道的运行一个搜索器需要大量的计算资源。每一次搜索需要500台以上的电脑一起工作,搜索的时间还不到半秒钟。


文章整理:站长天空 网址:http://www.z6688.com/
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!

文章页数:[1] 


放大字体显示 缩小字体显示 打印文章 推荐给朋友
热门文章
·使用C#在进度条中显示复制文件的进度-.NET教程,C#语言
·JAVASCRIPT调用JAVA-JSP教程,Java技巧及代码
·Java开源项目Hibernate包作用详解-JSP教程,Java技巧及代码
·新型单相逆变电源的研制
·解读Windows 2000/XP分层驱动模型-.NET教程,Windows开发
·NET中打印包含有格式的 RichTextBox 的内容-.NET教程,Asp.Net开发
·java用于链接数据库的例子(*.properties)-JSP教程,资料/其它
·cable modem及其系统的配置和使用
·asp.net 1.1/ 2.0 中快速实现单点登陆-.NET教程,Asp.Net开发
·持续集成 Java手册-JSP教程,Java技巧及代码
最新文章
·像我一样的菜鸟站长常犯的几种错误_站长心得
·网友开博客真的能赚钱吗?_网赚技巧
·google广告代码可以放到几个网站吗?_网赚技巧
·论坛如何最佳化?adsense最佳化案例_网赚技巧
·姚劲波:站长要用开放平和的心态去坚持_站长访谈
·章征军和他的站长网_站长访谈
·建自己想建的站坚持下去 就是最好的seo_站长心得
·autocad 2008的service pack 1测试版发布_autocad教程
·网站的定位在于选题(后半部分参考市场报)_站长心得
·互联网赚钱的几种基本模式_站长心得
相关主题
  • google工具条要跟pagerank说再见?_google推广
  • google补充材料没消失,内链优化很重要_seo网站优化
  • google adsense for content新的广告样式_google推广
  • google也推出域名注册_google推广
  • google adsense 2007巡讲大会郑州站总结_网赚技巧
  • 西部数码虚拟主机

    友情链接
    CNNIC 西部数码
    万网 自助建站
    虚拟主机 asp空间
    域名注册 域名
    域名申请 主页空间
    论坛空间 网站空间
    国际域名 虚拟空间
    空间租用 DDOS防火墙
    成都主机托管 四川主机托管
    主机租用 服务器租用
    网站目录 自助建站
    虚拟主机 网址大全
    软件下载
    自助链接
    虚拟主机资讯 特价虚拟主机
    版权申明:本站文章均来自网络,如有侵权,请联系我们,我们收到后立即删除,谢谢!
    关于我们:站长天空:专业提供最新的站长资讯、在线教程、虚拟主机权威评测、虚拟主机性能对比、网站制作教程,开发教程,站长工具。包括网页制作教程、冲浪宝典、编程参考、操作系统、软件教学、行业动态等。
    特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有。
    发表评论 打印  刷新     关闭