Google搜索

Google搜索

Google搜索

搜索引擎是一种利用一定的策略,运用特定的计算机程序(如“蜘蛛”Spider)从互联网上搜索信息,在对信息进行组织和处理后,为用户提供检索信息服务,并将搜索到的信息展示给用户的一种系统工具。目前主流的搜索引擎是帮助用户搜索表层信息,如谷歌(google),百度(baidu),雅虎(yahoo)等。

搜索引擎的工作原理有大致有三步。

第一步是搜集信息。搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超链结,机器人便可以遍历绝大部分网页。

第二步是整理信息。搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。

第三步是接受查询。用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。

下面我们介绍一下Google搜索。Google的使命是整合全球信息,使人人皆可访问并从中受益。Google被公认为全球最大的搜索引擎,也是互联网上5大最受欢迎的网站之一,在全球范围内拥有无数的用户。Google允许以多种语言进行搜索,在操作界面中提供多达30余种语言选择。除此之外,谷歌还多次入围,《财富》历年100家最佳雇主榜单,并荣获2013年“最佳雇主”。Google做事的行为准则是拒绝邪恶的事物(Noevil),他们的站点时常包括富有幽默感的特征,如他们的图标有选择的在特定时机内风趣的变化。

Google创建于1998年9月,创始人为LarryPage和SergeyBrin。他们开发的搜索引擎屡获殊荣,是一个用来在互联网上搜索信息的简单快捷的工具。Google取自数学术语googol,意思是一个1后面有100个0。Google搜索技术所依托的软件可以同时进行一系列的运算,且只需片刻即可完成所有运算。而传统的搜索引擎在很大程度上取决于文字在网页上出现的频率。Google是全球最大的并且最受欢迎的搜索引擎,主要的搜索服务有:网页,图片,音乐,视频,地图,新闻,问答。Google已将大量先前的测试服务整合为搜索功能的一部分(如Google计算器)。在Google中搜索whatistheanswertolifetheuniverseandeverything?(什么是生命,宇宙以及所有一切事物的答案?)将会得到智能化的搜索结果42。(这是著名科幻小说《银河系漫游指南》的情节,被释义为是人工智能达到一定高度的表现,即机器能释读人类的语言。)

Google使用PageRank技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。

在综合考虑整体重要性以及与特定查询的相关性之后,Google可以将最相关最可靠的搜索结果放在首位。

PageRank技术:通过对由超过50000万个变量和20亿个词汇组成的方程进行计算,PageRank能够对网页的重要性做出客观的评价。PageRank并不计算直接链接的数量,而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样,PageRank会根据网页B所收到的投票数量来评估该页的重要性。

此外,PageRank还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的PageRank(网页排名)较高,从而显示在搜索结果的顶部。Google技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预或操纵,这也是为什么Google会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。

超文本匹配分析:Google的搜索引擎同时也分析网页内容。然而,Google的技术并不采用单纯扫描基于网页的文本(网站发布商可以通过元标记控制这类文本)的方式,而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素。Google同时还会分析相邻网页的内容,以确保返回与用户查询最相关的结果。

六种谷歌中国版检索方法

(1)OR检索

Google有一个重要的默认规则,称为默认AND规则。即当输入多个检索词时,默认为你想查找包含全部检索词的网页。如果想检索到包含其中任何一个词的网页而不是必须全部包括时,用“OR检索”就显的比较方便。比如用wentawayORgoawayORfadeaway作为关键词,将会返回包含这三个词中任何一个词的网页。

所谓“OR检索”而不是“or检索”是因为在Google中,“OR”是运算符,而“or”则被看作是普通的检索词。可见运算符是区分大小写的。

(2)运算符‘-’检索

这个运算符表示不包含该运算符后面的词。这种检索方法应用不当比较容易失效,要排除的检索词的前面应用此运算符必须不留空格,而最重要的是,这个运算符与不需要排除的关键词之间必须有空格,而且这种规则不仅适用于对英文的检索,而且适用于对中文的检索。比如若关键词为clock,但是要排除alarm和radio,则关键词应该写为clock–alarm–radio,应该要注意的是空格的位置。在对这种检索方法的考察中,笔者发现:如果alarm和radio前面的运算符之间没有空格的话,则这种检索方法失效。将关键词写成-radio–alarmclock和clock–alarm–radio的效果相同。对中文的检索比如关键词为:南京林业–大学–招生,这个关键词代表搜索含有南京林业的网页但排除掉含有大学和招生这个两个词的信息。同样,-招生–大学南京林业与其效果相同。

(3)运算符‘~’检索

运算符“~”表示同义词运算符,可以检索到该词和其近义词。将运算符至于检索词的前面,运算符合检索词之间没有空格。比如将~goaway作为关键词,则返回结果中有含有goaway的信息,也有含有walkaway和fadeaway的信息。因为goaway和walkaway以及fadeaway是近义词。

(4)双引号‘“”’检索

用双引号检索时,检索词被放在用引号界定的字句中时,就被自动地认定可以被检索,检索结果一定包含双引号内的全部检索词。比如在Google检索框中输入”youandmegotoschool”则出现的结果中全部包含youandmegotoschool.如果输入youandmegotoschool则会出现Yougotoschool,gotoschool等的结果.这种检索规则对一些特定词句的检索比较有用,比如诗句,姓名检索。

(5)排除标点规则检索

标点符号在检索中并没有词语重要,Google在检索时会忽略掉检索词之间的大多数标点符号。比如在输入框中输入understand和输入under.stand的检索效果是相同的。而当符号是单引号和连字符时就不能省略了。单引号往往表示缩写,比如输入were和we’re的搜索结果就不同。当有连字符时,比如part-time,则会既搜索到含有连字符的part-time,也能搜索到不含连字符的parttime和parttime等。

(6)“通配符‘’检索”

当只知道关键词的部分时,模糊检索就尤其重要,此时就需要用到通配符。这种运算符表示它可以代表任何词。比如在检索框中输入“Itoschool”表示查找包含以I开头,以toschool结尾的信息,中间是任何词都可以。此时的返回结果有包含Iwenttoschool、Iweartoschool、gonetoschool等的网页。这种方法很适用于歌词,台词等的搜索

有效利用搜索引擎的途径有一下几条。首先使用快照。大部分搜索引擎都会有快照功能,有时会搜到链接失败或者过期的网页,而看其内容摘要很符合需要,此时可以使用快照功能来最大可能的找到有用的信息。其次利用多种搜索方法进行搜索。使用运算符时,可以将多种运算符一起使用,提高检准率和效率。最后优先选择专有名词作为关键词。谷歌的检准率和检全率不低。测试表明,对专有名词的检准率达到了70%,对普通名词的检准率为53.5%。专有名词的歧义较少是检准率高的一个重要因素。在搜索时优先选择专有名词作为关键词可以大大提高搜索的效率。