简介:谷歌搜索引擎赢得了全球赞誉,这一切都归功于谷歌的先驱MapReduce。谷歌搜索引擎算法只是搜索引擎的一部分。在后台,支持谷歌算法的基础设施才是真正的幕后英雄。它的基础设施可以快速链接到数千个普通服务器的链接。MapReduce的成功也直接促成了Hadoop的开发。他们现在受到脸谱网、Twitter、易趣网、LinkedIn和易趣网的影响,他们必须采取进一步措施来适应大数据时代的浪潮。
Harry Shum在微软11年的研究所工作,他现在负责微软的Bing搜索引擎打击谷歌搜索的发展。(图片来自微软)
2010,谷歌搜索引擎发生了重大变化。谷歌将搜索转移到了一个新的软件平台,他们称之为“咖啡因”。咖啡因是谷歌从它的设计,咖啡因使谷歌能够迅速添加新的链接(包括新闻和博客文章)到其网站索引系统大规模,与以前的系统相比,新的系统可以提供“50%个新”的搜索结果。CRM系统
所有这些都归功于谷歌的先驱MapReduce。谷歌搜索引擎算法只是搜索引擎的一部分。在后台,支持谷歌算法的基础设施才是真正的幕后英雄。它的基础设施可以快速链接到数千个普通服务器的链接。MapReduce的成功也直接促成了Hadoop的开发。他们现在受到脸谱网、Twitter、易趣网、LinkedIn和易趣网的影响,他们必须采取进一步措施来适应大数据时代的浪潮。
谷歌在基于Web的分布式计算系统领域赢得了好评。Harry Shum,微软的Bing搜索引擎的头,认为微软没有咖啡因的支持,但必应搜索不输给谷歌应用服务器软件平台数万数据处理。谷歌咖啡因的优点是快速抓取、索引和服务器文档。Bing在这方面很好。但所有这些都需要基础设施的支持。移动CRM系统
Harry Shum在2007加入冰球队,Harry Shum已经在微软11年来所工作。Harry Shum的目标是让Bing赶上了谷歌在搜索引擎领域。在过去的五年中,谷歌仍然是世界上最好的搜索引擎,有人预计其市场份额将高达85%或90%。但Harry Shum认为,Bing将最终赶上谷歌在技术层面。多年来,我们一直在努力工作,经过不断的努力,必应搜索的质量接近谷歌的水平。Harry Shum说。CRM免费版
毫无疑问,谷歌将不同意Harry Shum的说法,谷歌的工程师认为咖啡因是非常重要的。咖啡因指数涵盖1亿GB数据。咖啡因可以从新闻网站或博客中添加几秒钟或几分钟的内容。
Harry Shum认为,Bing的指标体系不同,咖啡因。他说,尽管谷歌声称他们的一些主要技术是最新的。但是咖啡因的一些功能已经在里面运行了。但与此同时,我们必须建立新的技术来改进我们的系统,我们正在做这件事。
在讨论软件时,不管是谷歌还是微软支持,他们都不谈论搜索引擎和其他Web服务技术。但Harry Shum指出,一个专有的软件平台,使Bing被称为宇宙。这是微软研究院发表的一篇研究论文中提到的。宇宙是类似谷歌的GFS MapReduce构建上(谷歌文件系统)。Harry Shum还表示,微软正在努力改善和扩大宇宙的平台,它可以帮助搜索引擎来达到实时。
之前,谷歌使用咖啡因,谷歌使用MapReduce和分布式文件系统(如GFS)建立一个搜索索引(从已知的网页索引)。MapReduce是一种编程模型,它处理大型和超大型数据集并生成相关的执行。其主要思想是借用函数式编程语言,还包括从向量编程语言借来的特性。MapReduce将整个任务分解成数百个或数千个小任务,然后将其发送到计算机集群。
谷歌的网络爬虫将从整个网络抓取相关的文件信息。然后将信息分配到谷歌的网络服务器是由GFS全球配置。MapReduce负责协调服务器中的数据处理任务,以便将所有处理后的数据分配给人们实际搜索的页索引。当谷歌刚刚推出一个搜索引擎时,MapReduce每个月都会建立一个新的索引。后来,谷歌改进了系统,并逐渐减少了重新紧缩指数所需的时间。但当需求达到一个新的高度时,需要动态的方法来更新索引。所以谷歌进入了咖啡因时代。
Goolge的技术允许系统快速抓取页面并将它们添加到索引。过去,由于每次更新索引时都会对整个Web进行分析,这就导致谷歌需要处理大量索引页面(数十亿文档)。但由于谷歌使用咖啡因,谷歌只需要从Web上分析一小部分,因此谷歌可以不断更新索引。
在本质上,咖啡因丢弃MapReduce分布式数据库BigTable和地方开发的谷歌指数。在谷歌的另一个创新,GFS和MapReduce,两创新设计用于管理海量数据的数据具有很大的优势。这种海量数据可以定义为云计算平台上数千台普通服务器上的PB级数据。Bigtable的出现也彻底改变了谷歌的索引机制。谷歌正在建设一个新版本的GFS,称为GFS2,但谷歌在GFS2叫做巨像。
Hortonworks首席执行官巴尔德施维勒认为咖啡因的使用谷歌搜索是一个非常令人信服的想法。当巴尔德施维勒在雅虎工作,该公司曾考虑这样一个平台,但决定把Hadoop路线因为成本昂贵。
微软的Harry Shum代表的是不同的道路和方向的微软比谷歌的咖啡因。虽然他没有透露太多的细节,Harry Shum表示,目前微软基于宇宙平台更多的并行数据库。
在微软的软件体系结构德鲁伊的位置
去年,微软宣布了宇宙的树妖的框架,一个框架一样,一直驾驶兵。但德鲁伊在Bing搜索引擎的作用现在还不知道。事实上,德鲁伊并不是微软的新产品,与德鲁伊和DryadLINQ已经在微软收购Powerset的存在。微软首次推出的技术在2007研究,并推出了商业版的树妖和DryadLINQ学术界2009。但与MapReduce,德鲁伊是专为集群计算运行Windows HPC服务器,不是Linux。
Mike Olsen表示,德鲁伊在许多方面都优于Hadoop,德鲁伊精心设计的。但微软去年决定Hortonworks合作在Windows平台上的Hadoop,目前还不清楚微软是否会继续研究德鲁伊。然而,Harry Shum表示,微软将继续经营宇宙及其周边的平台和基础设施项目。
Hortonworks首席执行官Eric Baldeschwieler代表基础设施工具不使用宇宙和其他微软搜索平台。在大多数情况下,这些技术只在微软内部使用。同时,巴尔德施维勒也证实,宇宙和德鲁伊真的是类似GFS和MapReduce的,但是他说他不理解一个平行宇宙的信息数据库。
Mike Olsen的意思是:“当MapReduce刚刚出现时,世界领先的数据库设计师都嗤之以鼻。”。数据库区的每个人(包括我自己)都认为这是个玩笑。但是Mike Olsen最终意识到MapReduce不应该仅仅是一个数据库,它的用途是不同的,而且他们也不打算把它用作数据库。大数据时代的数据是不同的类型,需要不同的分析方法,MapReduce就是解决这个问题的方法。
对MapReduce的新理解也改变了Mike Olsen的想法。后来,Mike Olsen创立的公司命名为Cloudera,及其业务围绕Hadoop。由Cloudera的服务不仅是提供给网络公司,也在广泛的行业。
谷歌和微软将继续在搜索领域发挥作用,双方都意识到索引的快速更新变得非常重要。谷歌和微软都在考虑一个新的方向(分布式数据库)。在全球服务器中,数据存储设备的分发将成为未来的趋势,但它需要更高效的组织。但这还不是结束,搜索引擎技术的发展将继续下去。(李志/编译)
文本链接:有线
来源:http://cloud.csdn.net/a/20120322/313445.html
文章从互联网整理而来,旨在传播企业销售管理知识和方法,帮助企业真正了解CRM系统的价值和意义,最终增强企业的竞争力。如果本文侵犯了您的权益或者您需要具体了解更多移动CRM系统开发商翼发云的相关信息,欢迎和我们联络:
【网址】www.effapp.com