正在阅读:摇身一变超级计算机 细数天上每片云摇身一变超级计算机 细数天上每片云

2009-03-11 09:46 出处:PConline原创 作者:庞伟明 责任编辑:heyaorong

  “云计算”这个概念在不久前还难以统一的技术,现在其发展却呈现汹涌之势。大批的企业开始介入云计算领域,所以这个目前最热门的技术势必将成为2009年技术领域的最大赢家。Google、微软、IBM等巨头也在这一领域开始了新一轮的竞技。从2007年至今,围绕云计算的讨论愈演愈烈,Google、Yahoo、微软、IBM、HP纷纷表示自己已经拥有云计算的产品、技术或服务。但是,不同公司不同的人,对于云计算的理解也各有不同。

  IBM公司发布了云计算平台 “蓝云”计划相关的新产品和服务,公布了最新云计算客户及合作伙伴。凭借发布的多款产品与服务,IBM已拥有了最为完整的包括硬件、软件与服务的云计算解决方案,来帮助企业客户利用云实现成本与效率的优势。“蓝云”的概念源自IBM通过一个名为技术采纳项目(Technology Adoption Program)的IBM创新门户来支持其软件创新人员而进行的工作。“蓝云”建立在IBM领先的大规模计算领域的专业技术,基于由IBM软件、系统技术和服务支持的开放标准和开源软件。全球超过200名IBM研究人员参与开发的“蓝云”,它可以帮助客户快速和简便的探索云计算基础架构以实现极限规模运算。

  再具体深入了解“蓝云”之前,让我们先看一下其他IT巨头在云计算领域中的成果及他们所要发展的方向。

  一、各家IT巨头云计算服务及产品的特点:

  1、GOOGLE

  谷歌公司围绕因特网搜索创建了一种超动力商业模式。如今他们以应用托管,企业搜索及其他更多形式向企业开放他们的云。Google的云计算技术实际上是针对Google特定的网络应用程序而定制的。针对内部网络数据规模超大的特点,Google提出了一整套基于分布式并行集群方式的基础架构,利用软件的能力来处理集群中经常发生的节点失效问题。

  Google使用的云计算基础架构模式包括四个相互独立又紧密结合在一起的系统。包括Google建立在集群之上的文件系统Google File System,针对Google应用程序的特点提出的Map/Reduce编程模式,分布式的锁机制Chubby以及Google开发的模型简化的大规模分布式数据库BigTable。虽然Google可以说是云计算的最大实践者,但是,Google的云计算平台是私有的环境,特别是Google的云计算基础设施还没有开放出来。除了开放有限的应用程序接口,例如GWT(Google Web Toolkit)以及Google Map API等,Google并没有将云计算的内部基础设施共享给外部的用户使用,上述的所有基础设施都是私有的。

  2、亚马逊

  亚马逊的弹性计算云服务也和IBM的云计算服务平台不一样,亚马逊不销售物理的云计算服务平台,没有类似于“蓝云”一样的计算平台。亚马逊将自己的弹性计算云建立在公司内部的大规模集群计算的平台之上,而用户可以通过弹性计算云的网络界面去操作在云计算平台上运行的各个实例(Instance),而付费方式则由用户的使用状况决定,即用户仅需要为自己所使用的计算平台实例付费,运行结束后计费也随之结束。亚马逊的云计算模式沿袭了简单易用的传统,并且建立在亚马逊公司现有的云计算基础平台之上。

  弹性计算云用户使用客户端通过SOAP over HTTPS协议来实现与亚马逊弹性计算云内部的实例进行交互。使用HTTPS协议的原因是为了保证远端连接的安全性,避免用户数据在传输的过程中造成泄露。因此,从使用模式上来说,弹性计算云平台为用户或者开发人员提供了一个虚拟的集群环境,使得用户的应用具有充分的灵活性,同时也减轻了云计算平台拥有者(亚马逊公司)的管理负担。而弹性计算云中的实例是一些真正在运行中的虚拟机服务器,每一个实例代表一个运行中的虚拟机。对于提供给某一个用户的虚拟机,该用户具有完整的访问权限,包括针对此虚拟机的管理员用户权限。虚拟服务器的收费也是根据虚拟机的能力进行计算的,因此,实际上用户租用的是虚拟的计算能力,简化了计费方式。在弹性计算云中,提供了三种不同能力的虚拟机实例,具有不同的收费价格。例如,其中默认的也是最小的运行实例是1.7GB的内存,1个EC2的计算单元(1虚拟的计算核以相关的计算单元),160GB的虚拟机内部存储容量,是一个32位的计算平台,收费标准为每个小时10美分。在当前的蓝计算平台中,还有两种性能更加强劲的虚拟机实例可供使用,当然价格也更加昂贵一点。

  由于用户在部署网络程序的时候,一般会使用超过一个运行实例,需要很多个实例共同工作。弹性计算云的内部也架设了实例之间的内部网络,使得用户的应用程序在不同的实例之间可以通信。在弹性计算云中的每一个计算实例都具有一个内部的IP地址,用户程序可以使用内部IP地址进行数据通信,以获得数据通信的最好性能。每一个实例也具有外部的地址,用户可以将分配给自己的弹性IP地址分配给自己的运行实例,使得建立在弹性计算云上的服务系统能够为外部提供服务。当然,亚马逊公司也对网络上的服务流量计费,计费规则也按照内部传输以及外部传输进行分开。

  总而言之,亚马逊通过提供弹性计算云,减少了小规模软件开发人员对于集群系统的维护,并且收费方式相对简单明了,用户使用多少资源,只需要为这一部分资源付费即可。这种付费方式与传统的主机托管模式不同。传统的主机托管模式让用户将主机放入到托管公司,用户一般需要根据最大或者计划的容量进行付费,而不是根据使用情况进行付费,而且,可能还需要保证服务的可靠性、可用性等,付出的费用更多,而很多时候,服务并没有进行满额资源使用。而根据亚马逊的模式,用户只需要为实际使用情况付费即可。

  3、SALESFORCE

  Salesforce是软件即服务厂商的先驱,在它之后数十家软件即服务公司接踵而至。Salesforce的下一个目标是:平台即服务。Marc Benioff的公司正在建造自己的网络应用软件平台Force.com,作为软件服务的基础供其他企业使用。Force.com包括一个关系数据库,用户界面选择,企业逻辑和一个名为Apex的集成开发环境。程序员可以在平台的Sandbox上对他们的Apex脚本应用软件进行测试,然后在Salesforce的AppExchange目录上提交完成后的代码。在早期,开发人员使用Force.com为Salesforce的客户关系管理创建附加软件,但是如今与Salesforce产品无关的软件研发日益增多,Salesforce平台部门副总裁Adam Gross表示。游戏开发商Electronic Arts在Force.com平台上开发了一款员工招聘应用软件,软件厂商Coda也在这款平台上创建了一款总账应用程序。

  同时,Salesforce也在继续推进自己的应用软件的研发进程,这款软件目前已经拥有110万名用户。今年夏季即将出炉的升级版将包括在 Salesforce应用软件中访问Google Apps的能力,以及一系列全新的移动特性,"分析快照",增强版用户入口,改进版信息交换和内容管理等。Salesforce也在进军其他的云服务领域。2007年4月,Salesforce推出Salesforce Content迈入企业内容管理市场,Salesforce Content与微软的SharePoint和EMC的Documentum功能类似,能实现用户对信息的存储,分类和共享。Salesforce还采用了多层租赁的基础架构,在这种基础架构下服务器和其他IT资源都可以由用户共享。

  4、微软

  微软公司在云计算兴起几年后也开始进军这一领域,目前的进步也很受关注。一些厂商预想的是来自云计算的IT资源未来将去向何方,但微软不是他们中的一员。微软的宏伟计划是"提供企业级软件,合作伙伴托管服务和云服务之间的均衡"微软公司首席软件架构师雷.奥齐几个月前表示。更通俗点说,微软将其称为"软件加服务"。微软将于几年面世的首批软件即服务产品是在线动态客户关系管理(Dynamics CRM Online),在线交换(Exchange Online),在线办公自动化通讯(Office Communications Online)和SharePoint Online。每个产品都以多租赁版本推出,主要是针对中小型企业量身打造。企业级的单租户版本则需要5000美元或者额外的许可证授权。

  针对普通用户,微软的在线服务还包括Windows Live, Office Live和Xbox Live。那微软的下一步目标是什么呢?一项被称为MatrixDB的计划将把预装SQL服务器数据库扩展到微软在云上的托管数据库。这还需要经历几年的时间,但也暗示了将来的可能性。微软还提出他们的BizTalk服务企业进程管理软件,作为即将推出的网络服务直通车的一部分。

  值得一提的还是即将微软面世的windows Azure云计算平台,我们充满好奇。

  5、SUN

  SUN微系统公司的合作创建者约翰.盖奇20年前曾经说过"网络就是计算机"。可以说那就是云的开端,但这个风潮却改变了方向。让云计算变得简单易用是SUN公司如今关注的研发方向,目前他们推出了两款云产品和服务:Network.com作为栅格在线应用软件的集合按每用户收费的形式推向市场,Project Caroline是一项提供云资源的研究计划,主要面向在网络应用软件和服务上从事研发工作的研发人员。这些产品和服务符合Papadopoulos所称的"Red Shift"战略,即在很多公司计算需求将超出他们的实际能力。那么显而易见的解决方案就是云计算。Project Caroline则计划成为为软件即服务供应商提供的集合平台。

  他们的目标是"在快速开发多用户网络服务时更加高效便捷,能随时进行更新升级,以灵活经济的方式对资源实施再分配"根据SUN的介绍。这项由SUN公司技术副总裁Rich Zippel领导的开源项目能为多种程序设计语言的应用软件创建提供支持,包括Java, Perl, Python, Ruby和PHP。"我们认为所用的应用软件都不会的SUN在网络上的服务器造成影响,我们在网络上开发,配置和交付软件服务的能力在不断进步"Zippel在他的博客中这样写到。像微软一样,SUN也希望企业能继续需要他们自己的IT基础架构。SUN的"盒子里的数据中心"-Blackbox就是专门针对那些不打算把所有的基础架构向云转移,但又面临着大量的计算需求的企业设计的。

  6、甲骨文

  甲骨文公司2005年花费58亿美元收购Siebel Systems大举进军云计算市场。甲骨文高层将此次交易称之为与SAP抗衡的阵地,但是显然这是个马后炮。Siebel系统公司的随需客户关系管理应用软件与甲骨文的长期战略是同等重要的。甲骨文的随需业务是由许多厂商的软件堆栈组成的,包括公司的旗舰数据库产品。甲骨文为它的随需数据中心研发了一种"pod"基础架构。Pods可以用于个人用户配置,有多部门组成的大型公司可以用集群方式配置或者用多用户的版本共享使用。

  7、EMC

  今年初,EMC公司收购了私人信息管理公司Pi,微软前任副总裁保罗.马里兹也出任EMC公司新的云基础架构和服务部门总裁。事实上,近几年来EMC通过大刀阔斧的连续收购行动来拓展它在云计算交付方面的能力。2004年,EMC公司收购了Smarts公司,他们的软件主要是配置分布式网络和监控器存储。去年EMC又收购了伯克利数据系统公司和它的Mozy备份服务。

  EMC会提供什么样的云服务呢?EMC可能会构建在线和预装存储之间的监控桥梁。EMC公司已经看到软件即服务业务进程管理和协作以及用户的个人信息管理所蕴藏的巨大商机。数据的索引,存档,灾难恢复和安全都皆有可能,尼克表示。EMC公司所收购的几块业务包括Documentum的索引和存档服务,RSA的安全产品和Infra的IT服务管理。这些都可能是EMC拓展的方向。

  二、“蓝云”特点及其详解

  看罢以上各大IT巨头的云计算服务及产品特点,让我们来进深一步的了解IBM“蓝云”的特点,看其究竟在哪方面与别家有所区别?

  相比于Google、Yahoo们提供的云计算产品和服务完全植根于互联网,衍生于纯粹的解决方案,IBM则看准内部数据中心方向,强调软硬件组合。从云计算的描述和IBM对“蓝云”计划的描述可知,所谓的云计算可以被看成是网格计算和虚拟化技术的融合:即利用网格分布式计算处理的能力,将IT资源构筑成一个资源池,再加上成熟的服务器虚拟化、存储虚拟化技术,以便用户可以实时地监控和调配资源。

  目前,Google拥有了世界上最大的云计算平台之一,亚马逊则在长期引领电子商务的过程中积累了丰富的技术经验,在数据中心上也投入不菲。但是目前的云计算平台用户都还没有实现企业主导,这块蛋糕可以说尚未被瓜分。和上述两企业相比,IBM最大的优势在于建设、维护和运营大型计算系统,并积累了丰富的经验和用户口碑。IBM的云计算相关软件、系统和服务可以为企业提供全新的企业数据中心,多年积累的用户信心也很可能使CIO们相信,云计算没有什么值得担忧的。

1、IBM蓝云计算平台

  IBM在2007年11月15日推出了“蓝云”计算平台,为客户带来即买即用的云计算平台。它包括一系列的云计算产品,使得计算不仅仅局限在本地机器或远程服务器农场(即服务器集群),通过架构一个分布式、可全球访问的资源结构,使得数据中心在类似于互联网的环境下运行计算。

  简单地说,“蓝云”基于IBM Almaden研究中心(Almaden Research Center)的云基础架构,包括Xen和PowerVM虚拟化、Linux操作系统映像以及Hadoop文件系统与并行构建。“蓝云”由IBM Tivoli软件支持,通过管理服务器来确保基于需求的最佳性能。这包括通过能够跨越多服务器实时分配资源的软件,为客户带来一种无缝体验,加速性能并确保在最苛刻环境下的稳定性。它通过将Tivoli、DB2、WebSphere与硬件产品(目前是x86刀片服务器)集成,能够为企业架设一个分布式、可全球访问的资源结构。

  在IBM的云计算白皮书上,我们可以看到如下的蓝云计算平台配置情况。图1演示了蓝云计算的高层架构。可以看到,蓝云计算平台由一个数据中心: IBM Tivoli部署管理软件(Tivoli Provisioning Manager)、IBM Tivoli监控软件(IBM Tivoli Monitoring)、IBM WebSphere应用服务器、IBM DB2数据库以及一些虚拟化的组件共同组成。图中的架构主要描述了云计算的后台架构,并没有涉及到前台的用户界面。“蓝云”的硬件平台并没有什么特殊的地方,但是蓝云使用的软件平台相较于以前的分布式平台具有不同的地方,主要体现在对与虚拟机的使用以及对于大规模数据处理软件Apache Hadoop的部署。Hadoop是网络开发人员根据Google公司公开的资料开发出来的类似于Google File System的Hadoop File System以及相应的Map/Reduce编程规范。现在也正在进一步开发类似于Google的Chubby系统以及相应的分布式数据库管理系统BigTable。由于Hadoop是开源的,因此可以被用户单位直接修改,以适合应用的特殊需求。IBM的蓝云产品则直接将Hadoop软件集成到自己本身的云计算平台之上。

2、“蓝云”中的虚拟化

  从蓝云的结构上我们还可以看出,在每一个节点上运行的软件栈与传统的软件栈一个很大的不同在于蓝云内部使用了虚拟化技术。虚拟化的方式在云计算中可以在两个级别上实现。一个级别是在硬件级别上实现虚拟化。硬件级别的虚拟化可以使用IBM p系列的服务器,获得硬件的逻辑分区LPAR。逻辑分区的CPU资源能够通过IBM Enterprise Workload Manager来管理。通过这样的方式加上在实际使用过程中的资源分配策略,能够使得相应的资源合理地分配到各个逻辑分区。P系列系统的逻辑分区最小粒度是1/10颗中央处理器(CPU)。

  虚拟化的另外一个级别可以通过软件来获得,在蓝云计算平台中使用了Xen虚拟化软件。Xen也是一个开源的虚拟化软件,能够在现有的Linux基础之上运行另外一个操作系统,并通过虚拟机的方式灵活地进行软件部署和操作。

  通过虚拟机的方式进行云计算资源的管理具有特殊的好处。由于虚拟机是一类特殊的软件,能够完全模拟硬件的执行,因此能够在上面运行操作系统,进而能够保留一整套运行环境语义。这样,可以将整个执行环境通过打包的方式传输到其他物理节点上,这样就能够使得执行环境与物理环境隔离,方便整个应用程序模块的部署。总体上来说,通过将虚拟化的技术应用到云计算的平台,可以获得一些良好的特性。

  A. 云计算的管理平台能够动态地将计算平台定位到所需要的物理平台上,而无需停止运行在虚拟机平台上的应用程序,这比采用虚拟化技术之前的进程迁移方法更加灵活。

  B. 能够更加有效率地使用主机资源,将多个负载不是很重的虚拟机计算节点合并到同一个物理节点上,从而能够关闭空闲的物理节点,达到节约电能的目的。

  C. 通过虚拟机在不同物理节点上的动态迁移,能够获得与应用无关的负载平衡性能。由于虚拟机包含了整个虚拟化的操作系统以及应用程序环境,因此在进行迁移的时候带着整个运行环境,达到了与应用无关的目的。

  D. 在部署上也更加灵活,即可以将虚拟机直接部署到物理计算平台当中。

  总而言之,通过虚拟化的方式,云计算平台能够达到极其灵活的特性,而如果不使用虚拟化的方式则会有很多的局限。

  IBM蓝云架构
图 1:“蓝云”产品架构

3、“蓝云”中的存储结构

  蓝云计算平台中的存储体系结构对于云计算来说也是非常重要的,无论是操作系统,服务程序还是用户应用程序的数据都保存在存储体系中。云计算并不排斥任何一种有用的存储体系结构,而是需要跟应用程序的需求结合起来获得最好的性能提升。总体上来说,云计算的存储体系结构包含类似于Google File System的集群文件系统以及基于块设备方式的存储区域网络SAN两种方式。

  在设计云计算平台的存储体系结构的时候,不仅仅是需要考虑存储的容量。实际上随着硬盘容量的不断扩充以及硬盘价格的不断下降,使用当前的磁盘技术,可以很容易通过使用多个磁盘的方式获得很大的磁盘容量。相较于磁盘的容量,在云计算平台的存储中,磁盘数据的读写速度是一个更重要的问题。单个磁盘的速度很有可能限制应用程序对于数据的访问,因此在实际使用的过程中,需要将数据分布到多个磁盘之上,并且通过对于多个磁盘的同时读写以达到提高速度的目的。在云计算平台中,数据如何放置是一个非常重要的问题,在实际使用的过程中,需要将数据分配到多个节点的多个磁盘当中。而能够达到这一目的的存储技术趋势当前有两种方式,一种是使用类似于Google File System的集群文件系统,另外一种是基于块设备的存储区域网络SAN系统。

  Google文件系统在前面已经做过一定的描述。在IBM的蓝云计算平台中使用的是它的开源实现Hadoop HDFS (Hadoop Distributed File System)。这种使用方式将磁盘附着于节点的内部,并且为外部提供一个共享的分布式文件系统空间,并且在文件系统级别做冗余以提高可靠性。在合适的分布式数据处理模式下,这种方式能够提高总体的数据处理效率。Google文件系统的这种架构与SAN系统有很大的不同。 

  云计算的SAN存储结构
图 2  SAN系统的结构示意图

  SAN系统也是云计算平台的另外一种存储体系结构选择,在蓝云平台上也有一定的体现,IBM也提供SAN的平台能够接入到蓝云计算平台中。图2就是一个SAN系统的结构示意图。从图2中可以看到,SAN系统是在存储端构建存储的网络,将多个存储设备构成一个存储区域网络。前端的主机可以通过网络的方式访问后端的存储设备。而且,由于提供了块设备的访问方式,与前端操作系统无关。在SAN连接方式上,可以有多种选择。一种选择是使用光纤网络,能够操作快速的光纤磁盘,适合于对性能与可靠性要求比较高的场所。另外一种选择是使用以太网,采取iSCSI协议,能够运行在普通的局域网环境下,从而降低了成本。由于存储区域网络中的磁盘设备并没有与某一台主机绑定在一起,而是采用了非常灵活的结构,因此对于主机来说可以访问多个磁盘设备,从而能够获得性能的提升。在存储区域网络中,使用虚拟化的引擎来进行逻辑设备到物理设备的映射,管理前端主机到后端数据的读写。因此虚拟化引擎是存储区域网络中非常重要的管理模块。

  SAN系统与分布式文件系统例如Google File System并不是相互对立的系统,而是在构建集群系统的时候可供选择的两种方案。其中,在选择SAN系统的时候,为了应用程序的读写,还需要为应用程序提供上层的语义接口,此时就需要在SAN之上构建文件系统。而Google File System正好是一个分布式的文件系统,因此能够建立在SAN系统之上。总体来说,SAN与分布式文件系统都可以提供类似的功能,例如对于出错的处理等。至于如何使用还是需要由建立在云计算平台之上的应用程序来决定。

  与Google不同的是,IBM并没有基于云计算提供外部可访问的网络应用程序。这主要是由于IBM并不是一个网络公司,而是一个IT的服务公司。当然,IBM内部以及IBM为客户提供的软件服务会基于云计算的架构。 

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多

网络设备论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品