+ All Categories
Home > Documents > Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf ·...

Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf ·...

Date post: 10-Oct-2020
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
32
Pivotal 云计算和大数据解决方案
Transcript
Page 1: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

Pivotal 云计算和大数据解决方案

Page 2: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和
Page 3: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

P i v o t a l由E M C、V M w a r e

和 G E 投资成立,至今只

有短短的一年多时间,但

我们提供的技术和产品,

包括G r e e n p l u m、C l o u d

Foundr y、Gemfire、Spring

Framework等,却都是在国

际上和国内拥有广泛的应用

基础的企业级技术和产品。

目前,云计算与大数据已经

形成企业市场的一大趋势,

企业的很多大数据项目必须要依赖于云技术来实现具体的落

地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

大数据非常重要的技术前提。作为这一领域的领导者,我们的

使命就是将大数据和云计算相结合,助力业务变革,支持企

业创新。

今年4月,我们在全球范围内发布了最新的大数据套件(Big

Data Suite),将MPP数据库、内存计算以及Hadoop等技术进行

了融合。目前,没有单一的技术能够涵盖大数据需求的所有

部分,任何一项技术都需要延伸以满足客户不同阶段的需求。

包括传统关系型数据库、Hadoop、NoSQL以及内存计算等,都

能够解决大数据中的一部分问题,但企业要真正驾驭大数据

就需要将这些技术组合在一起。然而对于企业来说,无论是

结构化数据还是非结构化数据,都面临着纷繁复杂的技术选

项。企业在针对不同阶段的需求选择不同的技术,彼此之间不

能实现数据的联动,就容易造成系统孤岛的问题。

Pivotal大数据套件不是简单的产品打包销售,而是将业界最领

先的大数据技术进行融合打通,其中涵盖了许多Pivotal对客

户业务需求的理解,帮助客户勾画一个最完整的企业级大数

据视图。Pivotal大数据套件中的所有组件都是业界最领先的

大数据产品,同时拥有大量顶级的客户案例。比如Greenplum

的开放架构受到了许多企业的青睐,除电信、金融等大企业之

外,Greenplum在互联网公司也拥有广泛的应用;GemFire内存

数据库支撑了铁道部12306订票系统在业务高峰时期的高并

发需求,同时能够实现企业级的数据安全性与可靠性; Pivotal

HD是最强的Hadoop发行版,它提供了企业级的支持与版本延

续性管理。更为重要的是,Pivotal大数据套件中的所有产品都

实现了无缝的集成与联动,全分布式架构涵盖了大数据处理

的各个领域,数据能够根据不同的业务需求在套件中进行自

由的交换。

 

目前,云计算在国内方兴未艾。在云计算的三层架构

(SaaS,PaaS,IaaS)当中,PaaS是技术最复杂、最难实现的一

层,企业自己搭建PaaS平台几乎是不可能完成的任务。我们在

开源的PaaS标准Cloud Foundry之上,推出了商业版的Pivotal

CF,满足了企业级客户在高可用性、安全性、稳定性以及高性

能方面的需求。Pivotal CF能够对底层所有硬件、虚拟化资源进

行管理,使客户无需在部署开发的时候关心硬件资源的部署。

此外,它涵盖了所有硬件、中间件和数据库平台能力,将商用软

件和开源软件有效结合,为用户提供了可伸缩的、开放的开发

部署测试平台。最终,Pivotal能够将整个技术产品线部署到云

平台上,为客户提供一套云+大数据的方案,使得客户无需关

心底层的开发等工作,而是将注意力放在将应用程序按照测

试规范开发的标准来部署到平台上,自动进行发布,自动实现

跟其他模块的对接,自动实现统一数据模型。

今年第二季度,我们在大中华区签下了Pivotal CF的第一个客

户,这是Cloud Foundry在企业级层面的一个振奋人心的突

破。鉴于中国经济的迅猛发展以及潜在的巨大市场,Pivotal也

非常重视中国市场的支持与投入。自Pivotal成立至今,Pivotal

已经在北京、上海等地建立了总数超过100人的产品研发团

队,并且把全球技术支持服务三大中心的其中一个设立在了

中国。此外,在北京、上海、广州等地,Pivotal也建立有客户联

络和销售部门,并紧密地与EMC及VMware合作,提供包括客户

市场支持和现场运行支持等服务,为国内企业客户的IT系统平

稳运行保驾护航。

打造基于IaaS和PaaS的数据解决方案,简化用户的应用程序

管理、应用程序开发和维护,这是Pivotal的使命。Pivotal愿以

不懈地创新和努力,与广大的国内客户一起,以IT创新引领业

务变革,携手共进,共创未来。

卷首致辞

刘伟光  Pivotal 大中华区总经理

2014年10月www.pivotal.io

Page 4: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

PIVOTAL 概览

Pivotal 概览

Pivotal成立于2013年4月,由EMC、VMware和GE投资成立,

专注于下一代企业级云计算与大数据基础平台,以及下一

代应用程序运行框架支撑实现,在敏捷开发、数据科学、

云计算、开放源代码软件、大规模并行处理和实时数据系

统领域颇有建树。

过去十年来,面向消费者的众多大型互联网巨头实践了大

量新的信息技术,从而向其消费者快速交付重要的产品、

功能和体验。大型传统企业也日益需要同样的功能。作为

世界上新一代企业级“平台即服务 (PaaS)”,Pivotal One

使得消费级企业成为现实,从而交付可推动新业务价值的

新型应用程序。

Pivotal构建的面向下一代企业级IT系统基础平台和服务的

框架“Pivotal One”,是业界新的企业级 PaaS 标准。Pivotal

One引入了大量在EMC及VMware的面向大数据、云计算以

及快速应用开发环境工具等在业界具有众多企业用户的成

熟产品,并重新构架在新一代的PaaS标准Cloud Foundry之

上,为企业级IT系统建设提供相比较于传统企业IT系统平

台更加快速、高效、安全稳定的运行平台。

PIVOTAL ONEPivotal One以统一解决方案的形式于2013年第4季度发布,

您的企业现在就可以利用其优势:

Pivotal One的组件包括:

• Pivotal CF: Pivotal云支撑平台

• Pivotal 大数据套件:Pivotal数据支撑平台

• Pivotal 应用套件 : Pivotal应用支撑平台

• Pivotal Data Science Labs:Pivotal数据科学家服务

• Pivotal Labs:Pivotal敏捷开发服务

www.pivotal.io

© Copyright 2013 Pivotal. All rights reserved.

Cloud CF

����� ����

Scale-out storage: HDFS/Object

Languages&

Frameworks

Ingest & Query: very high-capacity &in-memory AnalyticsServices

Cloud Abstraction (portability)

Automation: App Provisioning & Life-cycle

Service Registry

Pivotal One:

vFabricGemfire

Page 5: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

PIVOTAL 概览

PIVOTAL CF--云支撑平台Cloud Foundry是业界的开源PaaS标准,在Pivotal成立之

前,VMware是其知识产权的拥有者,一直在推动该开源技

术标准的发展和维护。

Pivotal成立以后,为了进一步推广和发展Cloud Foundry,

Pivotal、EMC、VMware共同牵头组织成立了Cloud Foundry

基金会,同时,大量业界的知名IT技术公司也很快加入了

该基金会,以共同推进Cloud Foundry技术与标准的快速完

善并服务于广大企业客户。迄今为止,已经有超过50家IT

厂商加入该基金会,包括Intel、SAP、HP、IBM、EMC等著

名IT公司。

在中国,有大量企业用户已经使用Cloud Foundry构建大型

IT系统,以支撑企业业务的快速高效运营。百度凤巢竞价

排名系统、新浪云计算系统、京东公有云系统等,都是构

建在Cloud Foundry基础之上。

基于开源Cloud Foundry标准之上,Pivotal推出商业版

的Pivotal Cloud Foundry,商业版的正式名称是Pivotal

CF。Pivotal CF 在开源Cloud Foundry的基础之上,实现了大

量的企业客户建设关键系统需要的企业级PaaS平台功能,

形成了面向企业级IT系统的下一代PaaS平台产品,具有方

便易用、高效弹性伸缩、极大地缩短企业IT应用开发周期

和降低运维成本等特性。

PIVOTAL 大数据套件--数据支撑平台Pivotal大数据套件,是Pivotal面向下一代企业客户实现数据

处理平台构建的需要,推出的新型的数据支撑平台,包括

Pivotal HD、Pivotal Greemplum、Pivotal Gemfire 等产品,可

以满足企业客户对于建设关键数据处理平台的所有要求,

包括事务处理类系统、大数据处理平台、企业商业智能类

系统、实时数据处理系统、数据联邦建设等需求;此外,

根据云计算平台建设的构架需求,还可以基于Pivotal CF,

实现基于云计算架构的大型数据处理平台,为下一代大数

据处理平台的实现,提供高效的支撑平台。

PIVOTAL GREEMPLUM

Greemplum是Pivotal面向于大数据分析以及传统企业客户

构建数据仓库、商业智能平台的数据处理基础平台,可以

基于开放的工业标准服务器进行构建,是支持行式存储和

列式存储的关系型数据库产品,采用完全无共享的分布式

计算架构设计实现,具有在线线性扩展、高效的并行处理

能力等特点。

Pivotal Greemplum服务于中国已经超过5年,在中国市场已

经有超过100家企业客户使用Greemplum数据库平台产品构

建企业内部的关键数据分析类平台,为企业业务的高效开

展提供有效的业务决策支持。

PIVOTAL GEMFIRE

Pivotal Gemfire 是企业级分布式内存计算平台,有效地支撑

面向于下一代数据处理的数据高速运算、实时处理、流式

计算、内存数据库等处理场景,支持事务处理,具有在线

扩展、事件通知、远程数据同步等技术特点。

Gemfire在国内的一个典型的客户案例,是Gemfire在铁道

部12306铁路客票系统中的部署和使用 。该系统的余票查

询和订票查询部分,采用Gemfire有效地解决了在高峰时段

系统数据处理能力和并发处理能力不足的问题。

PIVOTAL HD

Pivotal HD是Pivotal 的Hadoop发行版。Pivotal HD提供了深

度集成的高级数据服务,并附带经过企业级强化的 Apache

Hadoop这一最经济高效和灵活的开放源代码数据平台。借

助 Pivotal的SQL on Hadoop 技术(Pivotal HAWQ)和分布

式内存网格技术(GemfireXD)等企业级数据服务,Pivotal

HD 为分析查询和事务环境提供了先进可靠的技术。

www.pivotal.io

Page 6: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

PIVOTAL 概览

海尔的舆情分析类系统-用户雷达系统,就是构建在Pivotal

HD以及HAWQ平台之上。

PIVOTAL 应用套件--应用支撑平台Pivotal快速应用开发和部署集成套件,集成了应用程序运

行需要的Web中间件、应用中间件、消息中间件,能够有

效提升开发人员和IT系统运维人员加速IT系统的快速开发

及交付和高效运营,实现云化的应用系统开发、部署、

运维。

结合Pivotal CF,企业客户可以使用应用支撑平台更加快捷

地实现云环境下的应用系统交付与使用,通过有效提升IT

系统的敏捷性,实现了企业客户业务敏捷性的提升。

Pivotal应用套件,包含Pivotal RabbitMQ、Pivotal tc Server

with Spring Insight、Pivotal WebServer这三个商业化软件

产品,以及如下在互联网企业得到广泛应用的开源软件

及技术。

• Spring IO :包括 Spring XD, Spring Batch, Spring Boot等产

品技术。Spring Framework是世界上最流行的 Java 应用

程序开发与运行平台。

• Groovy & Grails

• Apache Tomcat

• Apache HTTP Server

• RabbitMQ - Redis

PIVOTAL RABBITMQ

Pivotal RabbitMQ是Pivotal的消息中间件商业产品,基于高

级消息队列协议的方式实现分布式的消息安全发送和接受

服务,具有方便易用、高扩展性、高可用性等特点。

Pivotal RabbitMQ支持所有主流的操作系统,并且支持所有

主流的开发语言和框架。

PIVOTAL TC SERVER WITH SPRING INSIGHT

Pivotal tc Server是Pivotal的应用中间件商业产品,包含了

Apache Tomcat、增强的操作管理能力及高级服务器和应

用诊断功能,可以有效支撑企业客户的应用系统运行;以

独立的控制台视图提供了对组织的Tomcat server集中管理

和监控能力,实现应用系统整个生命周期的监控管理。tc

Server还提供了高级的诊断功能,如死锁检测和更多的跟

踪、可以更快的识别出问题并给出解决方案。

美国西南航空公司使用Pivotal tc Server,构建了新一代社

交媒体服务渠道,大力提升企业面向于新型销售和服务及

沟通渠道的IT系统支撑能力。

PIVOTAL WEBSERVER

Pivotal WebServer是Pivotal的Web中间件商业产品,以

Apache的httpd Web服务为内核,同时提供很多扩展的企

业级功能模块,可以支持FTP的协议,能够支持Perl和PHP

的脚本语言,同时支持LDAP协议以及SSL的安全功能。此

外,Pivotal WebServer还内置了性能监控管理的功能。

PIVOTAL DATA SCIENCE LABS数据科学家服务Pivotal数据科学家团队,专注于大数据技术在不同行业、

不同领域的具体实践,可以配合企业客户实现现有企业IT

系统数据环境的大数据整合及分析、预测,并帮助企业客

户在企业内部构建数据科学家及大数据分析支撑团队。

PIVOTAL LABS敏捷开发服务Pivotal敏捷开发服务团队,配合企业客户构建企业内部敏

捷开发团队的组建与运营,并实现面向下一代的智能终

端、Web和企业级应用程序的快速开发及交付。

www.pivotal.io

Page 7: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

对于那些寻求通过软件开发来推动创新的公司而言,现在

它们将拥有新的选择和机遇。敏捷开发的实践加速了新业

务的推出和投放市场,并能持续地交付新的应用和功能。

云计算及虚拟化的发展允许企业简化(或消除)基础设施

部署,而将基础性的并具有共性的IT和业务功能,全部通

过外包或软件即服务(SaaS)来提供。应用生命周期中许

多步骤,如测试和部署,均可作为标准化的服务选项。

平台即服务(PaaS)是软件驱动创新的关键促进因素,包

含一系列用于部署、管理及扩展云端应用程序的工具、数

据库和服务,有利于快速迭代并提高开发人员敏捷性。通

过采用企业级的多种云环境共存的PaaS解决方案,能够将

开发人员解放出来,专注于创建随业务而变化的企业应用

以及移动应用程序。同时,基于业务需求,这些应用能够

实现在整个云环境中进行扩展。

日本的一家大型跨国企业-乐天公司,为了在当今竞争激烈

的市场环境中占据一席之地,更好地为客户提供所需产品

和服务,并掌控其云端未来,采用了Pivotal 公司的市场领

先的PaaS 平台-Pivotal CF,并利用Pivotal CF改善了90%的应

用程序部署和管理。

Pivotal CF使企业能够基于价格、性能、位置及效率等因素

进行基础设施的选择。Pivotal CF同时提供数据管理、云部

署和开发人员工具,以便满足企业在性能、扩展性及成本

方面的相关要求。利用企业在基础设施即服务(laaS)上

的现有投资,Pivotal CF不仅能够提高云端的运营效益,同

时显著地降低了新应用开发所用的时间和成本。

改变市场需具备快速的洞察力目前,所有行业的业务均须围绕软件开发来进行重新定

位。在这个紧密联系且受新的数据洞察力和服务驱动的世

界里,软件是公司建立客户关系的一种方式。许多行业如

同汽车制造业和通讯业一样千变万化,“传统”公司正在

通过尖端科技紧紧跟随那些市场有力竞争者的步伐,重塑

企业的地位。它们采用新智能并发掘新技术来加速实施进

程,通过对更多数据进行分析、学习和执行以确保将适宜

的产品和服务快速地投放市场。

新一代企业级PaaS平台开始成为立足于适宜平台的卓越软件公司

最近,根据Gartner公司的报告,

对于CEO而言,“迄今为止,增长为重中之重。2014年,增长的重要性几乎等同于其余三个首要问

题的总和”。1 那些能够有效地利用软件开发来获取竞争优势的公司,将比他们的同行具有更高的盈

利能力2 。诸如Square(估价35亿美元,金融服务)、Uber(估价35亿美元,交通)、奈飞(估价190

亿美元,媒介及娱乐)、Airbnb(估价35亿美元,医院)、 Climate Corporation(估价11亿美元,农

业)以及Etsy(估价6亿美元,精品零售)等企业,通过使用软件改变行业并革新商业模式。简单地

说,软件正在改变世界。

1 2014 年高德纳公司CEO及高级主管调查:“风险态度将加速数字业务进程,2014年04月09日。2 软件前沿:高效软件开发和交付如何驱动竞争优势,IBM商业价值研究院,2013年03月。

www.pivotal.io

Page 8: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

例如,特斯拉(Tesla)生产的汽车,能够持续自动下载软件更

新,从提高遭遇路障而引发火灾时的急停反应能力,到修改

车辆的加速性能和应急处置方式,这些更新对汽车运行性能

影响极大。3 特斯拉汽车并非采用传统的年度更新方式,而是

基于购车客户反馈的数据对车辆进行持续重要改进。4

佳明(Garmin)公司是首家主要的GPS供应商。当佳明开始将

GPS免费映射技术纳入智能电话时,便意识到公司正处于十

字路口。公司决定将汽车导航装置转化为生活方式及活动产

品5 。为此,必须创建新产品并投入市场,同时快速与新客户

建立可靠关系。佳明通过重建基础设施体系及处理中间件,

对底层应用程序平台进行了改进,为达到新的流量规模并在

新一轮竞争中胜出提供了便利。对软件驱动型企业来说,敏

捷是新常态。

奈飞(Netflix)是一家著名的在线DVD影片租赁公司,提供邮

递和视频流媒体服务。近期,公司已发展成为主要创意供应

商,与传统内容生产商直接竞争且涵盖内容供应链所有领

域。公司将其优势归功于IT技术、尤其是数据和网络资源的

高效利用。广为流传的是“纸牌屋”案例。奈飞通过对客户行

为及偏好数据进行评估,预测了该热播剧的成功。这些客户

行为及偏好数据包括每日三千万次“播放量”,观剧时何时暂

停、后退和快进、奈飞注册用户四百万次评级、三百万次搜

索及观剧时段及所用设备。6

首席执行官里德·哈斯廷斯(Reed Hasting)讲道:“我们将科

技视为创建更好更现代化观摩体验的一种工具,我们正试图

将其设置为持续学习组织”。7 奈飞必须不断地融入新手机及

高端设备型号,重新格式化影片文件并不断地优化流媒体。

奈飞同时还重新设置低流量时段的计算能力,专注于数据分

析并改进提供内容—这些都是敏捷化的典型缩影。因此,奈

飞成功占据了高峰负荷期间25%的北美网络流量。

云计算运作环境与敏捷商业策略有何关联?现代化公司须创

建赖于生存的更优软件,而PaaS则使构建强大功能软件成为

可能。构建强大软件无需魔法,仅需迭代即可。迭代越快,更

新速度越快,投放市场、改善及强化进程亦会加速。

云平台演化进程云计算及虚拟化始于十年前,其推动力与当今PaaS相同:

允许企业构建高度自动化环境,以支持快速迭代。随着企

业从主机、服务器端到移动端或云计算时代日益发展,用

户期望值也日益增加。但是由于必须支持遗留系统,新项

目的信息技术资源部署无法与这些日趋增加的期望值保持

同步。企业需要面对的挑战在于降低新项目成本同时交付

高价值。

过去十年间,虚拟化技术已极大地帮助企业提高了信息技

术的效率,显著改善了满足商业期望值的能力。研究发

现,采用虚拟化技术的企业相比一般企业对业务需求响应

超过了37%。 8 但是,业务及客户期望继续增加,这可能正

是PaaS市场每年翻倍的原因所在。9

企业将其投资从专注于基础设施转移至获取诸如管理和自

动化等能力,相应地,企业的IT部门也将其目标,从维持

现有IT环境的运行,转移至投产新的项目来支持实现业务

增长的目标。云计算和laaS支持这样的转变,这是实现商

业敏捷性的必要步骤。但是,若不适用于企业的战略框架

和愿景,虚拟化和IT自动化等工具往往会使得交付这些新

技术的基本进程延迟至少十年以上。

PaaS是创新引擎我们生活在快速发展的爆炸时代,出现了很多新的技术

选择、策略和产品,这些都比几年前我们能够想象的要

多得多。从摩尔定律(过去30年内计算速度提高了3500

倍10 )到梅特卡夫定律、计算能力、网络节点及数据量增

长惊人。过去两年生成了全球90%的数据,且该数据量每

一年半均成倍增长。11 但是基础问题仍未改变:我们的企

业如何利用或购买这些新技术,以便相比竞争对手能够更

快地学习、适应并引入新的、更好的解决方案?

3 http://steveblank.com/2014/01/06/15756/ 4 同上 5 http://www.businessweek.com/articles/2012-02-23/garmin-finds-a-new-direction 6 http://www.nytimes.com/2013/02/25/business/media/for-house-of-cards-using-big-data-to-guarantee-its-popularity. html?pagewanted=all&_r=0 7 http://www.businessweek.com/articles/2013-05-09/netflix-reed-hastings-survive-missteps-to-join-silicon-valleys-elite

8 CA Technologies, “全球IT研究发现,DevOps将新服务上市时间加速20%”9/12/13 9 http://venturebeat.com/2013/09/04/why-paas-isnt-just-for-startups/ 10 http://www.eetimes.com/document.asp?doc_id=131933011 http://www.webopedia.com/quick_ref/just-how-much-data-is-out-there.html

新一代企业级PaaS平台

Page 9: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

驱动软件创新的关键在于迭代—低成本、短试验周期及

新理念和产能对比。与传统软件更新进程相比,作为在线

精品市场,Etsy每月或每季均增加新特性,服务六千万用

户且每日向网站提供30种更新。12

企业在向客户交付新产品和服务方面进行投资,旨在减少

交易阻力。交付通过软件实现。图书、病历档案、家居恒

温控制器、汽车固件、音乐……从机票到飞机维护,所有

服务均将通过软件完成交付。

对于初创公司来说,由于不会因历史遗留产品、系统或工

艺而陷入困境,完成这样的业务显得相对容易一些。大型

企业应该考虑这些敏捷性企业如何通过有限的资金及工程

资源,将新产品投放市场。一个显著的共性是,这些企业

均利用云端应用。最新研究表明,64%的公司已实施或计

划于一年内实施PaaS。 13 49%的公司则表示云计算使其能

够与大型企业展开竞争。14

敏捷性的企业通过laaS在云端构建并发布产品信息。PaaS

为软件开发人员提供了一整套服务,用于构建和测试应

用程序,无需担心底层基础设施。他们采用这种方式,

原因在于物超所值:他们可以租赁或购买所需数量的虚

拟优化计算能力。随着客户数量的增加,他们能够持续

地快速发展。

图1 商业期望值超过IT能力

12 http://www.forbes.com/sites/stevedenning/2014/04/04/at-etsy-the-future- workplace-is-now-thirty-innovations-per-day/

13 http://venturebeat.com/2012/11/29/paas-engine-yard/ 14 http://www.forbes.com/sites/joemckendrick/2013/02/20/cloud-computing-boosts-next-generation-of-startups-survey-shows/

图 2 PaaS加速创新周期

IT商业期望值急

剧增加难以为继

信息技术时代

客户端 云计算主机

商业期望

百万应用,

上亿用户

IT预算稳定

IT软件交付能力

应用程序助力并支撑业务发展,

同时生成数据

APPS应用程序

SPEED速度

DATA数据

ANALYTICS分析

通过对数据进行洞察分析,驱

动新的应用程序功能,并依次

驱动新的数据

围绕整个周期行动越快,学

习、创新及在竞争中胜出的速

度就越快

新一代企业级PaaS平台

Page 10: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

PaaS环境无需极其复杂的专业操作技能,而是采用流水线

生产模式,对新项目进行发布管理(代码部署、更改或回

滚等)。

PaaS处于初创公司开发环境核心地位的另外一个原因,是

PaaS提供的高速度。通过对应用程序生命周期中的重复、

耗时及缺乏创造性的部分进行概括及自动化操作,PaaS允

许这些公司以前所未有的高效率去推出新的应用程序,并

实时进行应用升级和更新功能特性。

最后,PaaS支持扩展。以往,诸如Google、Facebook

和Twitter等公司均习惯于改写代码库(称之为代码重

构),来满足应用程序的运行规模不断增加的要求。现

在,这些方法已无法继续使用。从一开始,企业就需要预

计到其应用程序将能够在无需作出重大变更的情况下,实

现动态扩展。通过采用简化可伸缩的设计样式,PaaS使得

构建扩展应用程序变得较为简单。

PaaS简化了典型企业的IT基础设施复杂性。通过消除VM配

置、应用程序监控、安全策略数据库、应用程序服务器及

负载均衡需求,企业不仅缩短了部署及配置周期,而且切

实地降低了开发人员用于交付产品所需的定制应用程序代

码数量(见上图3)。

基于易用的且具有现代化特点的PaaS:

• 开发人员能够专注于开发,而非基础设施

• IT能将开发和运营的问题区分开来,并专注于使每个方

面都做得更好

• 消除了配置及部署过程的瓶颈

• 企业能够真正优化并获得投资于云端及laaS的最大投资

回报率

当PaaS成为企业IT系统的重要组成部分时,IT及业务领导

能够:

解放开发人员

应用程序开发人员应确保业务的敏捷性。但是,大多数企

业的新解决方案理念无法与其交付能力保持一致。工程资

源一直面临着短缺问题,或者说没有足够的满足要求的开

发人员。问题可能会在出现好转之前变得愈加严重。15

当IT人员部署服务器、安装操作系统、应用程序服务器和

负载均衡器时,应确保足够的存储设备和提供备份资源。

一般而言,这些功能均未能编入应用程序中。开发人员应

该在编写代码、修补漏洞及改进时充分考虑这些功能。所

有任务都应该能够自动完成并且透明。

公司需减少生产阻力,以便工程师高效工作。最新研究

发现,开发人员每周花费在设计和编写代码方面的时间

为12.6小时(仅占其总时间的30%)。16 更糟糕的是,开

发人员在等待构建完工及管理基础设施方面花费的时间

为19个小时,极其浪费。PaaS通过自动化操作消除了重复

劳动,允许开发人员专注于将精力花费在真正有意义的

工作当中。

图 3 随着企业实施laaS和PaaS,构建强大应用程序变得愈加容易

15 http://www.crn.com/news/channel-programs/240163468/nice-work-if-you-can-get-it-the-it-talent-shortage-is-more-serious than-you-think.htm16 http://readwrite.com/2013/04/25/how-software-developers-really-spend-their-time#awesm=~oDNGXso7uAHqID

传统

应用程序

操作系统

数据

数据

消息

发送

消息

发送

网络

服务

网络

服务

虚拟平台

物理服务器

应用程序 应用程序

新一代企业级PaaS平台

www.pivotal.io

Page 11: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

设想一下,当开发人员自由编写游戏变更代码时会发生什

么。交付及变更管理过程的枯燥乏味何时才能一扫而光?

若新项目于分秒之内完工,从开发、测试到生产整个周期

是否无滞空时间或延迟时段?PaaS旨在消除开发周期内的

冗余及缺乏创造性的元素,能够自动操作并加快应用程序

交付进程,帮助开发人员能够专注于构建那些重要的功能

特性,而正是这些使得开发人员的工作具有独创性。富有

才华天赋及高效的开发人员一定是一名极具创造力、上进

心和高价值的员工。

Pivotal近期与一个客户进行沟通时发现,开发人员不得不

夜以继日地工作,才能同业务需求保持同步。看到该结论

时,该客户的IT主管说道:我不希望我的团队如英雄般地

工作。为什么?英雄不会扩展。英雄主义不是一种体系

或策略。过去几年内,该企业已部署了55种应用程序(同

类型公司中数量极为可观)且计划明年部署200种应用程

序,其中,多数为面向客户开发的复杂应用程序,适用于

多种消费模式、桌面电脑和手机。若采用旧的操作方式,

则难以与市场需求接轨。

构建“差异体系”

任何大型企业软件组合中的大量应用程序均为“可标准化

组件”:ERP、总分类账簿、CRM、HR等。尽管某些优势可

能用于优化或定制,总体而言,所有提供功能均实现商品

化。这类应用程序被视为记录系统,且存在从企业预置型

到SaaS/主机的诸多策略,用于获取和维护。极少公司能够

洞察到自行构建这类应用程序的价值。但是,当公司欲通

过定制应用程序开发快速持续交付独特价值时,则需构建

一个新型的平台。该平台须提供正确的数据管理、云端部

署及开发人员工具,以满足企业在性能、规模和成本方面

的要求。企业级PaaS平台就是为这样的创新提供的引擎。

Vmware最新基准调查发现,2/3的Vmware客户将IT资源从维

护其原有的但相互之间完全隔离的应用系统中释放出来,

而将节省的投资(大于100亿美元)再投资于诸如云计算等

敏捷性的项目。 17 Vmware还发现,平均而言,企业均会将

30%的预算用于IT创新。市场领先公司则会将50%的预算专

注于投入新型、面向客户研发的应用程序及服务的定制开

发,而非用于不支持竞争优势的商品化的业务流程。

专注于超越客户期望值

PaaS不仅能够改善应用程序,还能够增强用户体验。

首先,通过PaaS构建并投产的应用程序,整合了可在任何

设备及操作系统上运行的服务。由于该项目使用标准化的

且经过测试的工具套件,并在标准化的且经过测试的框架

中进行构建并部署,因此无论部署于何种设备,均可完美

运行。

其次,P a a S内置监控和分析工具有助于改善应用程

序。PaaS能够收集用户的使用方式和用户行为等信息,当

反馈给开发人员时,可以通过良性循环,对企业应用进行

快速更新,持续地增加新的应用功能,并改进应用运行的

性能(见图2)。对于那些要求严苛的最终用户来说,将可

以期望较高的应用程序更新速度,而这恰恰是PaaS平台具

有的价值内涵所在。

开源节流

若相关成本急剧下降,企业引入和测试新产品和策略时该

如何积极应对?PaaS即为答案。Rakuten在通过Pivotal CF

对应用程序部署和管理方面改善了90%。优化开发人员时

间,加快部署步伐,通过构思加快实施进程。

对于决策者而言,在评估任何新的投资时,包括开发项目

在内,投资回报率都是重要的决定因素。若每种应用程

序的成本降低,投资回报率将变得更具吸引力。此外,降

低对投资回报率进行批准的需求,将使得公司在创新方向

上获得更多的机会。而这恰好验证了在初创公司中,新型

的、基于云端的应用正在爆炸式地增长。得益于PaaS和云

端程序,新投资的财务门槛得以降低。

云端应用程序的可移植性

现代的PaaS环境,要求可以在主流的公有云及私有云上,

实现对应用程序的可移植性支持。得益于云端可移植

性,PaaS上的任何应用程序均可在绝大多数私有云、混合

云及大型公共laaS供应商云平台之间进行移动和扩展。

该功能赋予企业更多云端平台选择,使企业能够在价格、

性能、定位、监管、安全及控制要求方面优化应用程序分

布。当需求变更和应用程序扩展时,开发人员和运营商无

需变更任何代码或配置,便可自行选择将他们的应用进行

移动、扩展或添加至云端laaS。这种基于应用程序或业务

要求,将laaS资源进行混合、匹配及校准的能力,对于最

新的PaaS环境是独一无二的,确保了企业可以自由选择云

端平台,而不用担心对业务运行产生影响。

17 Vmware历程基准调查,2013年第4卷

新一代企业级PaaS平台

Page 12: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

有了PIVOTAL CF,PaaS开始投入使用PaaS处于黄金阶段,既不会由于过时无法成为尖端产

品,亦不会因为过新被视为科学实验。其包含了在过去

的20多年中广为流行,并在众多生产环境中实际使用的

中间件所具有的“一次写入,随处可行”核心价值,同

时涵盖了云平台应用实现的方方面面,包括配置数据、

自动探测及设置新实例和零停机更新。诸如Pivotal等厂商

将成熟的PaaS产品投放市场,完美适用于向第三方平台

演化的大型企业。

有一家银行构建了企业级PaaS,以简化其兼并另一家公

司后的整合进程。得益于PaaS环境,IT能够配置经过认

可的应用程序开发框架和工具,提供选项菜单,确保开

发人员能够方便地进行灵活的处置,同时确保与新应用

程序开发方式保持一致。对于这家领先的房地产行业数

据分析及交易服务供应商而言,Pivotal CF是一种技术保

障,允许其吸收过去15年里通过并购30家公司所积累起来

的不同技术。通过选择集成化及标准化的最佳工具集,

该企业可依靠PaaS构建新产品和服务,而无需管理不同

的遗留平台和技术。

如果云端是新的硬件,那么PaaS则是其操作系统。对于

PaaS而言,任何云端技术应用程序均可使用。与云端程序

一样,这些工具非常成熟,足以满足企业在安全、可靠

性、扩展和控制等方面最严苛的要求。并非所有的PaaS环

境都可以平等创建。企业在决定将其关键的、面向客户的

业务部署在PaaS平台上之前,必须证明如下几点:

• 安全与控制:具有个人及团队访问权限许可、新应用实

例自动安装部署、认证系统集成及入侵检测。

• 高可用性:具有自愈、自动更新及冗余系统,不会干扰

应用实例的故障恢复;具有应用程序监控功能,能够保

障系统的响应性和响应能力,以及保持服务等级等。

• 可靠性:经过测试的组件,可以支持不同的运行时和服

务。

• 简易:利用简单易用的图形化管理界面,开发人员及开

发团队可以对应用环境进行管理,并在主要的私有云和

公有云平台上,以交钥匙方式进行程序的安装和部署。

• 数据驱动:一键连接至所有常用的数据库,实时访问任

何类型的数据库。通过PaaS配置数据服务,支持创建真

实数据驱动应用程序,并通过使用高级分析来满足不同

客户的要求。

• 点击扩展:仅需一次点击,便可部署一个或一百个实

例。支持根据使用量的增加情况,对资源进行动态配

置。

• 实时更新、零停机:支持应用程序灰度发布模式,允许

应用程序版本在更新应用程序投产时实现瞬时切换运

行。

结论PaaS是现代企业实现快速设计并交付软件开发范例的关键

所在。若企业想在云端旅程上更进一步,则应对已经验证

过的企业级PaaS平台进行投资,支持在多种云环境下的基

础设施创新发展和按需变更。

PaaS与大数据、移动和云服务均为技术创新,企业经理人

应竭力理解并投入使用。若企业领导者能够利用这些技术

创新节省费用并改善技术上市时间,则其在当今“不创新

则灭亡”的生存理念中便具备独特优势。

Pivotal CF是一种便于任何云端迭代、部署及管理应用程序

的平台,能够使企业可以自行选择有助于实现其自身目标

的独立的基础设施。

白皮书 PAAS: 开始营业

www.pivotal.io

Page 13: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

Pivotal CF领先的企业级PASS,由CLOUD FOUNDRY 提供动力

www.pivotal.io

为何选择PIVOTAL CF™那些正寻求更大的灵活性、增加敏捷度并转变为软件驱动

型的企业,往往受阻于其在公有云和私有云上PaaS层的复

杂部署,升级和扩展。

PivotalCF是领先的企业级PaaS,由Cloud Foundry提供动

力。它为在公有云和私有云上扩展和更新PaaS提供了交钥

匙模式的体验,不再有停机时间。PivotalCF使开发人员能

够在一个统一的平台上,配置和绑定应用程序和数据服

务,例如Hadoop。它使企业能够以极快的速度和极大的扩

展能力来交付应用程序并进行最新特性的更新,而这种能

力以往只有互联网巨人才可以拥有。因此,企业能够以极

快的速度来进行创新。

总览

• PivotalCF向敏捷开发团队提供了交钥匙模式的PaaS

体验,使其能够在私有云上快速更新和扩展应用

程序,而这些应用程序可以立即扩展和升级,消

除停机时间。

• PivotalCF是第一个集成平台,包括行业领先的大数

据框架、Apache Hadoop、以及领先的开源PaaS平

台Cloud Foundry,使企业开发人员和云运营商能

够建立、管理和扩展全新层次的应用程序,这些

应用程序能够利用可立即绑定到大规模数据集上

的现代开发框架。

• PivotalCF弹性运行时服务(Elastic Runtime Service)

提供了一个完整的、可伸缩的运行时环境,可扩

展到在Linux上运行的最现代的开发框架和编程语

言。被部署的应用程序享有内置服务,可以通过

一个服务代理自动绑定到新的数据服务上,或者

自动绑定到现有的用户提供的服务上。

• Pivotal One Services—可以通过附加组件的方

式,增加包括P ivota l HD、HAWQ、Gemf i rm

XD、PivotalRabbitMQ、PIVOTAL Mobile Service和

MySQL Dev 等包含自动应用程序绑定和服务配置。

• PivotalCFOperations Manager是世界第一个集成Iaas

的PaaS运行器,支持在vSphere私有云上的交钥匙

模式,完全自动化的部署,canary风格的更新,以

及 “一键点击式”的横向和纵向扩展。

概述

1

Pivotal 建议的解决方案

监控管理层

物理资源层

PaaS 服务层

业务 应用层

SQL 数据库

IaaS 服务层

供应链APP

计算机 存储设备 网络设备

IaaS 接口

PaaS 运行时环境

NoSQL 数据库 Hadoop

应用中间件 消息中间件 ……

计算资源池 存储资源池 网络资源池

……

资源监控

性能监控

服务管理

服务目录

配置管理

服务接口

PaaS 服务

安全管理

资源管理 移动支付 移动APP 电商APP ……

Page 14: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

Pivotal CF

特性Pivotal CF 包含:

• Pivotal CF弹性运行时服务(Elastic Runtime Service)

提供一个完整的、可伸缩的运行时环境,可扩展到在

Linux上运行的最现代的开发框架和编程语言。被部署的

应用程序享有内置服务,可以通过一个服务代理自动绑

定到新的数据服务上,或者自动绑定到现有的用户提供

的服务上。

• Pivotal CF Operations Manager

世界第一个集成Iaas的 PaaS管理平台,支持交钥匙模式

和体验。

• Pivotal One Services

可以通过附加组件的方式,增加包括Pivota l HD、

HAWQ、Gemfirm XD、Pivotal RabbitMQ、PIVOTAL

Mobile Service和MySQL Dev等包含自动应用程序绑定和

服务配置。

Pivotal CF弹性运行时服务(Elastic Runtime Service)

应用管理的自服务平台

Pivotal CF可为任意规模的开发团队提供理想的自助服务

平台,开始将从小而快速演变的新创意加入复杂的应用

程序中,来增加业务的敏捷度。开发者可以使用CF CLI上

传应用程序源文件,或者通过面向流行的IDE和构建工具

的插件,这些工具包括Eclipse、Maven、Gradle、Jenkins、

Bamboo等。

经过语义简化的CF CLI和REST API允许用户管理和扩展应用

程序,创建并绑定“零接触”数据服务。Pivotal CF基于角

色控制和生命周期分段隔离的技术使不同团队能够同时进

行早期的开发、测试分段和最终的生产。一个基于web的

控制台允许开发人员和应用程序所有者能监视、管理和管

理用户和服务。

灵活的多语言的“构建包(BUILDPACK)”架构

开发人员仅仅需要将应用程序推向PivotalCF。为执行应用

程序的一个特定类,PivotalCF使用一种名为构建包的灵活

方法,来动态组装和配置一个完整的运行时环境。开发者

可以依靠构建包来探测、下载和配置相应的运行时、容器

和库,而不需要指定应用程序应该如何运行。

由于构建包可扩展的到大多数运行在Linux上的现代运行时

和框架,企业几乎可以使用任意语言编写应用程序并部署

到Pivotal CF 上。Pivotal CF向Java、Ruby和Notes提供的构建

包是广泛的构建包供应商生态系统的一部分,以确保对几

乎任何语言可以持续更新和维护。

Pivotal CF Web Console

DAtA SHeet PIVOTAL CF

3

OUTSTANDING JAVA SPRING SUPPORT AND ZERO-TOUCH SERVICE INTEGRATIONEnterprises can expect outstanding Java Spring support through the Pivotal provided Java buildpack. Most Spring applications require no changes to get started on Pivotal CF and, once there, enjoy zero-touch integration with services such as MySQL and RabbitMQ. The Java buildpack automatically infers memory settings and configures the container for bound services so developers can focus on writing code, not configuring middleware.

DEPLOYED APPLICATIONS ENJOY BUILT IN SERVICESOnce deployed to Pivotal CF, applications enjoy built-in services for:

• Instant, horizontal application tier scaling

• Load balancing and DNS

• Automated health management

• Logging and auditing

• User and services management via a Web Console

The built in features of the Elastic Runtime service allow enterprises to dramatically reduce the number of vendors and integrations required for continuous software delivery.

Pivotal CF supports horizontal scaling and rapid application deployment via updates to a shared routing tier for all

applications in real-time. Tight coordination of dynamic routing and fast, dynamic container creation are at the heart of Pivotal CF’s ability to instantly scale and update hundreds of instances. Pivotal CF empowers enterprises to support mobile and social applications and update them with new features at a velocity and scale previously only available to Internet giants.

A truly scalable platform must maintain availability for all running applications with minimum operator intervention. Pivotal CF’s 3rd generation application health manager continuously monitors all applications running on a Pivotal CF instance and intervenes to make the actual state match the intended state.

The ability to deliver a unified log stream of application platform events with end user actions for root cause analysis and understanding end-to-end service delivery is key to unlocking the value of an organization’s unstructured data. Pivotal CF Loggregator delivers the ability to tail a unified log stream of application platform events and end user actions to clients like the CF CLI, and publish the log stream to a syslog drain for integration with tools such as Pivotal AX, Splunk or logstash.

STANDARDIZED SERVICE CONFIGURATION AND EXTENSIBILITYEnterprises are shifting towards consumable web services to simplify configuration and increase application extensibility and portability. Developers using Pivotal CF’s standard service “binding” mechanism benefit from automatic provisioning,

PIVOTAL CF WEB CONSOLE

www.pivotal.io

Page 15: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

www.pivotal.io

Pivotal CF

卓越的JAVA SPRING支持和零接触服务集成企业可以期待通过Pivotal 提供的构建包来实现卓越的Java

Spring支持。大多数Spring应用程序不需要改变就可以部

署到Pivotal CF上,并且从一开始,就可以获得于例如

MySQL和RabbitMQ等服务的零触摸集成。Java构建包可以

自动推断出内存设置并为绑定服务配置容器,因此开发

人员可以集中精力编写代码,而不再需要关注如何配置

中间件。

被部署的应用程序获得内置服务

一旦部署到Pivotal CF,应用程序就可以获得内置的服

务,包括:

• 即时、水平伸缩的应用程序层

• 负载平衡 和DNS

• 自动化健康管理

• 日志记录和审计

• 通过Web控制台管理用户和服务

这些内置的弹性运行时服务的特性,允许企业大大降低供

应商的数量,以及连续的软件交付所需要的集成。

通过实时更新到为所有应用程序所共享的路由层,Pivotal

CF支持水平扩展和快速应用部署。 同动态路由的紧密协

调,以及快速、动态的容器创建,是PivotalCF 可以即时扩

展和更新数以百计的实例的核心能力。Pivotal CF 使企业可

以支持创建移动和社交应用程序,并且非常快速地对应用

程序进行新特性更新和扩展。这样的能力以往只为互联网

巨人所拥有。

一个真正的可伸缩的平台,必须维持对所有运行中应用程

序的可用性,仅仅是最低程度的操作干预。Pivotal CF的第

三代应用程序健康管理器,不断监控所有运行中的应用程

序的实例并作出适当的干预,使实际状态与预期的状态相

匹配。

解放企业的非结构化数据价值的关键,是能够提供一个包

含终端用户行为的、统一的应用平台事件日志流,这些

信息可以进行事件根本原因分析,以及理解端到端的服

务提供。利用Pivotal CF日志收集器,可以跟踪统一的日志

流,收集应用平台事件和类似于CF CLI这样的客户端最终

用户行为信息,并发布日志流到系统日志管道中,与例如

Pivotal AX,Splunk或logstash这样的工具进行集成 。

标准化的服务配置和扩展

企业正转向消费品web服务,来简化配置,提高应用程序

的可扩展性和可移植性。开发人员使用Pivotal CF标准服

务的“绑定”机制,获益于自动化部署、配置、管理,

以及储存的包括服务连接信息、凭证和依赖关系。因

此,企业可以不做变化,而将应用程序从开发测试环境

移动到分段和生产环境。

PIVOTAL CF 操作管理器世界上第一个集成IAAS的 PAAS操作管理器

Pivotal CF是业界唯一的支持直接与IaaS API集成的PaaS

平台,实现为交钥匙模式的部署体验以及全生命周期管

理。Pivotal CF的运行管理器从单一的虚拟设备(OVA)进

行安装。从那里开始,使用IaaS API,操作管理器完全自

动化地将Pivotal CF部署到一个具有Linux容器的Linux虚机

资源池。

Page 16: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

www.pivotal.io

Pivotal CF

提供快速和交钥匙模式的部署和更新,面向VSPHERE进行

优化

云运营商可以使用简单的接口,用于以交钥匙模式快

速部署到数据中心内的 v S p h e r e环境中。云运营商使

用“canary风格”的部署方式,对运行中的Pivotal CF系统

实现更新。因此,不再需要应用停机时间,而允许云运

行商通过几次点击来实现:

• 在垂直和水平方向,对弹性运行时服务和Pivotal One

Service进行伸缩

• 向Pivotal CF提供连续的软件更新和升级,包括操作系统

补丁

为了能够以交钥匙模式来部署大型分布式服务,Pivotal

CF操作管理器提供了一个通用的机制,包括一键部署

的Pivotal CF弹性运行时、Pivotal HD、Pivotal AX和

PivotalRabbitMQ 附加组件。

Pivotal One Services

PIVOTAL HD SERVICEPivotal CF的Pivotal HD服务,使云运营商能够将Hadoop作

为Pivotal CF的原生集成服务,来进行建立、管理和扩展。

通过服务代理,应用程序可以绑定到在HDFS中该服务的

自动分配能力、HAWQ中的数据库、以及资源队列中的

YARN。

对应用程序开发人员而言,可以消除在Hadoop应用程序的

开发部署、安全、网络和资源管理等环节中经常出现的复

杂性,以减少开发周期时间。

PIVOTAL MOBILE SERVICE 移动后端应用支撑服务作为重要的沟通和销售服务渠道,基于移动终端实现的客

户服务和销售的应用越来越受到企业用户的重视。传统实

现移动终端应用的方式,是通过独立系统的方法建立移动

终端专用系统,并实现该应用和企业业务支撑应用之间的

互联。这种实现方式,势必会导致因为烟囱式方式建立应

用带来的运维以及数据交互等的问题。

Pivotal Mobile Service通过创新性的方式,将移动应用支撑

平台MBaaS(Mobile BackEnd As A Service)的平台作为内

置服务的方式内嵌在Pivotal CF里,企业用户可以方便地实

现企业的移动终端业务应用,实现统一运维管理和弹性伸

缩,不用需要关注MbaaS传统实现方式下对于诸如消息推

动、后端信息同步等复杂底层问题,而只需要关注业务逻

辑本身,可以大大加速启动应用的开发实现速度;此外,

结合Pivotal CF的内置大数据分析服务,可以快速实现基于

云平台的统一大数据分析功能,以利于企业用户及时把握

业务动态,有效提升企业生产力。

PIVOTAL RABBITMQ SERVICEPivotal RabbitMQ是一个为运行在Pivotal CF之上以及外

部应用程序提供的消息中介,支持多协议。利用Pivotal

RabbitMQ,企业可以配置一个高可用的多节点消息服务器

集群,支持多租户和多协议使用。通过将异步消息带到应

用程序,Pivotal RabbitMQ增加应用程序的速度、可扩展性

和可靠性。

PIVOTAL MYSQL DEV SERVICE企业可以使用Pivotal MySQL Dev服务,对多租户、单实例

的 MySQL数据库进行配置,满足快速开发和测试需要。

Page 17: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

企业数据湖原理

“企业文化以战略为食”,Peter Drucker简单地道出了他的观

点。一个企业最难改变的就是它的文化。然而,在信息管理、分

析和报告领域,信息技术不断冲击着企业文化,而企业文化却无

力或因权限不足而无法作出改变。这其中的部分原因在于两个

实际限制:数据存储成本与传输成本,另一部分归咎于信息技

术带来的限制:单一规范模式。

当信息技术向企业级数据仓库(拥有单一中心)方案推进时,这

些限制将会影响企业继续使用或增加使用Excel数据表与孤立

方案。信息技术面临的挑战是:信息价值不断增长,而企业对

缓慢发展的单一解决方案的积极性却降低了。企业数据湖似乎

可以解决这个问题,通过利用新的大数据技术,解除数据存储

和传输成本限制,建立基于企业文化的当地解决方案。而所有

这一切,只需在企业数据湖这样一个单一的环境下即可完成。

不能把企业数据湖简单看作是一种技术创举,它的作用远不止

于此。它改变了信息技术文化,使其能够更好地匹配企业文化。

企业单元的独立、信息技术数据的集中化野心,以及企业管理

之间的历史战争已被证明是一场必败之战。

企业数据湖从以下两个方面应对挑战:建立单一文化;专注于

真正能够提供价值的领域。

管理咨询、信息技术和外包服务

凯 捷

Page 18: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

传统的数据仓库方法30年来未曾改变传统上,大多数数据仓库的设计均基于第三范式建模采用一个

中心层(通常称为单一规范模式)。此层据说由各种来自内外部

的来源填充,并为任何数据市场或使用服务。

正是这一层执行了“事实的唯一版本”的工作模式。存储在数

据仓库的任何信息,能够大量而准确地定义,遵循组进程,并

获得企业、信息技术和数据部门管理者的的批准。它们通常符

合共识。这意味着,每个人都同样不幸地无法浏览到他们想要

的信息。

这种工作模式在财务部门等封闭的企业管理中确实有效。但若

尝试将其运用到其他领域,就会出现以下问题:

1. 增加新信息或升级已有企业流程或业绩考核的时间将非常

长(数周或数月不等),且速度远不能满足企业的需求

2. 调整本地企业单元与企业流程将会变得异常复杂,不仅耗

时长且通常不可能实现,或即使实现,但效果不尽人意

3. 处理外部信息时,执行标准化的能力大幅降低甚至完全

丧失

折衷的结果是:通过提取、转换和加载的过程,被信息技术产业

化和固定化。就此而言,信息技术以简单的理念和平解决了这

个问题,其中最好的动机便是减少成本。这一阶段的目标仅在

于提取符合此模型的最少量信息。然后,通过应用这些过程,

使所有领域达到一致。从而避免在过程的每一阶段出现上文

提及的“不幸的共识”。

这种方式的背后推动力是降低成本。通过创建单一浏览,然后

专注于这一浏览,信息技术使解决方案成本最小化成为可能。

然而,这不幸的共识和信息技术方法的影响是简单的,即企业

单位建立自己的决策平台(通常利用企业自己的数据仓库),并

承诺仅为企业管理层数据库提供最少量的信息,但不使用它。

当今的挑战与30年前截然不同旧方法是基于30年前的挑战产生的,一个信息技术感应中有多

个生命周期。但如今有更多围绕数据的问题需要解决:

• 如何处理非结构数据?

• 如何链接内部与外部数据?

• 如何适应企业转变的速度?

• 如何清除重复的提取、转换、加载循环?

• 如何根据不同的企业需求支持不同水平的数据质量与管理?

• 如何让本地企业单元采取主动?

• 如何确保平台传输并被采用?

这些问题的出现,说明过去30年科技已经历了翻天覆地的变

化。削减数据存储成本的技术,可以允许实时分析并更快地为

企业用户提供信息。正是这些新挑战与新技术的影响,产生了

企业数据湖解决方案和方法。该方法的目的在于建立基于企业

运营、并利用(而非抵抗)企业文化的新信息文化的传播。企业

数据湖应当前形势而生,采用当今先进技术,能够完美满足当

今企业的需求。

企业数据湖原理

Page 19: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

企业数据湖背后的原理

企业数据湖改变了信息技术对传统企业级数据仓库信息的看法。它

主要采用以下新原理:

1. 尽可能多地获取信息,且保持信息原状

2. 鼓励行业创建单点方案

3. 让行业决定其解决问题的成本/效果

4. 集中管理关键的点

5. 把企业管理层浏览视为另一种行业浏览

6. 把非结构化信息也当作是信息

7. 从不认为数据湖可以包含一切

8. 规模以需求为驱动—规模减小或扩大

这些新的原理催生了一种新的方法,传输信息技术所需的信息,即基

于企业对本地浏览需求的低成本解决方案。

获得所有信息——数据存储企业数据湖的第一项突破,是尽可能多地获取信息,并按原状保存

信息。利用大数据分析文件系统,可以轻松将原始信息“扔进”大数

据库,而不用担心数据转换或格式化。新方法意味着:

• 当前可以进行信息的时间分析

• 需要时,可将信息地图搁置一边,而且程序启动时,数据被摄取之

前,不再需要这些地图

这种新方法可以极快地传输信息,且技术复杂性较低。这也意味着信

息技术已使得企业可以使用信息。不仅是当前的信息,还包括源系统

的完整历史数据来源。

鼓励行业自主决策——净化企业数据湖的另一个重要概念是净化。在这个过程中,企业根据数

据存储中的源数据历史,建立数据地图,产生符合当前需求的浏览。

这一环节的目的在于让企业可以提取任何允许获得的信息:隐私和安

全可以通过净化过程实现。这些地图可以循环使用或丢弃。必要时,单

点信息解决方案亦可如此。

通过允许企业访问所有原始信息,当前已实现在与长期财务计划和

企业报告相同的环境下,建立运营报告系统。更为重要的是,这解除

了对单点方案的需求:若所有的信息都在这里了,为什么还要费力再

去创建一个?

企业数据湖原理

Page 20: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

性能与成本选择目前,技术上有两种结构分析可供选择:

• 磁盘式结构分析,可以处理大量的数据,性能好且价格低,但速度

相对较慢

• 内存中分析,速度非常快但价格高

对于企业用户来说,最烦人的是这两种方法通常是基于完全不同的

技术堆栈。因此,企业要在知道各自的效益之前决定选择“便宜”还

是“快速”。结果往往是:要么太慢,要么太贵。

对于任何一个设备,企业数据湖在其中包含了磁盘式和内存式两种方法,从而解决了成本与效果的问题。因此,企业能够在转而接受内存式,

或甚至结合两种方法到一个解决方案中之前,以更为经济的设备实现原型及证明价值。企业数据湖能够把成本与效果决策与企业交付价值联

系起来,这为企业进行灵活分析提供了极大支持。

管理重要领域——合作尽管企业数据湖有诸多优点,但并不代表它不需要信息管理。相反,

它更有管理的需要,且管理可以集中于有价值的地方:管理人们需要

合作的部分。

简单来说,即企业数据湖提供了一个合作平台,但企业需要在有合作

需要的部分达成一致意见。对于大多数企业来说,这些需要合作的

部分只是少数的跨企业信息,即主数据和参考数据,以及最少量的交

易数据。这种旨在限定最少量数据集的方法,允许不同企业浏览的合

作,被称为最小规范形式。

提前选择 按需调整

分析 报告

磁盘式结构

分析 报告 实时结构分析

磁盘式结构

来源

实时摄取

微批摄取

批量摄取

执行层

实时浏览

互动浏览

批量浏览

摄取层

实时

微批

批量

观点层

SQL无SQL

SQL

SQL

并行编程

查询接口

系统监控 系统管理

数据管理

服务

主数据管理

参考数据管理

审计与策略

管理

流程管理

统一操作层

统一数据管理系列

内存中

数据加工层

净化层

大规模并行处理数据库

HDFS 存储非结构和结构数据

性能与成本的选择

企业数据湖原理

Page 21: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

本文件所含信息为专有信息.©2013凯捷版权所有。

Rightshore®系凯捷商标。

关于凯捷

凯捷是全球最知名的管理咨询、信息技术和外包服务提供商之一,在全球44个国家拥有超过130,000名员工。2012年,凯捷全球上市部分营业额达到103亿欧元。

作为一家拥有多元文化的机构,凯捷通过其独有的“协同业务体验TM”工作方式,利用其“Rightshore®”全球交付模式,帮助客户创建并提供适应其业务需求的最优解决方案。

欲了解更多详情,请访问 www.capgemini.com/bdl

和 www.pivotal.io/businessdatalake

或通过电子邮箱 [email protected] 联系我们。

MCO

S_G

I_M

K_20

1311

26

非结构化信息也是信息企业数据湖说到底是一个完整的信息平台,这意味着尽管它超越了所

有类型的结构化信息,它还是把非结构化信息当作一等公民。企业数

据湖不仅可以执行非结构化信息分析,还可将非结构化信息映射到结

构化数据。

通过在同一平台处理非结构化信息,同时提供一个低成本的机制访

问和处理这些信息,企业数据湖使企业用户可以利用新的非结构化

大数据分析,并把它和普通的结构化数据报告相结合。有了企业数据

湖,就不需要转换环境,也不需要创建点方案。这样,信息技术便回

答了企业对“如何处理大量非结构化数据”的疑问。

答案是:在相同环境下,利用相同的工具。历史方法不得不把非结构化

信息分析从结构化报告中分离出来。随着大数据的爆炸式发展,这种

方法已不再适用,尤其是在非结构化数据领域,传统的方法已完全丧

失效果,本地点方案已成唯一的选择。

企业数据湖专为大数据解决方案量身设计,利用这种方法时,所有信

息管理都在单一的环境进行。

联合分析能力企业数据湖最后的重要原理是:你不应认为拥有了一切。看到社交媒

体数据时,你不可能把所有的Facebook和Twitter复制到你的企业数

据湖。因此,联合分析能力和联系结果与数据湖的能力显得尤其重

要。为此,企业数据湖包含了移除和管理外部信息、联合分析与核对

结果的工具。

联合分析

Facebook

监管部门 Twitter

供应商顾客

企业数据湖

企业数据湖原理

Page 22: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

什么是PIVOTAL大数据套件?如今的竞争局势,需要企业具备多项能力,比如捕捉大量

迅速增长的数据集,快速分析数据,以及利用数据情报等

能力。尽管不少企业已经开始通过扩大其有限的信息技术

预算资金,进行新一代数据管理解决方案的设计,但利用

孤立的技术将无法为具体使用案例提供更广泛的性能。若

想跻身数据驱动领域的领导者之列,企业需要充分利用灵

活的大数据基础。

Pivotal大数据套件是一套统一的先进大数据技术,为建构

企业数据湖提供了一个功能强大、快速、灵活的方案。

不同于多厂商拼凑的解决方案,Pivotal是整合了几十年专

业知识和开发经验,并利用市场领先的数据管理和分析情

报,设计形成的一套统一的大数据架构。这使得客户能够

随时随地按需使用Pivotal强大的数据性能。

Pivotal大数据套件提供当今领先的企业级Hadoop版本—

Pivotal HD,且订阅方式不设限。一旦拥有能够满足数据爆

炸性增长的储存性能,企业将有信心创设新一代数据基础

设施,以重点解锁数据价值。

Pivotal大数据套件整合了企业数据湖架构的所有基本要素:

• 创建一个丰富的数据池,为企业需求储存所有数

据。Pivotal HD提供无限制的支持,企业无需担忧受到数

据增长限制或被收取恶性许可费用。

• 采用广泛、深入快速的方法进行数据分析,便于确定多

个数据集和数据类型的整合价值。

• 利用灵活的数据基础设施,设计正确的数据架构,从而

提供革命性解决方案,以更好地满足当今业务需求。

背景简述

当今,各公司正努力发掘大数据的潜能,纵使面临

着有限的资金预算、复杂的关键技术决策和指数数

据增长等多重挑战。Pivotal大数据套件以具有成本效

益的模式为世界提供最先进灵活的工具。这将有助

于构建现代化的企业数据湖架构,用于消除数据存

储、传送和分析及技术和财务方面的限制。该套件

不仅使企业能够储存任何数据,加快处理数据的速

度,更重要的是,它能使企业提高业务分析和操作

的数据量。

核心益处

• 通过混合各种数据源和多种数据结构的存储和管理

技术,来消除IT 系统的限制,满足不同业务需求

• 提供企业数据湖的基础架构,通过无缝集成订阅的

模式来捕获、分析和利用数据

• 提供丰富、深入、快速的分析工具集,帮助企业更

好地洞察业务数据

• 面向新一代企业业务应用程序,创建方便、灵活存

取的数据池,为企业业务和运营提供更好的数据方

案,帮助企业超越竞争对手,加快收入增长

Pivotal大数据套件储存全部数据、分析任意数据、做对正确的工作

概述

www.pivotal.io

Page 23: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

PIVOTAL大数据套件

如何使用PIVOTAL大数据套件?储存任何数据

现今,多数企业面临的最大挑战是如何管理爆炸性增长的

数据,包括从社会媒体产生的客户数据到网络日志等由机

器生成的各种数据。企业对以60%逐年递增的数据存储费

用表示十分担忧。建立企业数据湖架构,成为数据驱动型

企业的第一步便是无限期地存储各种类型的数据。相较于

传统方式,这更具挑战性且更昂贵。有了Pivotal大数据套

件,企业能够按照数据原生格式储存数据,使用当今世界

级企业支持的Hadoop版本Pivotal HD进行无限制订阅。

企业可以对尚未被完全利用的数据进行储存和归档。企

业可以移动数据到Pivotal HD以释放现有企业数据仓库资

源。通过免费存储大容量数据,Pivotal大数据套件自动提

供额外的数据模式和方案,帮助公司成为新一代数据驱动

型企业。

分析任何数据

将数据储存后,企业便可以专注于真正重要的部分—确

定信息价值,识别不同数据集间是否具有相关性。当今的

数据分析需要实时、交互式和批处理能力。Pivotal大数据

套件能够为数据专家和分析师提供最先进、最灵活的分析

引擎和工具集。

批量分析

基于Apache Hadoop版本,利用MapReduce,Pivotal HD能

够无限制满足所有批量分析的需求。使用Pivotal大数据套

件,能够基于任何数据进行批量分析,使企业发现价值

数据。

交互式分析

Pivotal Greenplum 数据库系统利用无共享、大量信息并行

处理(MPP)数据库,以及灵活的行列定位存储,提供一

个真正先进的分析数据仓库(ADW)。同时,HWAQ通过

HDFS为交互查询分析提供最高执行层级的SQL查询引擎。

在企业现有的企业级数据仓库(EDW)架构内,两者能够

实现完全平行的数据交流。

实时分析和内存数据网格

针对实时分析和事务处理需求,企业可以利用Pivota l

GemFire,Pivotal SQLFire 和Povital GemFire XD,通过内存

数据网格技术对数据环境进行无缝扩展。针对企业数据湖

的建构,快速灵活地实时补充,使得单一集成的数据平台

能够对大数量、大规模的数据进行分析。

建立企业数据湖及实现数据驱动的所有丰富灵活的工具。

大数据套件

实时 实时

交互 交互

批处理 无限制的PIVOTAL HD 批处理

www.pivotal.io

Page 24: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

PIVOTAL大数据套件

做对正确的工作

Pivotal大数据套件通过强大的新数据基础为企业创新提供

动力。根据灵活的分析结果,企业可以利用多种方法洞

悉其日常业务操作。Pivotal通过结合Spring(全球最流行

的Java开发框架)与Pivotal CF(行业领先的平台即服务科

技),首次开发出强大的数据管理技术。在实际运用中,

灵活现代化的企业数据湖架构能够为新一代快速(低延

迟)、数据密集型应用的开发提供动力。

核心优势 数据分析收费,数据储存免费

Pivotal是唯一能够无限制地提供当今领先企业级Hadoop版

本Pivotal HD的公司。企业扩展其企业数据湖,储存各类数

据,Pivotal大数据套件保证对此只进行数据储存而不收取

费用。

以顾客为中心的弹性许可支持

Pivotal大数据套件提供全球最先进、最灵活、最易为用户

掌握的大数据分析平台订阅。核心处理器提供灵活的许可

支持,并不受限于数据大小或数据增长。核心处理器的定

价明确,用户无须担忧数据爆发性增长会引发恶性许可证

支持费用。弹性许可订阅模式使客户能够随时随地按需使

用Pivotal强大的数据分析性能。

构建企业数据湖,成为数据驱动型企业

不同于多厂商拼凑的异构解决方案,Pivotal通过整合性解

决方案,提供所有必需的企业数据管理技术。Pivotal 大数

据套件结合了领先的大数据技术,利用几十年的专业知

识、开发经验,以及市场领先的数据管理和分析智能,为

企业提供一套新型的系统数据架构。

www.pivotal.io

Page 25: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

Hadoop已被证明是一种非常适合处理大数据问题的技

术。Hadoop结构的基本原理是将分析移入数据,而不是将

数据移入分析系统。理想情况下,Hadoop能够利用商业硬

件的先进性,向企业希望的方式扩展。

Hadoop用户之所以能够成功保留和分析数据,主要依赖于

两项关键技术:HDFS和MapReduce。

HDFS是一个简单但非常强大的分布式文件系统。它能够大

规模地存储数据,并且相当可靠。HDFS具有上千个可存储

数百PB级用户数据的节点。

MapReduce是结合HDFS的并行编程框架。它允许用户在少

数函数和运算符方面表示数据分析算法,函数主要为map

函数和reduce函数。

MapReduce的成功证明了HDFS的稳健性—无论是作为一

个系统用于恢复和访问数据,还是作为一个应用程序编程

接口(API),用于大数据分析框架。

虽然MapReduce在执行计划分析,或处理存储在HDFS中的

数据时很方便,但它并不适合交互使用:因为它实在是太

慢了,而且还缺乏所需的表达能力。

SQL SQL是一种数据分析语言。就这项任务而言,没有哪种语

言能比它更有表现力或更常用。对Hadoop压大注的公司--

如Facebook、Twitter和Yahoo,尤其是Yahoo--很快便明白

了这一点。其解决方案类似蜂房,一个类似SQL的查询引

擎,编译了有限的SQL-MapReduce方言。尽管这样做克服

了一些MapReduce表现力不足的缺陷,性能问题却因此更

加突出。

许多Hadoop用户被排除在真实的SQL系统之外。或者

说,很难将从Hadoop系统获取的数据放入SQL系统;或

者,SQL无法与Hadoop一样在附近任何地方扩展;或者,

当SQL达到普通Hadoop集群的规模时,会变得非常昂贵。

HAWQ:HADOOP与并行SQL数据库技术的结合HAWQ是一款并行SQL查询引擎,它结合了业界领先枢

纽分析数据库的关键技术优势,并集Hadoop的可扩展

性和便利性于一体。HAWQ从HDFS就地读取数据及写

入数据。H AWQ提供了业界领先的性能和线性可扩展

性。HAWQ通过向用户提供工具,使用户能够轻松顺利地

完成与PB数据集的交互。HAWQ为用户提供了一套完整的

符合SQL接口标准的接口。

Pivotal HD: HAWQ一个真正的SQL HADOOP引擎

引言

当今,成功的企业往往使用对其有利的数据。这些数据不再是销售交易数据点等容易量化的事实。

相反,这些企业保留、探索、分析和处理在其职权范围内的所有可用信息。最终,他们搜寻那些

能够促成新商业契机或影响其现有优势的事实和见解证据。这便是所谓的大数据背后隐藏的商业 价值。

www.pivotal.io

Page 26: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

PIVOTAL HD: HAWQ

通过使用经过验证的Pivotal Analytic Database并行数据库技

术,HAWQ被证明比当今市场上任何Hadoop查询引擎都快

几十到几百倍。

HAWQ 架构HAWQ最初的设计定位是:专为分析完整事务支持而优

化的大规模并行SQL处理引擎。HAWQ将复杂查询分解成

若干小任务,并将其分配到查询处理单元来执行。HAWQ

结合了基于成本的世界一流查询优化、领先的边缘网络

互连、功能丰富的SQL和分析界面、并配有事务性存储子

系统的高性能执行运行时间,是唯一能够提供此技术的

Hadoop查询引擎。

HAWQ的架构如图1所示。该段实例展示了HAWQ并行性的

基本单位。多段实例在商用服务器上同时工作,形成单一

的并行查询处理系统。当查询提交至HAWQ主机,经过优

化,分解成更小的组件,之后分配到同时工作的段,以提

供单个的结果集。所有操作,如表格扫描、连接、聚合、

排序,在两端并联段同时执行各种命令。上游组件的数据

通过高度扩展的UDP互连发送到下游组件。

HAWQ设计成具有高弹性和高性能,即使执行最复杂的查

询时亦是如此。不管数据量多少,凭借HAWQ在数据流操

作方面的独特能力,即我们所谓的动态流水线,所有的操

作都能完成。

HAWQ设计成不存在单点故障。用户数据存储在HDFS上,

确保数据可以复制。HAWQ与HDFS同时运行,确保硬件故

障在网上自动恢复。对内部,持续监测系统运行状况。当

检测到服务器故障,它能够自动从集群中移除动态,而不

影响系统继续提供查询服务。恢复的服务器可联机重新添

加到系统。主机上,HAWQ利用自身元数据复制系统,从

而确保元数据的高度可用性。

与其他并行数据库架构的对比

HAWQ的架构与其他并行数据库不同。HAWQ由元数据驱

动,大部分系统行为受HAWQ的注

册数据约束。因此对用户透明。元

数据通过Universal Catalog Service进

行管理。这是存在于主机的元数据

存储。Universal Catalog Service可

以复制,从而保证数据的高度可用

性。

当查询计划生成时, H A W Q 在

Hadoop集群中调度计划到工作节

点,以及元数据的有效载荷,用于

执行计划。这种方法最适合那些寻

求扩展到数千个节点的系统。

值得注意的是,HAWQ查询优化器在主机生成查询计划。

集群中的工作节点仅仅只是对其进行评估。许多其他

的并行数据库,并不是将查询分解成全球业务和本地业

务,而是与工作节点生成本地业务的优化查询计划。虽

然这种方法在技术上更为简单,但它忽略了许多重要的

查询优化机会。大部分HAWQ的惊艳表现来自其查询优化

的宏伟蓝图。

HAWQ在处理大数据的常见挑战上也很有弹性。查询引擎

能够智能缓存数据。必要时,还可将中间结果溢出到磁

盘上。性能方面,HAWQ提供数据到本地磁盘,而不是到

HDFS。其结果是,HAWQ能够对集群易失性存储器中超出

的大量数据进行连接、排序和OLAP操作。

主服务器&名称节点

查询计划&部署

网络连接

段服务器&数据节点

查询处理&数据存储

外部资源

上载, 流动式接收等

www.pivotal.io

图 1: HAWQ 架构

Page 27: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

PIVOTAL HD: HAWQ

HAWQ的重要特性和优点高度扩展和存储系统

• 通过HAWQ,SQL可在Hadoop上扩展。HAWQ专为PB级

数据集设计。

• 数据直接存储于HDFS,为Hadoop提供一切便利。

业界领先的性能与动态流水线

• HAWQ的尖端查询优化器能够产生其认为将能够最充分

使用群集资源的执行计划,不论查询多么复杂或数据多

么庞大。

• HAWQ使用动态流水线技术协调查询的执行。

• 动态流水线是一个经过独特组合的并行数据流架构:

- 一个具有高度适应性的高速UDP互联,开发并使用

于Pivotal的1000台服务器分析工作台

- 一个运行时的执行环境,调整为大数据工作负载,

执行构成所有SQL查询的操作

- 一个运行时的资源管理层,确保查询的完整性,即

使在重负荷的集群上进行非常严苛的查询

- 一个无缝数据划分机制,将通常在任何既定查询中

使用的数据集部分组合在一起

• 广泛的性能研究表明,对于常见的Hadoop、分析和数据

存储工作量,HAWQ的查询速度比任何现有的Hadoop查

询引擎都快的多。

弹性故障容错和事务支持

• HAWQ的容错性、可靠性和高度可用性特点可容忍磁盘

级和节点级故障。

• HAWQ首先针对Hadoop的事务提供支持。事务允许用户

隔离Hadoop的并发活动,并在发生故障时返回修改。

数据管理和分析工具包

• HAWQ可与MapReduce、HBase和Hadoop环境中常见的其

他数据库技术共存。

• HAWQ支持传统的在线分析处理(OLAP)以及先进的机

器学习能力,如监督和无监督学习、推理及回归。

• HAWQ支持GPXF,GPXF是一种独特的扩展框架,允许用

户方连接HAWQ自定义格式和Hadoop生态系统的其他部

分,操作方便。

真实的SQL功能

• 基于成本的HAWQ查询优化器,可以毫不费力地为要求

最严苛的查询找到最优的查询计划,如,有三十多个连

接的查询

• HAWQ能够兼容SQL标准,包括相关子查询、窗函数、

汇总和多维数据集、广泛的标量和聚合函数等类似功能

• HAWQ能够兼容ACID

• 用户可以通过最流行的编程语言连接H A W Q。此

外,HAWQ还支持ODBC和JDBC。这意味着大多数商

业智能、数据分析和数据可视化工具,可创造性地与

HAWQ一起工作。

性能结果作为对HAWQ开发的一部分,我们选择同时反映Hadoop

的实际客户工作量和理想客户工作量,可以采用

MapReduce、Hive或任何其他技术。通过这些工作量来验证

HAWQ的性能和可扩展性。

隔离性能研究几乎没有现实意义,所以HAWQ与Hive、SQL

并行新引擎对Hadoop进行基准测试,称为Impala1 ,从而

保证比较的公平性,所有系统都部署在Pivotal Analytics

Workbench2 (AWB)。我们对AWB进行了相关配置,以通过

Hadoop3 实现最佳性能。

研究和开发涉及的工作量中,我们选取了五个查询和数据

集用于性能比较。此比较执行两个标准:一是查询必须反

映当今Hadoop的独特用途;二是查询必须在Hive、Impala

和HAWQ4 上完成。

性能试验发生在AWB一个60节点的部署上。选择这种规模

的部署,是因为它是我们在Impala上看到的性能最稳定的

点。HAWQ已在200多个节点上验证了其稳定的性能。

1 https://github.com/cloudera/impala/,编写时为beta 版本 2 http://www.analyticsworkbench.com/ 3 http://www.greenplum.com/sites/default/files/Greenplum-Analytics-Workbench-Whitepaper_0.pdf 4 宏级中的多数查询都超过8个连接,但这些问题无法在Hive或Impala上完成。

查询类别HAWQ

(秒) Hive 加速 Impala 加速

用户情报 4.2 198 47x 37 9x

销售分析 8.7 161 19x 596 69x

点击分析 2.0 415 208x 50 25x

数据探索 2.7 1285 476x 55 20x

BI 追溯 2.8 1815 648x 59 21x

表 1: 五个真实查询在HAWQ、Hive 和Impala上的性能结果

Page 28: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

PIVOTAL HD: HAWQ

性能比较结果如表1所示。显而易见,相对于其他当前可用

的Hadoop选择,HAWQ性能更为卓越。

Hadoop上运用的所有技术中,最重要的一个方面是其扩

展能力。绝对性能仅被认为是次要的。基于此,我们选

择在15、30和60个节点上进行试验,验证其在这些节点处

的性能。

表 2: HAWQ 和Impala的相对扩展性

表2显示了HAWQ和Impala的相对扩展性。针对大小一致

的数据集,服务器数量每增加一倍,表1中的查询运行时

间几乎减半。已证明HAWQ可继续向这样超过200个节点

扩展。出人意料的是,Impala的性能在15个节点时比在30

或60个节点时要好:当相同的数据量为计算资源的四倍

时,Impala返回结果所耗时间多了30%。

结论S Q L 是一种非常强大的数据处理和理解方式。目

前,Hadoop的SQL能力相对有限,且对许多用户来说并

不实际。而HAWQ是SQL在Hadoop的新标杆—功能最强

大、成熟和稳健的SQL产品。通过动态流水线和Greenplum

Analytic Database中的重大创新,HAWQ能够提供的性能远

远超乎想象。HAWQ改变了一切。

HAWQ Impala

15节点 30节点 60节点

www.pivotal.io

Page 29: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

什么是PIVOTAL GEMFIRE XD?通过创建一个跨越多个独立物理设备或跨越X86架/板的内

存共享池,Pivotal Gemfire XD能够提供动态水平缩放。共

享池可以根据需求的变化进行相应的扩大或缩小。

复制或分区表既可在内存中独立操作,也可同时在内存和

硬盘上操作。应用程序逻辑可以追溯数据位置,从而提高

并行执行过程的性能。

作为主要数据储存,或作为一个或多个现存数据库前端数

据管理层,Pivotal Gemfire XD可以确保数据中心内部和数

据中心间的连续可用性。任何数据表均可复制或分区为冗

余拷贝。

Pivotal Gemfire XD包括:一个基于成本的先进优化器,一

个快速SQL查询引擎,该引擎能将查询编译成字节码。有

相关数据库使用经验的人会发现Pivotal Gemfire XD配置、

部署的模型简单、直观、易于使用和适应。与许多流行数

据网格不同,Pivotal Gemfire XD具有本地数据持久性和恢

复能力,能够进行分布式数据存储。

背景简述

Pivotal Gemfire XD是一个分布式内存SQL数据库,它

能使现代数据密集型应用程序具有动态扩展性和高

效性能。Pivotal Gemfire XD的内存优化框架,能够最

大限度地避免传统数据库的性能瓶颈,即缩短磁盘

访问时间。

Pivotal Gemfire XD能够远程管理数据,通过机器

集群共享内存、CPU以及网络宽带,来实现戏剧性

缩放。Pivotal Gemfire XD为开发人员提供著名的

SQL接口和工具。通过有效结合SQL查询引擎,加上

SQL、JDBC、ADO.NET等标准的支持,传统数据库的

应用程序很容易移植到Pivotal Gemfire XD中。

核心益处

缩短SQL应用程序的延迟—基于内存的数据管理,

能够提高应用性能,减少硬盘和网络延迟。

标准SQL语法和工具—利用常见的SQL标准接口,

数据库应用程序开发员即可轻松把内存导向的方法

结合到数据管理当中。

轻松缩放即可满足最高要求—数据可根据负载和

资源可用性的变化,轻松跨越服务器。

高度可用性和灾难恢复—确保数据中心内部和数

据中心间的连续可用性,支持颗粒灾难恢复到单个

表水平。

理想的高交互速率—对于大型交互导向网页等

应用程序,硬盘和网络进行大量小数据项的扼流交

付,Pivotal Gemfire XD使其能达到理想的高交互速率。

内存导向和云优化—专有硬件的使用,为极大规

模地实现高性能数据库提供了一种可行方案。

Pivotal Gemfire XD分布式内存SQL数据库

概述

www.pivotal.io

速度内存速度

缩放缩放到适合任何应用,且

在任何时间均可用

SQL水平缩放,带真正的

SQL界面

Page 30: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

编写自定义应用程序的传统数据库开发人员,倾向

于使用Pivotal Gemfire XD,因为Pivotal Gemfire XD

采用的是SQL、JDBC、ADO.NET等已有的标准。利用

大生态系统兼容产品和框架,如对象关系映射工具

(Hibernate、NHibernate等),模式编辑、数据库管理工

具和Spring JDBC,Pivotal Gemfire XD的配置和部署简单,产

品工作高效率高。

使用由Pivotal Gemfire XD支持的标准SQL语法的应用程序,

极具灵活性、前瞻性和高性能,可以轻松对相关数据库进

行植入和输出。

主要特点• 低延迟—基于内存的数据管理,能够通过消除查找、

读、写、以及网络往返过程中的延迟,保持一贯的高性能。

• 超强的写入性能—高交互量的大型数据库的理想水

平,是形成与内存速度性能相匹配的写入性能,该写入

性能可以达到服务水平。

• 简化的规模扩展和规模缩减—产品在独立节点上对数

据进行重新划分、复制和平衡,从而适应负载或新资源

的转移。

• 标准SQL接口—技艺娴熟的数据库程序开发人员使用

Pivotal Gemfire XD时,能够利用SQL知识,轻松将内存导

向的数据库运用到程序环境当中。

• 灵活的HA和DR选择—数据中心内部和数据中心间的

数据交换能够保证连续的高性能(HA)。硬盘可进行局

部或全部,同步或异步写入,从而满足灾难恢复(DR)

或操作要求。

• “无共享”结构—为避免发生任何单点事故,Pivotal

Gemfire XD在服务器异常脱机时也能保证数据的可用性。

• 支持异地数据—广域网(WAN)的内置、容错及优

化的分布性能,可以使一组数据集群操作犹如单个企业

集群操作。Pivotal Gemfire XD能够提供单一全局性、实

时、主动对主动的数据骨干。

Pivotal Hadoop:面向大数据的分析处理平台

2

Pivotal Hadoop:面向大数据的分析处理平台

HDFS

HBase Pig, Hive

Mahout Map

Reduce

Sqoop Flume

Resource

Management & Workflow

Yarn

Zookeeper

Apache Pivotal

Command Center Configure,

Deploy, Monitor, Manage

Spring XD

Pivotal HD Enterprise

Xtension Framework

Catalog Services

Query Optimizer

PXF

ANSI SQL + Analytics

HAWQ – 高级数据库服务

Distributed In-memory

Store

Query Transactions

Ingestion Processing

Hadoop Driver – Parallel with Compaction

ANSI SQL + In-Memory

GemFire XD – 实时数据库服务

MADlib Algorithms

Oozie

Virtual Extensions

Spring GraphLab,OpenMPI

PIVOTAL GEMFIRE XD

www.pivotal.io

Page 31: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和
Page 32: Pivotal 云计算和大数据解决方案edmcn.net/Pivotal/20141124_1/Pivotal.pdf · 企业的很多大数据项目必须要依赖于云技术来实现具体的落 地,因为整个架构的扩展性、弹性伸缩能力是实现云计算和

GoPivotal、Pivotal和Pivotal商标均为产国及其它国家GoPivotal Inc.注册商标或商标。此处所用所有其它商标均为各所有人财产。© 2014 Pivotal, Inc.版权所有。

在Pivotal,我们的使命是帮助客户,利用大数据和快数据构建新型应用程序,并通过具有云独立性的技术来实施。通过联合EMC及VMware选定技术、人员及程序,下述产品和服务现已成为Pivotal的一部分:Greenplum、Cloud Foundry、Spring、GemFire及VMware vFabric Suite、Cetas和Pivotal Labs其它产品。

Pivotal 3495 Deer Creek Road Palo Alto, CA 94304 www.pivotal.io


Recommended