+ All Categories
Home > Documents > An Enterprise Architects Guide to Oracle's Big Data...

An Enterprise Architects Guide to Oracle's Big Data...

Date post: 13-Oct-2020
Category:
Upload: others
View: 2 times
Download: 0 times
Share this document with a friend
51
企业架构师大数据指南 参考架构概述 ORACLE 企业架构白皮书 | 2016 3
Transcript
Page 1: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

企业架构师大数据指南

参考架构概述

ORACLE 企业架构白皮书 | 2016 年 3 月

Page 2: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

ORACLE 企业架构白皮书 — 企业架构师大数据指南

免责声明 以下内容旨在概述产品的总体发展方向。该内容仅供参考,不可纳入任何合同。其内容不构成提供

任何材料、代码或功能的承诺,并且不应该作为制定购买决策的依据。此处所述有关 Oracle 产品的

任何特性或功能的开发、发布以及相应的日程安排均由 Oracle 自行决定。

Page 3: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

目录

概要 1

其他架构资料 3

基本概念 4

什么是大数据? 4

有关大数据的关键问题 5

大数据有何不同寻常之处? 7

采用企业架构方法 11

大数据参考架构概述 14

传统信息架构功能 14

增加大数据功能 14

统一的参考架构 16

企业信息管理功能 17

大数据架构功能 18

Oracle 大数据云服务 23

Oracle 大数据架构的亮点 24

Big Data SQL 24

数据集成 26

Oracle Big Data Connectors 27

Oracle Big Data Preparation 28

Oracle Stream Explorer 29

安全架构 30

业务智能、信息发现和分析之间的对比 31

数据可视化 33

Spatial and Graph 分析 35

将架构扩展到物联网 36

三个用例的大数据架构模式 38

用例 1:零售业 Web 日志分析 38

用例 2:金融服务业实时风险检测 39

用例 3:使用车载信息服务确定驾驶员的可保性 41

大数据最佳实践 43

总结 45

ORACLE 企业架构白皮书 — 企业架构师大数据指南

Page 4: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

1 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

概要

当今,大数据通常定义为种类更多、流入的数据量更高、速度更快的数据。数十亿传输数据的智能传

感器和设备的部署(常称为物联网)以及其他半结构化和结构化数据源,这些正在驱动产生更多、更

快速、更复杂的数据。对于这些数据,必须持续地进行收集、分析,然后才能用于指导企业采取适当

的措施,从而为企业提供价值。

大多数企业都敏锐地意识到,当今发生的几乎每项数字化转型皆以大数据为核心。比如,实现更佳客

户体验的应用程序通常在智能设备的支持下,能够对客户行为做出即时响应。市场上销售的智能产品

可以捕获整个环境情境。业务分析师和数据科学家正在开发大量新的分析技术和模型以发现这些数据

提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

品和消费趋势、展现产品可靠性,以及发现真正的责任归属。

IT 组织正在急切通过内部解决方案和基于公有云的解决方案部署大数据处理、存储和集成技术。基

于云的大数据解决方案托管在基础架构即服务 (IaaS) 上,作为平台即服务 (PaaS) 来交付,或者以

软件即服务 (SaaS) 的形式作为大数据应用程序(和数据服务)来交付。每个解决方案必须满足它

们所支持的业务智能、分析和运营系统及流程的关键服务级别协议 (SLA) 要求。这些解决方案必须

能够大规模执行,必须弹性、安全并且是可管控的。此外,它们还必须经济高效,能够将数据复制

和传输降至最低。如今已经可以一致地遵循这些标准提供当代架构系统。Oracle 已为所有这些部署

模型创建了参考架构。

选择 Oracle 作为您实现大数据功能的基础具有充分的理由。Oracle 自 35 年前成立以来已对信息管

理的几乎每一方面进行了大量投入 — 从软件、硬件,到内部部署解决方案和基于云的解决方案的创

新集成。Oracle 一系列的数据管理解决方案不断解决最棘手的技术和业务问题,在具有最高的可靠

性、可用性和可伸缩性的数据平台上提供最高的性能。Oracle 继续提供各种辅助数据管理功能,包

括数据捕获、转换、移动、质量、安全和管理,同时提供强健的数据发现、访问、分析和可视化软

件。Oracle 独特的价值在于它长期以来坚持对最广泛的企业级信息技术体系进行集成设计以实现协

同工作,这不仅能够简化复杂的 IT 环境并降低 TCO,而且当出现新的领域,比如大数据时,可以

最大程度降低风险。

Page 5: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

2 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

Oracle 认为大数据不是一个孤岛。它只是集成式企业级信息管理能力的一个最新的方面。频繁出现

的开源贡献、不断发展的基于云的产品,以及不断涌现的分析战略,都在推动大数据向前发展,因

而从其本身来看,大数据可能很容易增加企业 IT 环境的复杂性。在您通往安全和成功的未来环境的

过程中,Oracle 为您提供同类最佳的产品、支持和服务,可为您的企业架构打下坚实的基础。

为满足业务需求并提供价值,架构师必须评估如何在整个企业信息架构中高效地管理这些海量、高

速、多样化的新数据。大数据目标与您的其余信息管理目标毫无二致 — 只不过如今,经济与技术已

足够成熟,能够处理和分析这些数据。

本文将介绍大数据生态系统以及企业架构师可能面临的架构选择。本文将定义主要术语和功能,展

示参考架构,并描述主要 Oracle 产品和开源解决方案。还将提供一些观点和准则,以及它们在实际

用例中的应用。文中提供的方法和指导是从数百个客户项目获得的经验总结,突出了客户在其架构

规划和实施过程中面临的决策。

Oracle 架构师为众多行业和政府机构服务,他们依据企业架构最佳实践制定了标准化的方法。这些

对于熟悉 TOGAF 和其他最佳架构实践的架构师而言应该很熟悉。Oracle 架构开发流程 (OADP) 和

Oracle 企业架构框架 (OEAF) 白皮书清楚地描述了 Oracle 的企业架构方法和框架。

Page 6: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

3 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

其他架构资料

Oracle 还提供了其他文档,可作为本白皮书的补充资料。下面介绍了其中几个文档:

Oracle IT 战略 (ITSO) 由一系列从业者指南和参考架构组成,旨在帮助企业制定以架构为中心的方法来实

现企业级 IT 计划。ITSO 通过阐明普遍采用的架构概念、原则、准则、标准和模式来展示成功的技术战略和解

决方案设计。

大数据和分析参考架构白皮书(39 页)提供了逻辑架构以及 Oracle 产品对应关系。信息管理参考架构(200

页)论述了 Oracle 参考架构的信息管理方面,描述了有助于设计参考架构的重要概念、功能、准则、技术和一

些架构视图,包括概念视图、逻辑视图、产品对应关系视图和部署视图。ORA 安全性 白皮书(140 页)和

ORA 管理和监视 白皮书(72 页)论述了信息管理的安全性和管理方面。这个 ITSO 库中的其他相关文档包括

云计算、业务分析、业务流程管理或面向服务的架构。

信息管理和大数据参考架构(30 页)白皮书全面介绍了与供应商无关的大数据概念和逻辑架构。此白皮书将帮

助您了解构建大数据功能时出现的一些规划问题。

Oracle 企业架构网站上公布的行业白皮书介绍了许多公司和企业实施大数据的业务环境示例。涉及的行业包括

农业综合经营、通信服务提供商、教育、金融服务、医疗付款、医疗保健提供商、保险、物流和运输、制造、

媒体和娱乐、制药和生命科学、零售以及公用事业。

最后,从 Oracle 技术网 (OTN) 和 Oracle.com/BigData 可以获得大量的大数据资料。

Page 7: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

4 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

基本概念

什么是大数据? 过去,一些大规模的互联网搜索、广告和社交网络公司率先开展了大数据硬件和软件创新。例如,Google 对每

天 1.5 万亿次页面浏览量分析点击数据、链接数据和内容 (www.alexa.com),几毫秒内即可提供搜索结果和个

性化广告!这是计算机科学工程的一项了不起的成就。

随着 Google、Yahoo、Oracle 和其他企业将自身的技术贡献给开源社区,大数据开始更广泛地惠及商业和公共

部门,促使它们迎接大数据挑战,让大数据为自身服务。和先驱者不一样的是,广阔的市场看待大数据的角度

略有不同。他们看到的不是独立解释的数据,而是通过将新数据添加到其现有运营或分析系统中实现的价值。

因此,大数据描述了一个整体信息管理战略,除了传统数据外,其中还包括并集成了许多新型的数据和数据管

理。虽然许多用于处理和分析这些数据类型的技术早已存在,但是一直以来,促使这些技术得到更广泛应用的

却是数据激增和成本更低的计算模型。此外,大数据还让两个基本的存储和处理技术变得流行起来:Apache

Hadoop 和 NoSQL 数据库。

人们也用四个“V”来定义大数据:数据量 (Volume)、速度 (Velocity)、多样性 (Variety) 和价值 (Value)。这些“V”

成为了确定是否应将大数据添加到您的信息架构中的一种合理的检验方法。

» 数据量 (Volume)。数据的数量。虽然数据量意味着更多 的数据,但是真正特别的是这种数据的细粒度特

质。大数据需要处理大量低密度数据,即价值未知的数据,例如 Twitter 数据信源、网页点击量、网络流

量、支持传感器的设备以光速捕获的数据等等。大数据的任务就是将低密度数据转换为高密度数据,即有

价值的数据。对于一些公司而言,数据量可能是几十 TB,而对于另一些公司,可能是几百 PB。

» 速度 (Velocity)。接收数据的速度很快,处理数据的速度可能也很快。速度最快的数据通常直接流入内

存,而不是写入磁盘。一些物联网 (IoT) 应用需要对健康与安全后果进行实时评估和处理。其他支持互联

网的智能产品实时或近乎实时地运行。例如,消费类电子商务应用力图结合运用移动设备位置和个人喜好

来推出时效性优惠。从运营角度来看,移动应用体验具有庞大的用户群,其网络流量增加,并且用户期望

获得即时响应。

» 多样性 (Variety)。新的非结构化数据类型。非结构化和半结构化数据类型,如文本、音频及视频,需要额外

处理以从中获得含义及支持元数据。一旦理解了非结构化数据,这些数据就具有了许多与结构化数据相同的

需求,例如汇总、沿袭、可审计性和隐私。当来自已知数据源的数据没有事先通知就发生更改时,这进一步

增加了复杂性。频繁或实时的模式更改对于事务环境和分析环境而言都是一个巨大负担。

» 价值 (Value)。数据具有内在的价值,但是这种价值潜藏不露需要发掘。有许多定量分析技术可用于挖掘数据

的价值 — 发现消费者喜好或舆情、按位置推出相关优惠,或者识别即将出现故障的设备等等。技术上的突破

是数据存储和计算的成本已大幅降低,因此可提供大量数据,于是统计抽样和其他技术方法可以发挥作用,

从中发掘含义。然而,发掘价值还需要新的发现流程,需要聪慧、富有洞察力的分析师、业务用户和高管参

与其中。真正的大数据挑战是一场人类挑战,人们需要学习询问适当的问题、识别模式、做出有根据的假

设,以及预测行为。

Page 8: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

5 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

有关大数据的关键问题

可喜的是,每个人都在询问有关大数据的问题!业务团队和 IT 团队一直在冒险进行尝试,对于大数据,显然存

在一种旺盛的偏爱。Oracle 建议当您开启大数据旅程时,应对信息管理采用企业架构方法;大数据是一项企业

资产,需要作为您当前信息管理架构的一个集成的组成部分从业务一致性到治理等各个方面进行管理。这是一

种切实可行的方法,因为我们知道当您从概念验证转为大规模运行时,将会遇到与其他信息管理挑战相同的问

题,即,技能要求、治理、性能、可伸缩性、管理、集成、安全性和访问。要吸取的经验教训是,如果您利用

先期投资和培训,您会走得更快、更远。

以下是企业架构师面临的一些常见问题: 大数据问题

领域 问题 可能的答案

业务环境

业务目标 我们将如何利用数据? » 销售新产品和服务 » 实现个性化客户体验

» 感知产品维护需求

» 预测风险、运营结果

» 销售增值数据

业务用途 哪些业务流程可受益? » 运营 ERP/CRM 系统

» BI 和报告系统

» 预测分析、建模、数据挖掘

数据所有权 我们是否需要拥有(归档)数据? » 专有

» 需要历史数据

» 确保沿袭

» 治理

架构愿景

提取 有哪些感知和响应特征? » 基于传感器的实时事件 » 近乎实时的事务事件

» 实时分析

» 近乎实时的分析

» 非即时分析

数据存储 哪些存储技术最适合我们的数据储藏库?

» HDFS(Hadoop 及其他)

» 文件系统

» 数据仓库

» RDBMS

» NoSQL 数据库

数据处理 哪些战略对于我的应用切实可行? » 留置于捕获点

» 增加少许转换

» 对数据执行 ETL,并加载到分析平台

» 将数据导出到桌面

性能 如何最大程度地提高即席查询、数据转换和分

析建模的速度?

» 实时分析和转换数据

» 针对预期用途优化数据结构

» 使用并行处理

» 增加硬件和内存

» 数据库配置和操作

» 提供专用硬件沙盒

» 就地分析静态数据

延迟 如何最大程度地降低主要运营组件(提取、储藏

库、数据仓库、报告、沙盒)之间的延迟?

» 共享存储

» 高速互连

Page 9: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

6 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

» 共享专用网络

» VPN — 通过公共网络

分析和发现 我们需要在何处执行分析? » 提取时 — 实时评估

» 原始数据储藏库中

» 发现实验室中

» 数据仓库/集市中

» BI 报告工具中

» 公有云中

» 内部

安全性 我们需要在何处保护数据? » 内存中

» 网络

» 数据储藏库

» 数据仓库

» 通过工具和发现实验室访问时

现状

非结构化数据经验 当前是否正以某种方式处理非结构化或传感器数据 (例如文本、空间数据、音频、视频)?

» 部门项目

» 移动设备

» 机器诊断

» 公有云数据捕获

» 各种系统日志文件

一致性 数据质量和治理实践的标准化程度如何?

» 全面

» 有限

开源经验 我们在开源 Apache 项目(Hadoop、NoSQL 等)中

有哪些经验?

» 零散实验

» 概念验证

» 生产经验

» 贡献者

分析技能 我们聘用熟悉高级和预测性分析工具和技术的数据

科学家和分析师的多寡程度如何?

» 聘用

» 不聘用

未来前景

最佳实践 有哪些最佳资源可以指导我们做出打造未来前景的

决策?

» 参考架构

» 开发模式

» 运营流程

» 治理结构和策略

» 感兴趣的大会和社区

» 供应商最佳实践

数据类型 对于数据储藏库中的原始非结构化数据,需要进

行多少转换?

» 不需要

» 利用模式或键值对获得基本了解

» 充实数据

数据源 数据源或内容结构更改的频率有多高?

» 经常

» 不可预测

» 从不

数据质量 何时应用转换? » 网络中

» 储藏库中

» 数据仓库中

» 用户使用时

» 在运行时

发现供应 供应发现实验室沙盒的频率有多高?

» 很少

» 经常

领域 问题 可能的答案

Page 10: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

7 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

路线图

概念验证 当我们前进之前 POC 应对哪些事项进行验证? » 业务用例

» 对新技术的了解

» 企业集成

» 运营影响

开源技能 如何获得开源技能? » 交叉培训员工

» 聘用专家

» 选择有经验的供应商/合作伙伴

分析技能 如何获得分析技能? » 交叉培训员工

» 聘用专家

» 选择有经验的供应商/合作伙伴

治理

云数据源 如何确保可以信任来自云数据源的数据? » 直接管理 » 审计

» 承担责任

数据质量 如何对非结构化数据进行清理、充实和重复数据消除? » 使用统计抽样

» 普通技术

数据质量 我们需要重新验证内容结构的频率有多高?

» 每次收到时

» 定期

» 手动或自动

安全性策略 如何扩展企业数据安全性策略? » 继承企业策略

» 复制企业策略

» 仅授权特定的工具/访问点

» 仅限于监视安全日志

大数据有何不同寻常之处? 大数据为您的信息架构带来了新的技术、流程和技能,以及设计、操作和使用它们的人才。随着新技术的到

来,将有一种新旧隔离的倾向,但我们力劝您抵制这种战略。虽然存在一些例外情况,但基本预期是发现这些

新数据中的模式会增强您对现有数据的理解能力。大数据不是一个孤岛,这些新功能也不应孤立构建。

初看上去,四个“V”定义了大数据的特点,但还有其他来自企业级信息管理战略的最佳实践将确保大数据成功。

以下是对大数据的几点重要认识:

信息架构范式转变

大数据处理数据结构和分析的方式与传统信息架构不同。传统的数据仓库方法需要数据经过标准化的 ETL 流

程,最后映射到预定义的模式,这种模式也称为“写入时模式”。这种传统方法的一个垢病是对预定义的模式进行

更改的过程十分漫长。大数据吸引人的一个方面是,不需要“预定义的”数据结构即可捕获数据。而是,结构将从

数据本身获取或通过其他算法过程获取,这种模式也称为“读取时模式”。这种方法得到了新的低成本、内存中并

行处理硬件/软件架构(如 HDFS/Hadoop 和 Spark)的支持。

领域 问题 可能的答案

Page 11: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

8 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

此外,由于数据量大,大数据还采用“将分析功能交给数据”的原则,而不是采用“通过临时存储、提取、转换和

加载将数据交给分析功能”的传统过程,从而消除了移动数据带来的高昂成本。

统一信息需要治理

将大数据与传统数据相结合可增加更多的上下文,还可能提供更深入的洞察。具有关键数据实体(如客户和产

品)的用例尤其如此。在消费者舆情分析示例中,捕获正面或负面的社交媒体评论具有一定的价值,而将评论

数据与利润贡献最高或最低的客户信息关联在一起则可进一步扩大数据的价值。

因此,组织具有协调不同的数据类型和验证数据质量的治理职责。无论是哪个数据源,对于从中得到的数据

(这一过程也称为数据沿袭),决策者需要感到放心。在进行数据质量方面的设计时,您需要按数据源确定通

用定义和转换规则并通过活动元数据存储进行维护。借助强大的统计和语义工具,您可以像大海捞针一样从海

量数据中找到有用信息,并以适宜的准确度预测未来事件,但前提是数据是可信的。

大数据量不断增长

一旦致力于实施大数据后,要正视的事实是,数据量将不断增长,甚至可能呈指数级增长。在您规划吞吐量

时,除了预估基本事项之外,例如临时存储、数据移动、转换和分析处理,还要考虑新技术是否可以降低延

迟,如并行处理、机器学习、内存处理、列索引和专用算法。此外,区分哪些数据可以在云服务中捕获和分

析,而哪些数据可以在内部捕获和分析也很有必要。

大数据需要 1 层生产保障

低成本的硬件、处理和存储一直以来就是实现大数据的条件之一。然而,低成本硬件上的大量低成本数据不应

误解为表示降低服务级别协议 (SLA) 预期。一旦大数据的生产和分析应用成熟后,就要承担与其他 1 层运营系

统相同的 SLA 保障。在传统的分析环境中,用户表示,如果业务分析解决方案停止服务的时间长达 1 个小时,

则会对业务运营带来实质性的负面影响。在事务环境中,可用性和弹性承诺对于确保可靠性至关重要。当新的

大数据组件(数据源、信息库、处理、集成、网络使用和访问)集成到独立与组合的分析和运营流程中时,企

业级架构规划对于取得成功至关重要。

您需要试用新技术然后确定大数据技术的适用性,不过您很快就会意识到大规模运行大数据需要与其他信息系

统相同的 SLA 承诺、安全策略和治理。

大数据弹性量度

运营 SLA 通常包括两个相关的关键 IT 管理量度:恢复点目标 (RPO) 和恢复时间目标 (RTO)。RPO 是针对可接

受数据丢失的协议。RTO 指的是中断业务流程的目标恢复时间。在运营出现故障的情况下,硬件和软件必须可

恢复到某个时间点。虽然 Hadoop 和 NoSQL 包括值得注意的高可用性功能,可以进行多站点故障切换和恢复

并提供数据冗余,但易恢复性从来不是一个主要设计目标。您企业的设计目标应该是跨平台提供弹性。

Page 12: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

9 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

大数据安全性

大数据需要与您的信息架构其余部分相同的安全准则和实践。企业安全管理力求集中进行访问管理、对资源进

行授权以及通过全面的审计实践进行治理。添加各种大数据技术、数据源和用途将会增加对这些实践的需求。

作为大数据安全战略的起点,首先应与已确立的企业实践和策略保持一致,避免重复实施,并且在各种环境间

实现集中管理。

Oracle 对其中一些领域采取了集成的方法。从治理的角度来看,Oracle Audit Vault 监视 Oracle 和非 Oracle

(HDFS、Hadoop、MapReduce、Oozie、Hive)数据库流量以检测并阻止威胁,并通过将来自数据库、操作

系统、目录、文件系统和其他来源的审计数据整合到一个安全的集中信息库来改善合规性报告。从数据访问的

角度来看,Big Data SQL 支持对 Hadoop、Hive 和 NoSQL 进行标准 SQL 访问,并提供相关的 SQL 和 RBAC

安全功能:使用虚拟专用数据库特性查询加密数据并按规则执行编辑。您企业的设计目标应是保护您的所有数

据并能够证明这一点。

大数据和云计算

在当今复杂的环境中,数据源自各种来源。在公司内部,您拥有熟知的结构化分析和运营数据源,以及您以前

可能从未想要使用的数据源,例如来自技术体系的日志文件。在公司外部,您通过企业 SaaS 和 PaaS 应用程

序拥有数据。此外,您还可以从免费和订阅式公共数据源购买数据并获得许可。所有这些数据在结构、质量和

数据量上各不相同。毋庸置疑,云计算将在许多用例中发挥着重要作用:作为数据源,提供实时数据流、分析

服务,以及作为设备事务中心。从逻辑上讲,最佳战略是将分析功能交给数据,但最终还要做出各种决策。数

据中心的物理隔离、不同的安全策略、数据所有权、数据质量流程以及四个 V 中每个产生的影响,这些都需

要您做出架构决策。因此,这迫切需要一种重要的分布式处理架构。假设大量数据来自多个物理位置,那么安

全、低延迟、可能实时的运营和分析解决方案要采用怎样的设计模式呢?

大数据发现流程

如前所述,大数据具备大数据量、高速、多样性 和价值 特征,但大数据的独特之处在于发现数据价值的流程。

传统的业务智能大多通过简单报告已知值来揭示事实,例如通过汇总每日销售额得出年初至今的销售额。而大

数据与这些传统的方式不同,其目标是足够智能以发现模式、对假设情景进行建模,以及检验预测。例如,通

过调查、迭代式查询和/或建模流程发现价值,比如询问问题,提出假设,选择数据源,创建统计、可视化或语

义模型,评估调查结果,询问更多问题,提出新的假设 — 之后重新开始这一流程。通过开发自适应的“机器学

习”算法来进一步发现数据的含义,可以帮助主题专家阐释可视化信息或执行交互式、基于知识的查询。如果您

的目标是及时把握您的数据的脉搏,您将发现大数据调查持续不断。您的发现可能引发一次性决策,也可能成

为新的最佳实践并纳入到运营业务流程中。

架构方面的要点是发现和建模流程必须快速,鼓励迭代式正交思维。许多最新的技术创新支持这些功能,应加

以考虑,例如用于缓存和处理的富内存服务器、快速网络、优化存储、列索引、可视化、机器学习、语义分析

等等。您企业的设计目标应是快速发现和预测。

Page 13: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

10 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

非结构化数据和数据质量

为了接纳多样化 的数据,即各种文件格式的多变的模式,需要您持续的努力。虽然多样性会带来灵活性,但也需

要额外的关注,以便能够理解数据,清理和转换数据(可能),提供沿袭,随时确认数据仍然具有您预期的含义

。维护非结构化数据质量有两种方式:手动和自动。非结构化文件示例有:具有基于文本的模式声明的 XML 文

件、基于文本的日志文件、独立文本、音频/视频文件,以及键值对 — 无预定义语义的由两列构成的表。

对于具有大量公共数据源的情况,无论是结构化、半结构化还是非结构化,您都不要希望能够对数据的内容和

结构进行控制。数据质量流程需要实现自动化。例如,在消费品行业中,社交媒体评论不仅来自可预测的来

源,比如您的网站和 Facebook,还可能来自悄然出现的新款时尚智能手机。在其中一些情形下,机器学习可帮

助保持模式最新。

移动性和自带设备 (BYOD)

用户期望能够随时随地访问自己的信息。如果可视化、分析或实施的大数据/分析是移动体验的一部分,那么这

些实时和近乎实时的需求便成为重要的架构需求。

人才和组织

组织面临的一个主要挑战是如何获得各种新的大数据技能。除了通过供应商和服务合作伙伴来增补人力之外,

最受追捧的角色是数据科学家,该角色全面掌握计算机科学、数学、统计和预测建模这些领域的技能。Gartner

预测,到 2015 年,围绕大数据将产生 440 万个就业机会。至少,现在就可以开始对员工进行交叉培训,很快

就可以招聘分析人才了。最后,组织必须考虑如何组织大数据职能,是发展为部门资源还是集中于卓越中心。

需要知道的是,分析领域有自己的学术和专业语言。由于这种专业化,因而需要有这样的人员,即可以在分析

专业师、业务管理人员和技术专家之间轻松交流的人员。随着业务分析师的工作逐渐发展为与数据科学家密切

合作,他们将需要具备更强的分析能力。

组织和技术资源对变革的抵触

实施新的大数据计划的组织需要灵敏地体察到这些新技术的部署可能对技术资源带来的情绪和心理上的影响。

部署新的大数据技术和解决方案产生的影响可能会吓到现有的技术资源,对变革的恐惧、了解不足,或对工作

稳定的担忧会导致人们抵触变革,进而可能会阻挠大数据计划。因此应注意就大数据解决方案和技术带来的优

势对具备传统关系数据技能的技术资源进行培训。应清楚地向现有技术资源解释在架构方法、数据加载和 ETL

流程、数据管理及数据分析等方面的差异,以帮助他们了解新的大数据解决方案如何融入整个信息架构。

Page 14: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

11 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

采用企业架构方法

对转型计划采用企业架构 (EA) 方法,以便保持业务一致性并获得最大投资回报,这是一种最好的做法。大数据

就是一个转型计划。根据 McKinsey 的报告,“参加大数据革命带来的回报已毋庸置疑。这项广泛的研究表明,

当公司将数据和分析深深注入其运营时,相比于竞争对手,他们会获得更高的效率提升和利润增长。”

往常,组织知道自己希望交付哪些功能,他们可以制定一个端到端的路线图。他们可以确定为了实现这些目标

而需要的平台和资源。并且他们牢牢掌握了所需的人员、流程和技术。然而大数据颠覆了这种传统的架构范式

。对于大数据来说,组织可能产生一种想法或兴趣,但不一定知道将会产生什么样的结果。一个初始问题的答

案或结果将引出一系列新问题。这需要独特的综合技能,且这类技能属于新兴事物,并且并不丰富。架构开发

流程需要更加动态易变,与当今很多组织采用的类似 SDLC 的架构流程大为不同。它必须让组织可以不断评估

进度、必要时纠正方向、平衡成本以及获得认可。

Oracle 企业架构开发流程 (OADP) 旨在成为一种灵活且“适时”的架构开发方法。它还解决了架构的人员、流程

和技术方面的问题,因此非常适合于以渐进、迭代方式构建一个整体大数据架构。其覆盖的技术应为 TOGAF

的拥护者所熟悉,可用于整合业务架构、应用程序架构、信息架构和技术架构。Oracle 企业架构师不仅分享他

们掌握的 Oracle 产品系列专业知识,而且分享他们在几乎每个技术体系具备的行业经验。

图 1:Oracle 企业架构计划的人员、流程和产品系列方面

流程中的关键人员包括业务项目发起人和潜在用户(包括数据科学家)、企业架构师和大数据工程师。数据

科学家负责挖掘数据,应用统计建模和分析,解释结果以及将数据结果的含义提供给应用程序和预测流程。

大数据管理员和工程师负责管理和监视基础架构,以满足安全性、性能、数据增长、可用性和可伸缩性方面

的需求。

以下概述了流程的六个主要步骤,分别是确定业务环境和范围、确定架构愿景、评估现状、评估未来前景和经

济模型、制定战略路线图、建立架构的治理机制。如文中所述,这通常是一个闭环流程,因为成功部署会引发

满足业务需求的新想法。下面将简要介绍这些步骤。

Page 15: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

12 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

第 1 步 — 确定业务环境和范围

这一步将培育在预期期限内实现价值的想法和用例。这一步通常对于组织而言最为困难,因为他们经常遇到“不

知为不知”的难题。界定范围和时间边界以避免“不切实际地大动干戈”或范围蔓延,也很具挑战性。

在这一步中,Oracle 大数据从业者和业务架构师是重要的资源,可帮助挖掘潜在的业务价值以及项目可能产生

的投资回报。

第 2 步 — 确定架构愿景

图 2 展示了确定架构愿景的步骤。

探索结果

减少歧义

解释并完善

确定数据源

发展假设

改善假设

图 2:确定架构愿景的步骤

确定架构愿景的第一步是发展在上一步中做出的假设或“大创意”。根据正在解决的问题,我们现在可以确定数据

源,包括获取、访问和捕获数据的方式。接下来我们大致描述如何探索数据生成结果,包括如何减少数据以及

使用信息发现、交互查询、分析和可视化工具。随后应用这些处理方法以减少歧义,例如,应用统计模型以剔

除离群值,发现集中现象以及建立相关性。接下来定义如何以及由谁解释和完善结果以及改善假设。

第 3 步 — 评估现状

当评估现状时,我们返回到图 1 所示的技术说明作为指导。我们评估当前的业务架构,包括已经建立的流

程、技能和组织。我们审查应用程序架构,包括应用程序流程。当评估信息架构时,我们审查当前的资源、

数据模型和数据流模式。当然,我们还评估技术架构,包括可能部署有传统数据仓库和大数据技术的平台和

基础架构。此外,还需要审查当前状况的其他方面,例如平台标准、系统可用性和灾难恢复需求,以及必须

遵守的行业法规对数据安全的要求。

Page 16: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

13 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

第 4 步 — 确定未来前景和经济模型

在未来前景规划中,我们评估业务架构、应用程序架构、信息架构和技术架构需要做出怎样的改变以与我们的

架构愿景保持一致。我们首先确定如何可以尽早实现业务价值,并且通常首先要确保项目能够取得成功,并评

估整个过程中的各个阶段所需的技术变革和技能。此时,可能需要评估基于云的解决方案是否会提供一个可行

的方案,特别是上市时间至关重要的情况下。评估过程中,还需要了解一下重要数据源目前所在的位置以及未

来可能驻留的位置。我们还将评估当前已经实施的任何平台标准、系统可用性和灾难恢复要求以及未来必须遵

守的数据安全行业法规带来的影响。

第 5 步 — 制定战略路线图

在规划阶段,将制定一个向未来架构前进的循序渐进的计划。路线图的主要准则包含旨在提供业务价值并最终

满足最初业务预期的技术和非技术里程碑。

路线图应包含:

» 现状与未来前景之间在架构上存在的一系列差距

» 对弥补差距的成本效益分析

» 路线图的每个阶段实现的价值以及有关如何实现最大价值同时最大程度降低风险和成本的建议

» 对各阶段之间技术依赖关系的考虑

» 灵活性,以适应新的业务优先级和不断变化的技术

» 消除向未来前景发展时可能存在的任何技能缺口的计划(例如培训、招聘等)

第 6 步 — 建立架构的治理机制 在大数据环境中,治理的重点不仅在于谁有权访问数据以及数据质量如何,还在于确定执行分析之前对数据质

量的考核是否可取。例如,对用户舆情数据采用严格的数据精确规则可能过滤掉大量有用信息,而数据标准和

通用定义对欺诈检测而言仍十分重要。质量标准需要根据使用性质而定。

此外,重点还在于确定采用自动化决策的适当时机以及需要人工干预和解释的时机。总之,数据治理的重点和

方法需要契合于考虑中的数据类型和信息使用性质。因此,在当今的大多数部署示例中,存在一种利用大数据

解决方案的混合的战略,即一小群值得信赖的数据科学家挖掘所有数据(无论数据质量如何),而传统数据仓

库用作信息库,清理的数据则用于即席查询和批量生成报告。

Page 17: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

14 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

大数据参考架构概述

传统信息架构功能 为便于理解大数据的高级架构层面,我们首先看一下针对结构化数据的成熟的逻辑信息架构。在插图中,可以

看到两种数据源,该架构利用集成(ELT/ETL/更改数据捕获)技术将这些数据源中的数据传输至 DBMS 数据仓

库或运营数据存储中,然后再通过各种分析功能来揭示数据含义。其中一些分析功能包括:信息板、报告、

EPM/BI 应用程序、汇总和统计查询、针对文本数据的语义解释,以及针对高密度数据的可视化工具。此外,一

些组织还实施了跨项目的监管和标准化,并且可能通过企业级管理完善了信息架构的功能。

图 3:传统信息架构组件

关键的信息架构准则包括从价值、成本和风险的角度出发将数据视作一项资产,并确保数据的时效性、质量

和准确性。同时,企业架构监管职责将建立和维持一种平衡的治理方式,包括利用卓越中心来实现标准管理

和培训。

增加大数据功能

大数据架构的处理功能需要满足对大数据量、高速度、多样化和价值的需求。独特的分布式(多节点)并行处

理架构可对这些大型数据集进行解析。各种不同的技术战略可以满足实时和批处理存储需求。而实时的键值数

据存储,如 NoSQL,可以实现基于索引的高性能检索。对于批处理,一种称为“Map Reduce”的技术可以根据

特定的数据发现策略来执行数据过滤。发现过滤的数据后,可直接对其进行分析、将其加载到其他非结构化或

半结构化数据库中、发送至移动设备,或合并到传统数据仓储环境中并与结构化数据相关联。

图 4:大数据信息架构组件

Page 18: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

15 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

除了新组件之外,现在正在出现新的架构,以高效地满足新的存储、访问、处理和分析需求。首先,是专用数

据存储的理念,这种数据存储量身定制,能够存储新类型的数据并优化对它们的处理。一种多语言的战略暗示

着面向大数据的架构将部署多种类型的数据存储。但请注意,多语言战略肯定会增加管理、治理、安全性和技

能方面的复杂性。

其次,我们可以实现并行化的 MPP 数据基础以同时满足速度和规模需求,这对于可以进行伸缩以满足任何延迟

和规模需求的新一代数据服务和分析至关重要。利用这种基于 Lambda 的架构,现在能够处理在物联网架构中

可能需要的快数据。

第三,利用 MPP 数据管道,我们可以在动态时窗内以可变延迟处理数据事件,从长远来看,这将更改大多数情

况下执行 ETL 的方式。

图 5:大数据架构模式

大数据架构的处理功能需要满足对大数据量、高速度、多样化和价值的需求。独特的分布式(多节点)并行处

理架构可对这些大型数据集进行解析。各种不同的技术战略可满足实时和批处理存储需求。而实时的键值数据

存储,如 NoSQL,可以实现基于索引的高性能检索。对于批处理,一种称为“Map Reduce”的技术可以根据特

定的数据发现战略来执行数据过滤。发现过滤的数据后,可直接对其进行分析、将其加载到其他非结构化或半

结构化数据库中、发送至移动设备,或合并到传统数据仓储环境中并与结构化数据相关联。

有许多新的分析功能可以从新的独特的数据类型发掘含义,还可以在各个大规模分布之间发现明确的统计相关

性。分析吞吐量也会影响转换、集成和存储架构,例如实时和近乎实时的事件、即席可视化挖掘和多阶段统计

模型。然而,在 MapReduce 处理后,通常将“化简结果”移至数据仓库和/或专用分析环境中,以便利用业务智

能报告、统计、语义和关联功能等方面的现有投资和相关技能。专用分析环境,也称为发现实验室或沙盒,在

设计上可以根据需求快速供应和取消供应之。

与现有 BI 生态系统的集成度不足是阻碍企业采用 Hadoop 的一个重要因素。这样一来,大多数业务用户或高管

都无法采用这种分析方式。当传统 BI 与大数据生态系统相互独立时,将无法实现预期的增值分析。独立的大数

据项目还会有重复投资之风险,在知识型员工短缺的情况下这尤其是个问题。

Page 19: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

16 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

统一的参考架构

Oracle 基于已经出现的成功部署模式形成了对统一参考架构的明确看法。图 6 所示的 Oracle 信息管理架构展

示了主要组件和工作流,突显了数据实验室的出现以及各种形式的新型和传统数据收集方法。有关全面论述,

请参阅参考架构白皮书。请点击这里。如需了解 Oracle 产品图,请点击这里。

图 6:实现统一信息管理的 Oracle 大数据平台 概念模型

这些主要组件介绍如下:

» 快数据:这些组件用于处理动态数据(数据流)以发现可操作事件,然后基于决策上下文和事件概要数据确

定下一最佳操作,并将数据保存在一个持久存储系统中。决策上下文依赖数据储藏库或其他企业信息存储中

的数据。

» 储藏库:对数据规范化或建模要求不严格的数据进行经济、横向扩展存储和并行处理。通常采用 Hadoop 集

群或关系数据库中临时存储区域的形式。

» 数据工厂:对流入数据储藏库和企业信息存储的数据以及这两者之间的数据进行管理和编排,以及将数据快

速供应至发现实验室以实现敏捷发现。

» 仓库:大规模的规范化和模式化业务关键型数据存储,通常采用数据仓库或数据集市的形式。

» 数据实验室:一组与数据管理活动分离的数据存储、处理引擎和分析工具,可加快新知识的发现。关键需求

包括快速数据供应和生成数据子集、数据安全/治理,以及对大型数据集的快速统计处理。

» 业务分析:用于业务智能的各种最终用户和分析工具、分面导航和数据挖掘分析工具,包括信息板、报告和

提供准确及时报告的移动访问。

» 应用程序:一组预建适配器和应用程序编程接口,支持将所有数据源和处理直接集成到定制或打包业务应用

程序中。

Page 20: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

17 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

通过将数据流分给执行任务(支持和报告日常运营的任务)和创新任务(将新洞察提供给业务的任务),可进

一步简化这些组件的相互作用和组成解决方案的过程。在这种分隔(如水平线所示)的两侧系统性地安排解决

方案有助于可靠地满足安全性、治理和时效性系统需求。

企业信息管理功能

以下是 Oracle 整体功能图,有助于加深您对统一信息管理平台的了解:

图 7:Oracle 统一信息管理功能

该图的左侧开头显示了这些功能的简要概述。

当提取各种数据类型(“获取”下方)时,这些数据可以直接(实时)写入内存进程,也可以作为消息、文件或数

据库事务写入磁盘。一旦接收后,对于数据保存位置有多种选择。数据可以写入文件系统、传统的 RDBMS,

或分布式集群系统如 NoSQL 和 Hadoop 分布式文件系统 (HDFS)。快速评估非结构化数据的主要技术是批量运

行 map-reduce (Hadoop) 或在内存中运行 map-reduce (Spark)。对于实时数据流,还有其他评估技术。

中间的集成层(“组织”下方)十分广泛,支持一种开放提取、数据储藏库、数据仓库和分析架构。它广泛覆盖所

有数据类型和领域,管理传统与新型数据采集和处理环境之间的双向差距。最重要的是,它满足四个 V 的要

求:大数据量和高速度、数据类型多样性,以及在执行分析的任意位置发掘价值。此外,它还提供数据质量服

务,维护元数据,以及跟踪转换沿袭。

Page 21: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

18 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

大数据处理的输出(已从低密度数据转换为高密度数据)将加载到基础数据层、数据仓库、数据集市、数据发

现实验室或返回到储藏库。需要注意的是,发现实验室需要到数据储藏库、事件处理和数据仓库的快速连接。

基于上述种种理由,使用 InfiniBand 之类的高速网络提供数据传输。

在下一层中(“分析”下方),“化简结果”从大数据处理输出加载到数据仓库中,以便实施进一步的分析。您会注

意到,储藏库和数据仓库都提供“就地”分析,这意味着可以在源系统上执行分析处理,而无需执行将数据移至其

他分析环境这一额外步骤。SQL 分析功能支持以最佳方式在每个数据存储独立执行和在相互独立的系统上执行

简单和复杂的分析查询,还支持在一个查询中合并多个结果。

这一层有许多性能方案可将性能提高多个数量级。通过对数据仓库利用 Oracle Exadata,其闪存、列数据库、

内存中数据库等特性可增强处理性能。另外,发现实验室的一个关键功能是快速、强大的搜索,称之为分面导

航,可支持快速响应的调查环境。

业务智能层(“决策”下方)配有交互、实时和数据建模工具。这些工具能够对数据进行查询、报告和建模,同时

将大量数据留在原地。这些工具除了包含报告、信息板、警报和查询等传统组件之外,还包含高级分析、数据

库中和储藏库中统计分析以及高级可视化。

治理、安全性和运营管理同样也覆盖了整个企业级数据和信息架构。

通过统一架构,业务用户和分析用户可依靠更丰富的高质量数据。一旦可供使用后,当用户浏览各种数据和信

息集、检验假设、分析模式以及制定决策时,数据和分析流程都将实现无缝衔接。

大数据架构功能

所需的大数据架构功能可通过结合应用 Apache 项目 (www.apache.org) 提供的解决方案和 Oracle 大数据产品

来实现。下面将介绍其中一些主要项目和产品。如需了解完整产品清单,请参阅 Oracle 大数据平台 产品表。点

击这里。 提取功能

将数据引入大数据平台的方法有许多种。

Apache Flume(点击这里了解更多信息)

» Flume 为高效移动大量日志数据和其他数据提供了一个分布式、可靠、高度可用的服务。它以异步方式

捕获和处理数据。数据事件将数据捕获在一个队列(通道)中,然后使用者按需将事件(从事件池)出

列。使用后,将删除原始队列中的数据,这迫使将数据写入其他日志或 HDFS 以实现归档目的。通过链

接队列(将事件池链接到通道),数据可以可靠地通过多种状态,并且具有 100% 的恢复能力。可以在

文件系统或内存中处理数据。不过,内存中处理不具备恢复能力。

Apache Storm(点击这里了解更多信息)

» Storm 提供了一个分布式、实时、并行化计算系统,该系统可跨节点集群运行。这种拓扑结构旨在使用

数据流以及以任意复杂的方式处理这些数据流,从而可在各个计算阶段之间重新划分数据流。用例包括

实时分析、在线机器学习、连续计算、分布式 RPC、ETL 等。

Page 22: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

19 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

Apache Kafka(点击这里了解更多信息)

» Kafka 是一个 Apache 发布-订阅消息传递系统,在该系统中,消息直接写入文件系统并在集群内复制以

防数据丢失。当读取消息时不会将其删除,而是基于可配置的 SLA 进行保留。单个集群作为中央数据主

干,无需停机即可弹性扩展。

Apache Spark Streaming:(点击这里了解更多信息)

» Spark Streaming 是 Spark 的一个扩展。它扩展了 Spark,以执行大规模流处理,并且能够扩展至 100

个节点并实现秒级延迟。Spark Streaming 支持 Java 和 Scala,这样用户可以很轻松地使用以

Scala/Java 编程语言编写的函数来映射、过滤、联接和缩减流(以及其他操作)。它与 Spark 的交互和

批处理集成,同时保持了类似于批处理系统的容错,可从彻底失败情况和落后情况恢复。此外,Spark

Streaming 还支持具有以下需求的应用程序:将数据流与通过批处理作业或即席查询计算的历史数据相

结合,从而提供强大的实时分析环境。

Oracle Stream Explorer(点击这里了解更多信息)

» Stream Explorer 可处理多个事件流,以便实时检测模式和趋势,然后发起行动。它可以独立部署,可以

集成到 SOA 体系中,或基于嵌入式 Java 的轻型环境中。Stream Explorer 可确保下游应用程序、面向

服务架构以及事件驱动架构可在实际、实时的智能驱动下运行。

Oracle GoldenGate(点击这里了解更多信息)

» Golden Gate 支持基于日志的更改数据捕获、分发、转换和交付。它还支持异构数据管理系统和操作

系统,能提供无距离限制的双向复制。GoldenGate 可确保事务完整性、可靠的数据交付和中断后快

速恢复。

分布式文件系统功能

Hadoop 分布式文件系统 (HDFS):(点击这里了解更多信息)

» HDFS 是一个 Apache 开源分布式文件系统,可在高性能商用硬件和利用此类硬件构建的设备(例如

Oracle 大数据一体机)上运行。它适于部署在高度可伸缩的节点和相关存储上。HDFS 提供自动数据复

制(通过部署为三重复制)以实现容错。大多数组织直接在 HDFS 中部署和操作数据,以支持一次写入

多次读取应用程序,例如那些常用的分析应用程序。

Cloudera Manager: (点击这里了解更多信息)

» Cloudera Manager 是一款针对 Cloudera’s Distribution of Apache Hadoop 的端到端的管理应用程序。

» Cloudera Manager 实时展现整个集群内节点和正在运行的服务的情况;提供一个中央位置来将配置更改

应用到整个集群;同时引入全方位的报告和诊断工具来帮助优化集群性能和利用率。

Page 23: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

20 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

数据管理功能

Apache HBase:(点击这里了解更多信息)

» Apache HBase 用于提供对 Hadoop 中部署的超大型非关系表的随机读/写访问。它提供的特性包括线性

和模块化可伸缩性、严格一致的读取和写入、自动和可配置的分片、区域服务器间的自动故障切换、

Hadoop MapReduce 作业和 Apache HBase 表的基类、Java API 客户端访问和 REST 式 web 服务。

Apache Kudu:(点击这里了解更多信息)

» Kudu 提供快速插入/更新组合以及高效的列扫描,在单个存储层上支持多个实时分析负载。作为对

HDFS 和 Apache HBase 的新近的补充,Kudu 使架构师能够灵活地应对各种用例,而无需采用外来的

解决方法。例如,Kudu 可用于需要对快(快速变化)数据执行快速分析的情形。Kudu 最初承诺大幅降

低 Apache Impala 和 Apache Spark 的查询延迟,以后还将提供其他执行引擎。

Oracle NoSQL 数据库:(点击这里了解更多信息)

» 适用于这样的高事务量环境(不只是追加型环境):其数据模型需要基于表的键值对,一致性通过策略

来定义,并且需要 NoSQL 环境中的卓越的可用性,Oracle NoSQL 数据库在 web 扩展和点击流类型的

低延迟环境中表现出色。

» Oracle NoSQL 数据库设计为基于 Sleepycat Software 的 Oracle Berkeley DB 的高度可伸缩的分布式数

据库。Oracle NoSQL 数据库是一个通用的企业级键值存储,它在增强的分布式 Berkeley DB 之上增加

了一个智能驱动。该智能驱动跟踪底层存储拓扑,了解并且必要时使用数据分片,并且知道数据放在集

群环境中的何处延迟最低。与其他同类解决方案不同,Oracle NoSQL 数据库易于安装、配置和管理。

它支持广泛的负载,并提供以企业级 Oracle 支持为后盾的企业级可靠性。

» 使用 Oracle NoSQL 数据库,可以更高效地获取、组织和分析数据。主要用例包括提取数据时进行低延

迟数据捕获和对这些数据进行快速查询,通常通过键值查找进行。此类用例的示例包括信用卡交易环

境,高速、低延迟、嵌入式设备数据捕获和大量股市交易应用。Oracle NoSQL 数据库还对需要高更新

速度的情况提供提供近乎一致的 Oracle 数据库键值对表副本。它可用作 Oracle GoldenGate 更改数据

捕获的目标,可与通过 Oracle Steam Explorer 和 Oracle Real Time Decisions 进行的事件处理结合使

用。该产品以两种形式提供:开源社区版和用于大型分布式数据中心的企业版。后一版本是大数据一体

机的一部分。

» Oracle NoSQL 数据库企业版与 NoSQL 社区版的不同之处在于前者与 Oracle 体系相集成。具体来说,

企业版包括以下项,或者说以下项需要企业版:

» Oracle 数据库外部表集成

» Oracle Big Data SQL 集成

» Oracle Coherence 集成

» Oracle Stream Explorer (Event Processing) 集成

» Oracle Enterprise Manager 集成

» Oracle Semantic Graph 集成

» Oracle Wallet 集成

» SNMP 管理接口

Page 24: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

21 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

处理功能

Apache Hadoop:(点击这里了解更多信息)

» Apache Hadoop 软件库是利用简单的编程模型来跨节点集群分布式处理大型数据集的框架。它在设计上

可从独立的服务器扩展到数千台机器,每一台机器均提供本地计算和存储。用于查询和分析的处理功能

主要通过利用 MapReduce 和 Spark 的程序和实用工具提供。其他主要技术包括 Hadoop 分布式文件系

统 (HDFS) 和 YARN(用于作业调度和集群资源管理的框架)。

MapReduce:(点击这里了解更多信息)

» MapReduce 依赖作为高度分布式程序平均分配的线性数据流结构。Apache 在 Hadoop 中提供

MapReduce 作为一种编程模型和实现,用于在集群中数据驻留的磁盘位置并行处理大型数据集。

Apache Spark:(点击这里了解更多信息)

» Spark 为编程人员提供了一个以 RDD(弹性分布式数据集)数据结构为中心的应用程序编程接口。

Spark 的 RDD 用作分布式程序的一个快速工作数据集或缓存,其本质上是提供一种分布式共享内存。

该工作数据集的访问速度和可用性促进了以下两个常用算法范式的高性能实现:(1) 迭代式算法,这类算

法需要多次重用和访问数据以及 (2) 类似于传统数据库使用的处理和查询模型的新类型的分析和探索处

理。迭代式算法类别中的头等算法是机器学习。

数据集成功能

Oracle Big Data Connectors — Oracle Loader for Hadoop、Oracle Data Integrator:

(点击这里了解 Oracle 为大数据打造的数据集成解决方案)

» Oracle Loader for Hadoop 支持以并行方式将数据从 Hadoop 高速加载至 Oracle 数据库。Oracle Data

Integrator 企业版与 Big Data Connectors 结合使用,支持在 Hadoop 中进行高性能数据移动以及数据转

换部署。Big Data Connectors 中的其他特性包括 Oracle SQL Connector for HDFS、Oracle R

Advanced Analytics for Hadoop 和 Oracle XQuery for Hadoop。

SQL 数据访问

Oracle Big Data SQL(点击这里了解更多信息)

» Big Data SQL 支持对驻留在 Apache Hadoop 集群和 NoSQL 数据库中的数据发起 Oracle SQL 查询。

Oracle Database 12c 提供了使用外部表查询这些数据的途径。在其他数据源上部署的智能扫描功能可

最大程度地减少数据移动和提高性能。由于通过 Oracle 数据库发起查询,因此高级安全性、数据编辑

和虚拟专用数据库功能可扩展至 Hadoop 和 NoSQL 数据库。

Apache Hive:(点击这里了解更多信息)

» Hive 提供了一种将结构投射到 Hadoop 数据集上的机制,并使用与 SQL 类似的名为 HiveQL 的语言来

查询数据。此外,当不方便使用 HiveQL 表达这种逻辑或使用 HiveQL 表达效率低下时,此语言还允许

传统 MapReduce 编程人员插入其自定义映射器和化简器。它仅包含在 Apache HDFS 和 Apache

HBase 中描述数据访问的元数据,而不是数据本身。最近,HiveQL 查询执行常与 Spark 配合使用,以

提高性能。

Page 25: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

22 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

Apache Impala — Cloudera(点击这里了解更多信息)

» 利用 Impala,您可以使用 select、join 等典型的 SQL 查询函数以及各种聚合函数查询无论是在 HDFS

还是 Apache HBase 中存储的数据,查询速度比 Hive 与 MapReduce 结合使用快一个数量级。为避免

延迟以及提高应用速度,Impala 绕过 MapReduce 而通过专用分布式查询引擎直接访问数据,该查询

引擎与商用并行 RDBMS 中的引擎极其类似。

统计分析功能

开源 Project R 和 Oracle R Enterprise(Oracle Advanced Analytics 的一部分):

» R 是一种用于统计分析的编程语言(点击这里了解 Project R)。Oracle 率先实现了 R 算法的并行运

行,而无需将数据从数据存储移入 Oracle 数据库(点击这里了解 Oracle R Enterprise)。Oracle R

Advanced Analytics for Hadoop (ORAAH) 捆绑在 Oracle Big Data Connectors 中,它利用 Spark 和

MapReduce 提供高性能的 Hadoop 中统计分析功能。

Spatial & Graph 功能

Oracle Big Data Spatial and Graph:(点击这里了解更多信息)

» Oracle Big Data Spatial and Graph 提供分析服务和数据模型,基于 Apache Hadoop 和 NoSQL 数据库

技术支持大数据负载。Oracle Big Data Spatial and Graph 包括两个主要组件:一个属性图形数据库,

该数据库具有 35 种内置的图形分析,用于在大数据中发现关系、建议及其他图形模式;各种空间分析

函数和服务,用于根据事物彼此之间的远近程度评估数据,而无论该事物是在边界或区域内部还是外

部,或处理和可视化地理空间地图数据和图像。

信息发现

Oracle Big Data Discovery(点击这里了解更多信息)

» Oracle Big Data Discovery 提供了与 Apache Hadoop(例如 Cloudera、Hortonworks)进行交互的接

口,有助于轻松发现和挖掘数据,快速转换和充实数据,通过合并数据集直观地发现新洞察,以及通过

高度可视的界面共享结果。

业务智能

Oracle Business Intelligence Suite(点击这里了解更多信息)

» Oracle Business Intelligence Suite 为从您的工作站或移动设备进行即席查询和分析、报告发布以及查看

数据提供了统一的平台。通过 Hive 和 Impala 支持对 Hadoop 的直接访问。

实时建议引擎

Oracle Real-Time Decisions(点击这里了解更多信息)

» 使用 Oracle RTD,能以规则和自学习预测模型的形式表示业务逻辑,这些规则和自学习预测模型能以极

低的延迟根据特定的绩效目标建议最佳的行动方案。这可以通过使用来自不同“渠道”的数据来实现。无

论数据是以点击流数据的形式位于 web 上、位于呼叫中心(在这里计算机电话集成为呼叫中心客服代表

提供宝贵的洞察),还是位于销售点,Oracle RTD 都可与 Oracle Streams Explorer 的复杂事件处理相

结合以创建基于事件的全面决策管理系统。

Page 26: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

23 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

Oracle 大数据云服务

如本文前面所述,各个组织急切在内部解决方案和基于公有云的解决方案中部署大数据处理、存储和集成技术

。人们通常认为这些解决方案有助于加快上市速度,提高部署灵活性,并且作为经济高效的方案,让企业可以

另辟它径,而不必在没有竞争优势的技能和基础架构上继续进行进一步的内部投资。基于云的大数据解决方案

托管在基础架构即服务 (IaaS) 上,作为平台即服务 (PaaS) 来交付,或通过软件即服务 (SaaS) 形式作为大数据

应用程序(和数据服务)来交付。

Oracle IaaS 部署可以包含 Oracle 和非 Oracle 软件组件,并且可以在内部部署或在 Oracle 公有云中部署。通

常由您负责在 IaaS 部署模型中进行“平台”软件的安装和管理。

可能成为您的大数据部署战略一部分的主要 Oracle PaaS 云服务包括:

» 大数据云服务:Hadoop 和 Spark 作为自动云服务进行交付。这些产品包括 Cloudera 数据中心版、

Oracle Big Data Connectors、Oracle Spatial and Graph、包含高级大数据选件的 Oracle Data

Integrator 和数据库云服务(通过 Connectors)。

» 大数据发现云服务:大数据发现托管在大数据云服务中,可用于挖掘和转换驻留在 Hadoop 中的数据,

通过其发现功能可帮助发现数据中可能蕴含的新的业务洞察。

» 业务智能云服务:提供即席查询和分析信息板,对位于模式即服务和数据库即服务中的数据、通过

REST API 获得的数据和来自各种其他数据源的数据提供数据可视化。

» Big Data SQL 云服务:使用 Oracle Database SQL 对通过 Exadata 云服务中的数据仓库链接的大数据

云服务中的数据进行查询的最佳解决方案。

» Exadata 云服务:简化 Oracle 关系数据库的实施和管理,同时借助 Exadata Storage Server Software

提供的其他优化显著提高查询性能。

» Big Data Preparation 云服务:结合应用机器学习和自然语言处理引擎来提取、充实、发布、治理和监

视数据。在提取和导入过程中,可以检测模式和重复数据,清理和规范化数据,以及检测和屏蔽敏感

数据。充实过程包括剖析、批注、数据分类、语义充实和缺失数据插补。数据发布的方式有三种:按

需发布、按计划发布和事件驱动式发布。治理和监视功能可以包括自动警报、系统控制和可重用的用

户策略。

» 物联网云服务:提供设备虚拟化、端点管理和事件存储,支持高速消息传递和流处理,提供企业级连接

(包括对 REST API 的支持)。

Oracle 公有云中的 Oracle SaaS 产品由于是以应用程序的形式提供因而通常不容易确定它们可在 Hadoop 上运

行。例如,Oracle Marketing Cloud 包括在 Hadoop 集群上部署的 BlueKai 技术。

有关内部部署和公有云部署场景的讨论通常围绕基础架构考量因素、安全性和站点间所需的网络展开。当然,

如果利用 Oracle 公有云,将由 Oracle 负责考量基础架构的各种因素(占地面积、设备、能耗和环境控制),

并且能够满足许多组织的云重新部署战略的主要目标。无论位于何处,都需要考虑网络安全(包括防火墙、加

密等)以及对各种软件层和数据的管理(如谁有权访问)。如果数据在站点之间移动,例如从内部移至公有云

或反之,必须在设想的解决方案架构中考虑数据量和所需的数据传输速率。Oracle 架构师可提供所有这些方面

的指导。

Page 27: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

24 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

Oracle 大数据架构的亮点

本节将进一步探讨之前介绍的一些 Oracle 产品功能。

Big Data SQL

Oracle Big Data SQL 为制定有关数据访问、数据移动、数据转换甚至数据分析的决策提供了灵活性。Big Data

SQL 利用 Oracle 的行业标准 SQL 对数据访问进行了标准化,您不必掌握每个数据平台(如图 8 所示)的独特

的原生数据访问方法。它还继承了许多高级 SQL 分析特性、执行优化和安全功能。Big Data SQL 尊崇大数据

的一个关键准则 — 将分析交给数据。由于数据移动减少,因此您将更快地获得分析结果。

图 8:Big Data SQL 提供一个基于标准的 SQL 语言接口,且该接口可用多种编程语言进行访问

Oracle Big Data SQL 是一个软件产品,它包含一个在 Hadoop 集群内运行的组件和一个在 Oracle 数据库内运

行的组件。Big Data SQL 支持通过一个 SQL 查询同步联接位于 Hadoop(Cloudera、Hortonworks)、NoSQL

和 Oracle 数据库中的数据。Big Data SQL 为广大 SQL 编程人员提供了一个到 Hadoop 的熟悉的处理接口以及

现今一直在使用的 SQL 工具。

图 9:Big Data SQL 与其他 Hadoop 服务一起高效、原生地运行

Page 28: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

25 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

工作原理:Big Data SQL 通过引用 HDFS 元数据目录 (Hcatalog) 发现物理数据位置和数据解析特征。然后自

动创建外部数据库表,并在 SQL 执行过程中提供正确关联。这使得标准 SQL 查询能够访问 Hadoop、Hive 和

NoSQL 中的数据,就好像这些数据是 Oracle 数据库的原生数据一样。其他功能包括:自动发现 Hive 表元数据

、从 Hadoop 类型自动转换、从任何输入格式自动转换,以及整个集群内执行并行扇出。

图 10:一个高性能部署方案:Oracle 大数据一体机通过 Infiniband 连接到 Oracle Exadata。

显示 SQL 联接的 Big Data SQL 执行情况,表明数据源的透明性

Big Data SQL 的主要优势包括:

» 利用现有 SQL 技能 — 用户和开发人员无需学习新的 SQL 技能即能够访问 Hadoop 和 NoSQL 数据库中

的数据。

» 丰富的 SQL 语言 — 与访问 Oracle 数据库的 Oracle SQL 语言一样,Big Data SQL 也是多用途查询语

言,可用于进行分析、集成和转换。Big Data SQL 不是 Oracle SQL 功能的子集,而是对 Oracle 核心

SQL 引擎的一个扩展,以便可以在 Hadoop 和 NoSQL 数据库中运行。

» 性能优化 — SQL 执行过程中,Oracle 智能扫描能够在存储层筛选所需的数据,从而最大程度地减少

通过背板或网络互连到达计算层的数据传输。例如,存储索引通过透明地消除 HDFS 块的 I/O 可以加

快查询。

» 如果在 Oracle 大数据一体机和 Oracle Exadata 上进行部署,InfiniBand 的高带宽将有助于查询以最佳

性能将结果返回给 Oracle。

» 加快发现速度 — 组织不再需要在平台之间复制和移动数据、针对每个平台构建单独的查询,然后确定

如何连接结果。支持 SQL 的熟悉的业务智能工具和应用程序可以访问 Hadoop 和 NoSQL 数据源。

» 治理和安全性 — Big Data SQL 对 Oracle 数据库的高级安全功能(例如编辑、权限控制和虚拟专用数据

库)进行了扩展,可限制特权用户访问 Hadoop 和 NoSQL 数据。

Big Data SQL 还包括两个有用的实用程序。Copy2BDA 有助于将表从 Oracle 数据库快速复制到 Hadoop。

Oracle Table Access for Hadoop and Spark (OTA4H) 是 Oracle 大数据一体机的一个特性,可将 Oracle 表转

换为 Hadoop 和 Spark。OTA4H 支持使用 Hive SQL 和 Spark SQL 直接、快速、并行、安全、一致地访问

Oracle 数据库中的主数据。提供一组支持 SerDes、HCatalog、InputFormat 和 StorageHandler 的 API。

Page 29: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

26 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

数据集成

随着越来越多样的数据源和应用程序产生的数据量不断增长,大量数据以极高的速度奔涌而来,组织如果使用

传统的数据集成机制,如 ETL(提取、转换和加载),将无力应对这种状况。大数据需要能够分析 TB 级甚至

PB 级大数据集的新的战略和技术。如本文中前面所述,为了使大数据创造价值,它需要具有与传统数据源相同

的质量、治理和可靠性。

来自结构化和半结构化数据源的数据量不断增长,因而许多企业开始探索利用大数据解决方案来扩展其现有

ETL 环境。许多企业数据仓库耗用其一半以上的处理能力执行批量 ETL。实时或近乎实时的馈送进一步增加了

处理需求,致使许多企业只好进行传统的夜间批量加载。企业数据仓库处理能力最好用于通过实际分析创造价

值,而不是用于执行转换。大数据解决方案代表了一种经济的方法,可将许多这样的处理密集型作业分流出

去,释放出 EDW 上的资源以供分析之用。

Oracle 集成产品系列支持几乎所有 Apache 大数据技术以及许多非 Oracle 产品。核心集成功能支持围绕数据移

动和转换的整个基础架构,包括集成编排、数据质量、数据沿袭和数据治理。现代数据仓库不再局限于单一物

理解决方案,因此对支持这种新式逻辑数据仓库的技术加以完善比以往更加重要。

图 11:Oracle 开放集成架构

随着大数据解决方案日趋成熟,支持它们与其他企业平台集成的工具也日趋成熟。Oracle Data Integrator 之类

的 ETL 工具不断发展,既支持大数据作为数据目标,也支持其作为中间的转换动力源。与 SQL 类似的 SQL-

on-Hadoop 技术(如 Spark SQL 和 Hive)支持轻松地将 SQL 转换推送到 Apache Hadoop 平台(例如

Cloudera 和 Hortonworks),Spark、Pig 和 MapReduce 等强大且灵活的技术可实现复杂的转换。例如,

Oracle Data Integrator 转换可部署到 Hadoop 中,可以使用集群作为高速转换引擎,将大量的 ETL 处理负载从

数据仓库移走。

Page 30: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

27 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

Oracle GoldenGate、Sqoop 和 Flume 等高速提取工具可将数据提供给 Hadoop,使其成为数据源的高效停放

区。这些工具可帮助实现实时/近乎实时的加载和联机归档。通过持续收集来自源系统的数据并使用 Kafka、

Storm 和 Spark Streaming 等技术,可实现实时数据处理。这些数据可以转换并传入 RDBMS,或者通过事件

处理对数据采取行动。

随着数据量不断增长并且大数据存储成本不断下降,使用 Hadoop 集群作为企业数据仓库实现联机深度归档,

这种情况会越来越常见。实现这一目标有两种方法:将记录收回到 Hadoop,或在进行初始 ETL 后保留记录。

利用 Oracle Big Data SQL 等查询工具,分析师可以接入联机归档以访问数据,而以前他们可能不得不请求从

磁带归档恢复这些数据。

Oracle Big Data Connectors

Oracle Big Data Connectors 支持将大数据平台(包括 HDFS 和 NoSQL 数据库)中存储的数据与 Oracle

RDBMS 集成,这样便于访问数据,从而能够快速加载、提取、转换和处理大型和多样的数据集。Big Data

Connectors 提供简单易用的图形环境,无需编写复杂的代码即可映射源和目标,从而支持各种实时和批量集成

需求。

Oracle Big Data Connector 产品支持 Apache Hadoop(例如 Cloudera 和 Hortonworks),这些产品包括:

» Oracle SQL Connector for HDFS:使 Oracle 数据库能够访问 Hadoop 分布式文件系统 (HDFS) 中存储

的数据。这些数据可以保留在 HDFS 中,也可加载到 Oracle 数据库中。

» Oracle Loader for Hadoop:一个 MapReduce 应用程序,可作为命令行实用程序进行调用,支持将数

据从 Hadoop 集群快速移至 Oracle 数据库中的表。

» Oracle Data Integrator Application Adapter for Hadoop:从 Hadoop 集群中提取数据、对其进行转换,

然后加载到 Oracle 数据库的表中,具体按照图形用户界面中的定义来执行。

» Oracle R Advanced Analytics for Hadoop:能够直接在 Hadoop 中对其中存储的数据运行 R 脚本,并

利用 Spark 和 MapReduce 实现并行性。

» Oracle XQuery for Hadoop:提供对 HDFS 和 Hadoop 并行框架的原生 XQuery 访问。

Page 31: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

28 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

Oracle Big Data Preparation

Oracle Big Data Preparation (BDP) 云服务为您处理数据提供了一种简单易用的方法。利用其协调特性,无需成

本高昂的人工干预即可自动化、简化和指导数据提取、准备、修复、充实和治理这一易错的流程。该服务归根

到底是为了提供一种与数据交互和处理数据的易用的方法。为了使数据变得有意义,您可以定义一个结构并关

联不同的数据集。这一重要步骤涉及到理解和标准化数据。Big Data Preparation 缩短了数据的开发周期。它提

供以下功能:

提取:从多个不同格式的数据源自动提取结构化、半结构化和非结构化数据。在提取步骤中,您可以

创建针对数值数据和频率的标准的统计分析,以及针对文本数据的词语分析。可以清理数据,识别重

复数据,以及修复数据以消除不一致。提取时,BDP 可以检测和识别在标题、字段或标签中显式定义

的模式和元数据。

充实:创建数据统计图,识别属性和属性模式,并利用参考知识库自动充实数据。结合使用 BDP 机

器学习系统和参考数据集提供有关如何最好地充实和关联数据的建议。

治理:利用交互式信息板创建所有用户策略和系统控制,调整以提供自动报警,以及查看作业详细

信息。

发布:定义源和目标,进行事件调度,以及决定导出数据所用的格式。

最后,BDP 可以对预先确定的数据源按日、按周或按月自动执行该流程。REST 式 API 有助于自动执行从文件

移动、准备到发布的整个数据准备流程。

Page 32: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

29 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

Oracle Stream Explorer

为满足 Oracle 大数据参考架构的快数据需求,Oracle 提供了一款集成、复杂的事件处理解决方案,可用于采

集、处理和发布事件。利用 Oracle Stream Explorer 提供的功能,可以将传入的流事件与持久保留的数据联接

在一起,从而实现情景感知的筛选、关联、聚合与模式匹配。Oracle Stream Explorer 可在应用上下文中支持

极低延迟和大数据量的环境。

Oracle Stream Explorer 基于支持 ANSI SQL、Java、Spring DM 和 OSGi 等行业标准的开放式架构而构建。它

包括一个实时可视化开发环境,有助于开发有效、持续的 SQL。作为一个平台,Stream Explorer 确保您的 IT

团队不必花钱进行专门的培训或掌握特别的技能即可开发事件驱动的应用程序。

Oracle Stream Explorer 的主要特性包括:

» 可独立部署,可与 SOA 体系集成,或基于嵌入式 Java 的轻型环境

» 全面的事件处理查询语言,同时支持基于标准 SQL 语法的内存中查询执行和持久化查询执行

» 适用于快数据与 Hadoop 和 Oracle NoSQL 集成的语言结构

» 运行时环境包括一个基于 Java 的轻型容器,该容器可通过优化的应用程序线程和内存管理扩展到高端事

件处理用例

» 通过集成的内存中网格和与大数据工具的连接,实现企业级高可用性、可伸缩性、性能和可靠性

» 高级 Web 2.0 管理和性能监视控制台

» 通过 Oracle Event Processing for Java Embedded 极大减小了磁盘和内存占用,从而支持在物联网基础

架构中实现分布式智能

Oracle Stream Explorer 还面向众多行业和职能领域,其中包括以下用例:

» 电信:能够执行实时呼叫详情记录监视和分布式拒绝服务攻击检测。

» 金融服务:能够利用毫秒或微秒级时窗内存在的转瞬即逝的套利机会。能够执行实时风险分析,为欺诈

检测架构提供帮助,对金融证券交易进行监视和报告,以及计算外汇价格。

» 运输:能够在由于出发城市或目的地城市天气、地勤人员工作、机场安全性等问题而导致航班延误的情

况下,生成乘客提醒和查明行李位置。

» 公共部门/军事:能够探查不同地理位置的敌情信息,对这类信息进行抽象分析,进而辨认高度可能的敌

方攻击。能够提醒最适合的资源来响应紧急情况。

» 保险:与 Oracle Real Time Decisions 结合使用,能够学习检测潜在的欺诈性索赔。

» 供应链和物流:能够实时跟踪货运,检测和报告潜在的延期抵达。

» IT 系统:能够实时检测有故障的应用程序或服务器并触发纠正措施。

Page 33: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

30 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

安全架构

毫无疑问,大数据生态系统必须安全可靠。Oracle 全面的数据安全方法可确保适当的人员(内部人员或外部人

员),可以在适当的时间和场合,通过适当的渠道访问适当的数据和信息。纵深防御安全战略可保护和加密动

态数据或静态数据,从而防范恶意攻击,保护组织信息资产。组织通过这种安全战略还可分离各种角色和职责

以保护敏感数据,而不会影响特权用户的访问,例如 DBA 管理。此外,该安全战略还将监视、审计和合规性报

告功能从传统数据管理扩展到了大数据系统。

Apache Hadoop 项目支持静态数据和网络加密功能。例如,Cloudera Distribution of Hadoop 包含企业级身份

验证 (Kerberos)、授权(LDAP 和 Apache Sentry 项目)和审计,这些功能可在安装时自动设置,从而显著简

化了强化 Hadoop 的过程。

以下是大数据安全方法的逻辑架构:

图 12:Oracle 大数据平台的 Oracle 安全架构

数据安全功能包括:

» 对用户、应用程序和数据库进行身份验证和授权(通常使用 Kerberos)

» 特权用户访问和管理

» 数据加密 (Cloudera Navigator Encrypt) 和编辑

» 数据屏蔽和数据子集生成

» 角色和职责分离

» 传输安全性

» API 安全性 (Database Firewall)

» 数据库活动监视、报警、阻止、审计和合规性报告

Page 34: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

31 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

业务智能、信息发现和分析之间的对比

通过分析数据揭示真知灼见以帮助组织满足其业务目标,这对于组织在日益数据驱动的经济环境中取得成功是

至关重要的。而所执行的分析类型可能涵盖一系列的数据科学,从传统的业务智能,到信息发现或数据挖掘,

最后到机器学习和高级分析。在分析功能方面臻于成熟的组织将采用全部这三种形式的分析,因为它们可以彼

此互补。共同点始终是分析如何帮助不同的业务线快速轻松地满足其业务目标。

业务智能 (BI) 提供已知问题的可靠答案 — 关键绩效指标、报告和信息板 — 提供业务运营状况视图。BI 用户

知道自己正在寻求什么样的答案,他们使用 Oracle 业务智能之类的工具快速识别结构化数据集,然后进行合

并以生成报告。他们设置信息板来为决策者提供有关其公司运营状况的势态感知,以便监视总趋势以及发现意

外变化。

信息发现,也称为数据挖掘,侧重于解释企业所发现情况的根本原因。这常常涉及到发现各种业务指标之间存

在的以前所不知晓的关系。此外,这种发现不仅限于传统的结构化数据集,还扩展到了半结构化数据(如应用

程序日志)或非结构化数据(如客户评论)上。例如,社交媒体(如 Twitter、Facebook 等)上有关某品牌的

舆情转变可能与该品牌的销售有密切的关联性。过去,由于自然语言处理 (NLP) 的复杂性质,舆情分析仅限于

高级分析领域。现在,Oracle 社交关系管理以及 Oracle 大数据发现 (BDD) 中的舆情分析算法简化了社交舆情

与已知业务度量之间关联性的可视化。BDD 形成了与数据量无关的发现数据科学,以 Hadoop 为强大后盾,为

数据的可视化挖掘提供了自然直观的界面。

高级分析或机器学习 算法通过对数据进行分析来构建数学模型,以描述数据中存在的模式或关系。一旦通过学

习得到了数学模型,即可使用数学模型来解释关系或预测未来。例如,通过机器学习得到的某个模型可用于分

析实时传感器数据流以预测发生故障的可能性,利用该模型,可以提供足够的警告,以便采取预防性措施来避

免代价高昂的生产系统停机。Oracle 的理念一直是在数据驻留的位置进行分析和采取行动,而无论数据是位于

数据库还是 Hadoop 数据池中。数据科学家使用 R 这个流行的统计建模环境来对数据进行机器学习建模。对于

数据库中的数据,通过 Oracle R Enterprise 进行建模,而对于 Hadoop 集群上的数据,则通过 Oracle R

Advanced Analytics for Hadoop (ORAAH) 进行建模。ORAAH 使用 Spark,通过纯 MapReduce 实现可将训练

广义线性回归和神经网络模型的速度提高 100-200 倍。这让数据科学家可以更快地对大量数据建模。一旦使用

R 训练得到模型后,即可通过数据库、Hadoop 或 Oracle Stream Explorer 将其部署到生产环境中,以便对实时

事件流进行预测。

以下图表列出了对比汇总信息:

Page 35: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

32 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

ORACLE 业务智能、信息发现和高级分析之间的对比

Oracle Business Intelligence Suite

Oracle

Oracle 大数据发现

Oracle Advanced Analytics

主要概念 已知问题的可靠答案 快速解答新问题 基于假设揭示趋势 方法 语义模型集成数据源并提供强大的治

理、可信度和重用

根据需要提取数据源以便实施发现。基

于传入的数据建立模型

通过各种统计算法和机器学习算法发现

隐藏的关联性

数据源 数据仓库以及联合数据源,大多数为

结构化数据源,能够对关系建立模

型,能够通过 Hive 和 Impala 直接

访问 Hadoop

多个数据源,可能难以建立相关性并且

可能随时间变化,包括结构化、半结构

化和非结构化数据源

结构化数据源 — 利用 Oracle Data

Mining(Oracle Advanced Analytics 的

一个组件);结构化和非结构化数据源 —

对 RDBMS 数据库和 Hadoop 中的数据

利用 Oracle R Distribution

用户

技术用户,他们了解业务和业务需求

数据科学家和技术用户,他们了解统

计建模、文本挖掘和分析、预测建模

等等

时间 公司需要数月来完成 公司需要数周来完成 需要数周至数月的时间来分析和拟合

模型

分析洞察有时受数据性质的限制,在某些时候,组织必须使用外部数据集扩大其专有数据,以便产生更丰富的

洞察。例如,希望获得有关其客户更深入的洞察的某零售品牌可能只能获得客户与其网站的交互信息或在其实

体店的购买情况。Oracle Marketing Cloud (OMC) 是数据即服务 产品的一个示例,有助于零售商了解他们可以

观察到的信息之外的客户行为和兴趣,从而能够加强在线、离线和移动营销活动的个性化。OMC 是最大的第三

方数据市场之一,它捕获 7 亿份客户资料的在线行为和美国 1.1 亿个家庭的离线行为。无论是在内部还是云中

进行分析,使用适当类型的数据都会产生更丰富、可指导行动的洞察。

各类企业用户,他们利用报告、信

息板、移动设备、业务流程中嵌入

的功能……

Page 36: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

33 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

数据可视化

一图胜千言(或 10 亿行数据),因此数据可视化并不是一个新生事物。数千年来人类一直在使用图形作为一种

传达信息的方式。如今,可视化有助于人们理解 Hadoop 集群中的海量多样的数据集。借助 Oracle

Big Data Discovery 之类的工具,能够对 Hadoop 中存储的数据进行可视化,从而可以探索数据、生成新发现

以及与他人分享这些发现。但是这只是探索流程的开始。

数据可视化必须在包括 Hadoop 集群和传统的数据存储在内的整个数据分析环境中提供。Oracle Business

Intelligence Suite 就提供这样的可视化。图 13 展示了通过数据可视化呈现数据的一些传统方式。

图 13:Oracle Business Intelligence Suite 中提供的传统数据可视化

如今,开发出了新的可视化方法来解释大数据的量和种类。图 14 按类型展示了一段时间中的各种数据量。

Page 37: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

34 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

图 14:Oracle Business Intelligence Suite 中提供的数据可视化

当然,地理空间数据可能显示为地图,日期数据可能显示为时间表,其他数据集可能以可视化工具建议的不同

可视方式进行显示。下图显示了与销售额数据相关联的地理空间数据,从而以图形化的方式显示区域销售额。

图 15:包括空间信息的销售额数据的数据可视化

Oracle Business Intelligent Suite 提供了广泛的数据可视化功能。Oracle 业务智能云服务也包含数据可视化。

Page 38: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

35 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

Spatial and Graph 分析

高级图形分析为了解超出传统关系数据的关系开辟了一系列新的可能性。以前,分析局限于简单的“一对一”、

“一对多”或“多对多”关系。而现在,通过图形分析,我们能够分析“多对多对多”关系并表示网络,例如下面的简

单社交网络。

图 16:简单的社交网络

在传统的分析中,表示这些关系非常简单:John 与 Tom 是朋友,Tom 与 Art 是朋友,依次类推。然而分析并

发现更复杂关系中潜藏的洞察会非常困难。Oracle Big Data Spatial and Graph 功能具有内置的分析,让我们可

以轻松地在 Oracle NoSQL 或 Apache HBase 中持久保留这些实体和关系。图形算法可快速发现 Mark、Larry

和 Safra 三者之间关系密切,还可快速发现 Mark 通过 Larry 和 Art 连接到 Newman。虽然该示例看来简单,但

现实中关系可能极其复杂。

图形数据库的典型用例包括:

» 发现社交网络关系中的关键影响因素、桥接实体和群体

» 智能发现商品亲和力以增强客户体验并给出更明智、更简单的建议

» 发现指示欺诈行为的模式及关系

借助 Oracle Big Data Spatial and Graph 中的空间分析,可以基于位置以及图像数据的处理进行分析。将不同

的位置数据集(如 GPS 坐标、描述性位置(“大本钟附近”)、地址和地理空间名称)关联在一起能够更深入地

了解包含丰富位置数据的数据集。栅格或矢量图形的图像处理使我们能够在大规模并行 Hadoop 环境中高效分

析数字地图和照片。

典型用例包括:

» 发现客户进入某个区域的情况以便根据位置投放广告

» 从卫星图像发现干旱、降雨和其他变化情况

Page 39: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

36 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

将架构扩展到物联网

部署传输数据的智能传感器和设备以及智能捕获和分析这些数据的技术,这种部署现在通常称为物联网 (IoT)。行

业分析师指出,目前部署了数百亿此类设备,而在未来几年内这一数字将快速增长至数千亿。这些设备每月生成

以 ZB 计数的数据。传输的内容通常包含高速半结构化数据流,这些数据流必须进入高度可伸缩的数据管理系统。

Hadoop 为分析此类数据提供了理想的平台。

以下显示了典型的 IoT 功能图。设备域描绘了传感器和其他数据传输源。数据通常流入和流经如图所示的通信网

关。智能设备(包括设备状态和软件更新)在设备管理层进行管理。数据有时路由至作为 Hadoop 集群前端的

NoSQL 数据库,或直接路由至企业域中的 Hadoop 集群。企业域负责满足数据发现、预测分析以及基本查询和报

告需求。

图 17:互联设备功能图(物联网)

在有些情况下,当首次传输某种数据时(比如传感器报告了一个可能会损坏设备或造成伤害的严重问题时)或者

有可能减轻某种可预防情形时(例如缓解公路交通堵塞),必须立即采取行动。事件处理引擎旨在通过在数据传

输过程中或进入 NoSQL 数据库前端或 Hadoop 时对数据流进行分析来快速采取某种预先编程的行动。应用的规则

通常基于对以前类似数据流的分析和已知结果。

下图显示了一些 Oracle 产品与功能图的对应关系。本文中的其他章节描述了许多 Oracle 大数据产品,包括内部

部署解决方案和基于云的解决方案。

Page 40: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

37 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

图 18:Oracle 产品和功能图(物联网)

Page 41: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

38 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

三个用例的大数据架构模式

在本节中,我们将探讨以下三个用例,并简要描述架构决策和技术组件:

» 用例 1:零售业 Web 日志分析

» 用例 2:金融服务业实时风险检测

» 用例 3:使用车载信息服务确定驾驶员的可保性

用例 1:零售业 Web 日志分析 在我们的第一个示例中,某零售业巨头诉说自己在圣诞节期间的网络渠道销售额非常不理想,它希望改善在线

购物网站上的客户体验。这家零售商的分析师将调查网站的导航模式,尤其是丢弃购物车的情况。

架构方面的挑战是使用大多属于现有的工具、技能和基础架构来快速实施某个解决方案,以便最大程度降低成

本同时快速向该企业提供解决方案。员工中熟练掌握 Hadoop 技能的编程人员寥寥无几,但他们确实具备 SQL

专业知识。将所有数据加载到现有 Oracle 数据仓库以便 SQL 编程人员可以从 Oracle 数据仓库访问数据,这种

做法已被抛弃,因为这需要大规模移动数据,并且需要大量的处理能力和存储资源,因而不具经济效益。另一

种做法是将数据加载到 Hadoop,然后使用 SQL 直接访问 HDFS 中的数据。

在图 19 所示的概念架构中,只需将 Hadoop 分布式文件系统 (HDFS) 与 Oracle 数据库外部表相关联即可直接

访问 HDFS。一旦连接后,Oracle Big Data SQL 即允许使用传统的 SQL 工具探索数据集。

图 19:用例 1:零售业 Web 日志分析

该架构的主要优势包括:

» 低成本的 Hadoop 存储

» 能够利用 Oracle SQL 和 BI 工具方面的现有投资和技能

» 无需安装客户端软件

» 利用 Oracle 数据仓库的安全性

» 无需将数据移至关系数据库

» 快速提取和集成结构化和非结构化数据集

Page 42: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

39 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

用于应对这一挑战的主要 Oracle 架构组件包括:

» 传统 SQL 工具:

» Oracle SQL Developer:具有图形用户界面的开发工具,允许用户通过 SQL 访问存储在关系数据库中的

数据。

» 可以使用 Oracle Business Intelligence Enterprise Suite 之类的业务智能工具通过 Oracle 数据库访

问数据

» Oracle 数据库外部表:

» Oracle 数据库的一项特性,可以由行和列构成的表格形式呈现文件系统中存储的数据。于是,可以使用

SQL 查询语言访问这类数据。

» Hadoop:

» Cloudera Hadoop Distribution,部署在 Oracle 大数据一体机上或作为大数据云服务部署在 Oracle 公有

云中,或者 Apache Hadoop Distribution(例如,部署在 IaaS 上)。

» Oracle Big Data SQL:

» 一种 SQL 访问方法,可提供 Oracle 大数据一体机(数据储藏库)与 Oracle Exadata(数据仓库)之间

的高级连接,也可以作为 Big Data SQL 云服务与大数据云服务和 Exadata 云服务一起部署在 Oracle 公

有云中。

» 利用 Oracle 的智能扫描特性,该特性可智能地从存储系统直接选择数据,而不必将数据移至主内存然后

评估数据。

» 使用“hcatalog”元数据存储自动创建数据库外部表,以实现最佳操作。Big Data SQL 可通过该目录连接

至多个数据源。

总的来说,该场景中的关键架构决策旨在避免数据迁移和复制、最大程度降低存储和处理需求以及成本,并利

用现有 SQL 工具和技能。

用例 2:金融服务业实时风险检测

一家大型金融机构具有检测潜在金融犯罪和恐怖活动的监管义务。然而,它面临一些挑战:

» 关联来自多种数据源、具有不同格式的数据 — 反洗钱法的扩充使得需满足这项要求,以涵盖日益增长的犯罪

活动,如赌博、集团犯罪、贩毒和资助恐怖主义活动。

» 捕获、存储和访问日益增长的数据,这些数据不断流入该机构。IT 系统必须自动采集和处理来自多种数据源

的大量数据,这些数据源包括货币交易报告 (CRT)、可疑活动报告 (SAR)、可转让票据日志 (NIL)、基于互联

网的活动和交易等。其中一些数据源实时提供数据,一些批量提供数据。

该机构希望利用其现有业务智能工具满足监管报表要求。由于既有实时数据馈送又有批量数据馈送,因此解决

方案中必须包含一个流事件处理引擎以便评估各种数据源。

图 20 展示了建议的解决方案。它将支持对历史概况变更和交易记录进行分析,以便从多个汇总级别和层级精准

地确定每个账户、客户、交易对象和法律实体的风险率。以前,由于受到处理能力和所需存储成本的限制,海

量且多样的数据意味着数据不能得到最大限度的利用。而现在,借助 Hadoop、Spark 和/或 Storm 处理,我们

Page 43: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

40 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

将整合所有明细数据点,以计算持续的风险概况。概况访问和最终交易可在 NoSQL 数据库中缓存,然后实时

事件处理引擎可按需对其进行访问以评估风险。评估风险后,交易行为和异常情况会更新 NoSQL 缓存的风险

概况,同时发布事件消息。消息用户包括各种运营和分析系统,以便相应地生成报告、执行分析和采取行动。

图 20:用例 2:金融服务业实时风险检测

Hadoop 集群以灵活的数据结构整合来自实时、运营和数据仓库源的数据。基于批处理的定期风险评估流程在

Hadoop 基础上运行,它预测风险,识别趋势,更新 NoSQL 数据库中缓存的客户风险概况。当通过网络传来实

时事件时,事件引擎对比缓存的风险概况来检验交易事件以评估风险,然后触发适当的操作并记录评估结果。

该架构包括以下组件:

» Stream / Event Processing

» Oracle Stream Explorer 持续处理传入数据、分析和完善模式,并在检测到情况时引发事件。Stream

Explorer 在开放服务网关 (OSGi) 容器中运行,可在任何 Java 运行时环境中工作。它提供了一个业务级

用户界面,允许在不掌握底层事件技术特征的情况下解释数据流。 .它可以在内部部署,也可以在

Oracle 公有云中部署(物联网云服务)。

» 还可以部署 Apache 流选件,包括 Spark Streaming、Flume 和 Storm。

» Hadoop:

» Cloudera Hadoop Distribution 部署在 Oracle 大数据一体机上或作为大数据云服务部署在 Oracle 公有云

中,或者 Apache Hadoop Distribution(例如,部署 IaaS 上)。

» Spark 或 MapReduce 处理来自多种数据源的大量、多样化数据,然后缩减和优化数据集以预测风险概

况。风险概况数据可由事件引擎进行评估,交易行为和异常情况可以存储在 Hadoop 中。

» 使用 Oracle R Advanced Analytics for Hadoop 进行数据挖掘/欺诈统计检测。

» Oracle 大数据一体机(或其他 Hadoop 解决方案):

» 捕获事件(各种选件,如 Flume、Spark Streaming)

Page 44: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

41 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

» 使用 Oracle NoSQL 数据库捕获数据结构灵活的低延迟数据,并支持快速查询(部署在 Oracle 大数据一

体机上或作为 NoSQL 数据库即服务部署在 Oracle 公有云中,或者 Apache 或其他 NoSQL 发现版(例

如,部署在 IaaS 上))。

总的来说,该架构的关键准则是将不同的数据与事件驱动的架构相集成,以满足复杂的监管要求。尽管此架构

描述中并未包括数据库管理系统,但引发的事件、后续处理交易和记录将存储在数据库中,以便于进行交易处

理或满足未来分析之需。

用例 3:使用车载信息服务确定驾驶员的可保性

第三个用例是一家保险公司,该公司希望根据个人驾驶习惯实现险别和保费个性化。这家保险公司将捕获大量

车辆生成的反映客户驾驶习惯的传感器数据(例如车载信息服务/物联网)。该公司必须以经济高效的方式存储

这些数据,对这些数据进行处理以确定趋势、识别模式并将最终结果与当前捕获的事务数据、主数据和参考数

据集成在一起。

图 21:用例 3:汽车保险公司业务目标

该用例中架构上的难题是将大数据架构与现有的信息架构投资无缝衔接起来。非结构化驾驶数据必须与结构化

保险数据(客户统计信息、有效保单、索赔历史记录、支付历史记录等)匹配且相关联。保险分析师通过现有

的 BI 生态系统使用这些结果。还有最后一点,必须建立数据安全机制以满足合规性要求。

图 22 展示了新架构。物联网架构依靠中间件组件收集来自传感器的数据,管理设备以及分析流数据。和上个示

例一样,流数据可以先传入 NoSQL 数据库,也可以直接传入 Hadoop。分析数据最终传入已有的数据仓库。

Page 45: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

42 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

图 22:用例 3:使用车载信息服务(物联网)传感器数据确定驾驶员的可保性

该解决方案可完成多个目标。不仅可用于更新客户档案,计算新保费,更新数据仓库,还可用于将数据提供给

发现实验室以便在这里分析盈利能力和竞争力。该架构旨在最大程度地减少平台之间的数据移动,集成业务智

能和分析流程,支持深度分析以及确保一致地应用访问/身份管理和数据安全功能。

由于传感器数据量大且多种多样,因此选择 HDFS 来存储原始数据。Spark 和 MapReduce 处理从低密度数据

中筛选出有意义的汇总数据。储藏库中 SQL 和“R”分析就地基于数据计算初期保费得分。客户档案在 NoSQL 数

据库中更新,并导出到运营系统和数据仓库系统。驾驶行为数据、得到的档案和其他保费因素都加载到发现实

验室中,以便进行进一步的研究。通过使用传统的业务智能和信息发现工具(Big Data SQL 支持其中一些工

具),可跨所有这些环境访问数据。

采用这种架构方法后,业务用户不会遇到“大数据”分裂问题。也就是说,他们甚至不需要知道传统事务数据与大

数据之间存在着差别。当他们浏览数据、检验假设、分析模式以及做出明智决策时,一切都是无缝衔接的。

总的来说,该用例中关键的架构选择是非结构化大数据与结构化数据和数据仓库相集成。这里描绘的解决方案

可以在内部部署、在 IaaS 平台上部署,或者在 Oracle 公有云中的 PaaS 平台上部署。

Page 46: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

43 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

大数据最佳实践

下面是打造成功大数据架构基础的一些指导准则:

第 1 项:确保大数据与特定业务目标相一致 大数据处理的主要宗旨在于从更广泛的数据集发现新价值 — 通过对低密度的大量数据进行智能筛选来发现价

值。作为一名架构师,应就如何运用大数据技术实现业务目标向您的企业提出建议。举例来说,您应知道如何

通过过滤 web 日志来理解电子商务行为,知道如何从社交媒体和客户支持交互中获取舆情,并应掌握统计关

联方法以及它们与客户、产品、制造或工程数据的实用性。尽管大数据是一个新的 IT 前沿领域,而且大家都

在满怀激情地学习相关的新技术,但需要保证新的投资以技能、组织或基础架构为本,从而在强大的业务驱动

的环境下确保持续的项目投资和资金支持。要确定自己是否处于正确的轨道上,请思考大数据是如何支持和帮

助您的首要业务和 IT 重要事项的。

第 2 项:通过标准和治理弥补技能匮乏

McKinsey Global Institute1

撰文指出大数据发展的最大障碍之一就是技能匮乏。随着对深度分析技术的采用不断

升温,预计这一缺口在 2018 年将达到 60%。为了降低此风险,您需要确保将大数据技术、相关考量和决策纳

入到您的 IT 治理计划中。通过采取标准化的方法,您可以控制成本并最充分地利用您的资源。实施大数据解决

方案和战略的组织应尽早并且经常地评估技能需求并应主动查明任何潜在的技能缺口。组织可以通过培训/交叉

培训现有资源、招聘新资源或利用咨询公司来弥补存在的技能缺口。实施 Oracle 大数据相关的云服务也有助于

企业加快大数据实施,有助于在培养内部专家的同时更快地实现价值。此外,利用 Oracle 大数据解决方案,您

可以对大数据实施利用现有的 SQL 工具和专业知识,从而节省时间和资金,同时可以使用现有技能储备。

第 3 项:通过卓越中心优化知识传播

使用卓越中心 (CoE) 可以共享解决方案知识、计划组件、监管和对项目的管理通信。无论大数据技术是新投资

还是扩充性投资,软成本和硬成本都是可在整个企业内共享的投资。利用 CoE 方法有助于通过一种更加结构化

和系统性的方式来推进大数据和整个信息架构的成熟度。

第 4 项:首要目标是确保非结构化数据与结构化数据协调一致

单独对大数据加以分析是一项极具价值的任务。但是,通过将低密度的大数据与目前已在使用的结构化数据

相关联以及集成,用户可以获得更加深刻的业务洞察力。举例来说,所有客户的舆情与最佳客户的舆情是不

同的。无论是捕获客户、产品、设备还是环境大数据,其目标都是在核心主数据和分析概要中添加更多的相

关数据点,从而有助于用户得出更好的结论。鉴于此,许多人都将大数据视为现有业务智能和数据仓库平台

及信息架构的不可或缺的扩展。

1 McKinsey Global Institute,2011 年 5 月,“大数据的挑战和机遇”,

https://www.mckinseyquarterly.com/The_challenge_and_opportunity_of_big_data_2806

Page 47: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

44 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

要知道,大数据分析流程和模型既可以采用人工方式也可以由机器处理。大数据分析功能包括统计分析、空间

分析、语义分析、交互式发现和可视化功能。这些功能可让企业的知识工作者和新的分析模型关联不同类型和

不同来源的数据,建立关联并揭示有意义的结果。但总而言之,请将大数据技术视作相关事务数据的预处理器

和后处理器,并充分利用您在基础架构、平台、BI 和 DW 方面的前期投资。

第 5 项:规划发现实验室以确保性能

发现数据中潜藏的含义并非总是简单之事。有时,我们甚至不知道应从何处入手。这完全在预料之中。管理层

和 IT 部门需要为这种“方向感缺失”或“明确需求的缺失”提供支持。这就是说,发掘和探索数据的分析师和数据科

学家需要与业务部门密切合作以了解主要业务知识缺口和需求。为了适应交互式数据探索和统计算法实验,我

们需要建立一些高性能工作区。要确保该“沙盒”环境具备所需功能并且得到正确的治理。

第 6 项:与云运营模式相协调

无论是进行迭代试验还是运行生产作业,大数据流程和用户都需要能够访问各种各样的资源。跨数据种类的数

据(事务、主数据、参考、概要)是大数据解决方案不可或缺的一个要素。企业应按需创建分析沙盒,并且资

源管理对于确保控制整个数据流各个阶段至关重要,包括预处理、集成、数据库中汇总、后处理和分析建模等

阶段。合理规划私有云和公有云供应及安全策略是支持这些不断变化的需求的一个不可或缺的关键环节。

Page 48: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

45 | ORACLE 企业架构白皮书 — 企业架构师大数据指南

总结

毋庸置疑,我们生活在一个数据持续增长的世界中,这是作为数据使用者的我们不曾想像的。随着从社交媒

体、传感器及其他构成物联网的移动设备可以获得越来越多的情报,有效地使用大数据被许多组织视为赢得

竞争优势和超越同行的关键。业务管理畅销书作家 Tom Peters 曾说过,“在新的经济环境中,若组织不了解

将数据和信息作为有形资产进行管理的重要性,将难以生存。”

大数据前景激发企业进行投资。信息架构师作为研究员、设计师和顾问处于这一领域的前沿。采用新技术始终

是一项极具挑战性的任务,但只要架构师合理规划,就可以建立一条快速、可靠的采用路径。

当企业探索各种大数据功能时,我们建议企业考虑将大数据作为一个平台而交付对业务有影响力的项目。请扩

大您当前的 IT 治理范围,使其涵盖大数据卓越中心,从而确保业务一致性、发展内部技能、管理开源工具和技

术、共享知识、建立标准并尽可能地利用最佳实践。当您这么做时,新的运营和管理功能就会与标准 IT 流程和

功能保持一致,就能利用先期投资以及构建企业级伸缩性和弹性。

30 多年来,Oracle 在信息管理领域一直处于领先地位,如今,它一如既往地大量投资于研发工作,旨在为

企业级大数据产品和解决方案带来最新的创新和功能。您将发现,Oracle 大数据平台是绝无仅有的,从数据

储藏库、发现实验室、数据仓库到业务智能,一切都经过集成设计,可以协同工作,为您的企业提供所需的

洞察。Oracle 解决方案的提供方式有两种,可以采用内部部署模型,也可以在 Oracle 公有云中部署。

现在正是与 Oracle 合作为您的公司和事业构建大数据基础的绝佳时机。这些新要素将快速成为您规划新一代信

息架构的核心要求。

本白皮书为您介绍了 Oracle 大数据产品、架构和 Oracle 的一对一架构指导服务的性质。如需了解关于 Oracle 企

业架构和信息架构咨询服务的更多信息,请访问 www.oracle.com/goto/EA-Services 和特定的信息架构服务。

要查看有关 Oracle 架构开发流程 (OADP)、相关的 Oracle 企业架构框架 (OEAF) 的其他白皮书,阅读 Oracle

在企业架构项目方面的经验,或者要加入企业架构师社区,请访问 www.oracle.com/goto/EA。

如需深入了解包含构件、工具和示例的 Oracle 大数据参考架构,请联系您当地的 Oracle 销售代表,要求与

Oracle 企业架构师交流。

有关 Oracle 和大数据的更多信息,请访问 www.oracle.com/bigdata。

Page 49: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

甲骨文(中国)软件系统有限公司

北京远洋光华中心办公室

地址:北京市朝阳区景华南街5号远洋光华中心C座21层

邮编:100020

电话:(86.10) 6535-6688

传真:(86.10) 6515-1015

北京汉威办公室

地址:北京市朝阳区光华路7号汉威大厦10层1003-1005单元

邮编:100004

电话:(86.10) 6535-6688

传真:(86.10) 6561-3235

北京甲骨文大厦

地址:北京市海淀区中关村软件园24号楼甲骨文大厦

邮编:100193

电话:(86.10) 6106-6000

传真:(86.10) 6106-5000

北京国际软件大厦办公室

地址:北京市海淀区中关村软件园9号楼国际软件大厦二区308单元

邮编:100193

电话:(86.10) 8279-8400

传真:(86.10) 8279-8686

北京孵化器办公室

地址:北京市海淀区中关村软件园孵化器2号楼A座一层

邮编:100193

电话:(86.10) 8278-6000

传真:(86.10) 8282-6401

上海名人商业大厦办公室

地址:上海市黄浦区天津路155号名人商业大厦12层

邮编:200001

电话:(86.21) 2302-3000

传真:(86.21) 6340-6055

上海腾飞浦汇大厦办公室

地址:上海市黄浦区福州路318号腾飞浦汇大厦508-509室

邮编:200001

电话:(86.21) 2302-3000

传真:(86.21) 6391-2366

上海创智天地10号楼办公室

地址:上海市杨浦区凇沪路290号创智天地10号楼512-516单元

邮编:200433

电话:(86.21) 6095-2500

传真:(86.21) 6107-5108

上海创智天地11号楼办公室

地址:上海市杨浦区淞沪路303号创智天地科教广场3期11号楼7楼

邮编:200433

电话:(86.21) 6072-6200

传真:(86.21) 6082-1960

上海新思大厦办公室

地址:上海市漕河泾开发区宜山路926号新思大厦11层

邮编:200233

电话:(86.21) 6057-9100

传真:(86.21) 6083-5350

广州国际金融广场办公室

地址:广州市天河区珠江新城华夏路8号合景国际金融广场18楼

邮编:510623

电话:(86.20) 8513-2000

传真:(86.20) 8513-2380

成都中海国际中心办公室

地址:成都市高新区交子大道177号中海国际中心7楼B座02-06单元

邮编:610041

电话:(86.28) 8530-8600

传真:(86.28) 8530-8699

深圳飞亚达科技大厦办公室

地址:深圳市南山区高新南一道飞亚达科技大厦16层

邮编:518057

电话:(86.755) 8396-5000

传真:(86.591) 8601-3837

深圳德赛科技大厦办公室

地址:深圳市南山区高新南一道德赛科技大厦8层0801-0803单元

邮编:518057

电话:(86.755) 8660-7100

传真:(86.755) 2167-1299

大连办公室

地址:大连软件园东路23号大连软件园15号楼502

邮编:116023

电话:(86.411) 8465-6000

传真:(86.755) 8465-6499

苏州办公室

地址:苏州工业园区星湖街328号苏州国际科技园5期11幢1001室

邮编:215123

电话:(86.512) 8666-5000

传真:(86.512) 8187-7838

沈阳办公室

地址:沈阳市和平区青年大街390号皇朝万鑫国际大厦A座39层3901&3911室

邮编:110003

电话:(86.24) 8393-8700

传真:(86.24) 2353-0585

济南办公室

地址:济南市泺源大街150号中信广场11层1113单元

邮编:250011

电话:(86.531) 6861-1900

传真:(86.531) 8518-1133

南京办公室

地址:南京市玄武区洪武北路55号置地广场19层1911室

邮编:210018

电话:(86.25) 8579-7500

传真:(86.25) 8476-5226

西安办公室

地址:西安市高新区科技二路72号西安软件园零壹广场主楼1401室

邮编:710075

电话:(86.29) 8834-3400

传真:(86.25) 8833-9829

Page 50: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

重庆办公室

地址:重庆市渝中区邹容路68号大都会商厦1611室

邮编:400010

电话:(86.23) 6037-5600

传真:(86.23) 6370-8700

杭州办公室

地址:杭州市西湖区杭大路15号嘉华国际商务中心810&811室

邮编:310007

电话:(86.571) 8168-3600

传真:(86.571) 8717-5299

福州办公室

地址:福州市五四路158号环球广场1601室

邮编:350003

电话:(86.591) 8621-5050

传真:(86.591) 8801-0330

南昌办公室

地址:江西省南昌市西湖区沿江中大道258号

皇冠商务广场10楼1009室

邮编:330025

电话:(86.791) 8612-1000

传真:(86.791) 8657-7693

呼和浩特办公室

地址:内蒙古自治区呼和浩特市新城区迎宾北路7号

大唐金座19层北侧1902-1904室

邮编:010051

电话:(86.471) 3941-600

传真:(86.471) 5100-535

郑州办公室

地址:河南省郑州市中原区中原中路220号

裕达国际贸易中心A座2015室

邮编:450007

电话:(86.371) 6755-9500

传真:(86.371) 6797-2085

武汉办公室

地址:武汉市江岸区中山大道1628号

武汉天地企业中心5号大厦23层2301单元

邮编:430010

电话:(86.27) 8221-2168

传真:(86.27) 8221-2168

长沙办公室

地址:长沙市芙蓉区韶山北路159号通程国际大酒店1311-1313室

邮编:410011

电话:(86.731) 8977-4100

传真:(86.731) 8425-9601

石家庄办公室

地址:石家庄市中山东路303号石家庄世贸广场酒店14层1402室

邮编:050011

电话:(86.311) 6670-8080

传真:(86.311) 8667-0618

昆明办公室

地址:昆明市三市街六号柏联广场写字楼11层1103A室

邮编:650021

电话:(86.871) 6402-4600

传真:(86.871) 6361-4946

合肥办公室

地址:安徽省合肥市蜀山区政务新区怀宁路1639号平安大厦18层1801室

邮编:230022

电话:(86.551) 6595-8200

传真:(86.551) 6371-3182

广西办公室

地址:广西省南宁市青秀区民族大道136-2号华润大厦B座2302室

邮编:530028

电话:(86.771) 391-8400

传真:(86.771) 577-5500

Page 51: An Enterprise Architects Guide to Oracle's Big Data Platform...提供的价值。大数据解决方案正在帮助企业提高品牌忠诚度、管理个性化价值链、揭示真相、预测产

2016 年 3 月

企业架构师大数据指南 - 参考架构概述

作者:Peter Heller, Dee Piziak, Robert Stackowiak, Art Licht,

Tom Luckenbach, Bob Cauthen, Avishkar Misra, John Wyant, Jeff Knudsen

公司网址:http://www.oracle.com(英文)

中文网址:http://www.oracle.com/cn(简体中文)

销售中心:800-810-0161

售后服务热线:800-810-0366

培训服务热线:800-810-9931

欢迎访问:

http://www.oracle.com(英文)

http://www.oracle.com/cn(简体中文)

版权© 2016 归 Oracle 公司所有。未经允许,不得以任何

形式和手段复制和使用。

本文的宗旨只是提供相关信息,其内容如有变动,恕不另

行通知。Oracle 公司对本文内容的准确性不提供任何保证,

也不做任何口头或法律形式的其他保证或条件,包括关于

适销性或符合特定用途的所有默示保证和条件。本公司特

别声明对本文档不承担任何义务,而且本文档也不能构成

任何直接或间接的合同责任。未经 Oracle 公司事先书面许

可,严禁将此文档为了任何目的,以任何形式或手段(无论

是电子的还是机械的)进行复制或传播。

Oracle 是 Oracle 公司和/或其分公司的注册商标。其他名

字均可能是各相应公司的商标。


Recommended