Contents at a Glance
PART IIntroduction
1 Introduction to Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 The Value of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
PART IIBig Data Platform
3 The Apache Hadoop Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4 Why an Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 BDA Configurations, Deployment Architectures, and Monitoring . . . . . . . . . . 79
6 Integrating the Data Warehouse and Analytics Infrastructure to Big Data . . . . 125
7 BDA Connectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8 Oracle NoSQL Database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
PART IIIAnalyzing Information and Making Decisions
9 In-Database Analytics: Delivering Faster Time to Value . . . . . . . . . . . . . . . . . 205
10 Analyzing Data with R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
11 Endeca Information Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
12 Big Data Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
13 Developing Architecture and Roadmap for Big Data . . . . . . . . . . . . . . . . . . . 393
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 / Blind folio: ix
ix
00-FM.indd 9 8/14/13 1:56 PM
Contents
Acknowledgments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxiIntroduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xxv
PART IIntroduction
1 Introduction to Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4Google’s MapReduce Algorithm and Apache Hadoop . . . . . . . . . . . . . . . . . 5Oracle’s Big Data Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 The Value of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11Am I Big Data, or Is Big Data Me? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12Big Data, Little Data—It’s Still Me . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
What Happened? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Now What? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Reality, Check Please! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18What Do You Make of It? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Information Chain Reaction (ICR) . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Big Data, Big Numbers, Big Business? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Twitter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24Facebook . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25Internal Source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25ICR: Connect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26ICR: Change . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9 / Blind folio: xi
xi
00-FM.indd 11 8/14/13 1:56 PM
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9
xii Oracle Big Data Handbook
Wanted: Big Data Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29Big Data Example 1: Clinical Trial Research
Within the Healthcare Industry . . . . . . . . . . . . . . . . . . . . . . . . . . . 30Example 2: Improvements in Car Design for
Driver Safety Within the Automotive Industry . . . . . . . . . . . . . . . . 31Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
PART IIBig Data Platform
3 The Apache Hadoop Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37Software vs. Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39The Hadoop Software Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Hadoop Distributions and Versions . . . . . . . . . . . . . . . . . . . . . . . . . . 40The Hadoop Distributed File System (HDFS) . . . . . . . . . . . . . . . . . . . 40Scheduling, Compute, and Processing . . . . . . . . . . . . . . . . . . . . . . . . 43
Operating System Choices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45I/O and the Linux Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
The Hadoop Hardware Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46CPU and Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Disk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Putting It All Together . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4 Why an Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Why Would Oracle Create
a Big Data Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52What Is an Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53What Are the Goals of
Oracle Big Data Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54Optimizing an Appliance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55Oracle Big Data
Appliance Version 2 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56Oracle Big Data
Appliance X3-2 Hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58Where Did Oracle
Get Hadoop Expertise? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61Configuring a Hadoop Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Choosing the Core Cluster Components . . . . . . . . . . . . . . . . . . . . . . 64Assembling the Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
What About a Do-It-Yourself Cluster? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67Total Costs of a Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
00-FM.indd 12 8/14/13 1:56 PM
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9
Contents xiii
Time to Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73How to Build Out Larger Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75Can I Add Other Software
to Oracle Big Data Appliance? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75Drawbacks of an Appliance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5 BDA Configurations, Deployment Architectures, and Monitoring . . . . . . . . 79Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Big Data Appliance X3-2 Full Rack (Eighteen Nodes) . . . . . . . . . . . . 82Big Data Appliance X3-2 Starter Rack (Six Nodes) . . . . . . . . . . . . . . . 86Big Data Appliance X3-2 In-Rack Expansion (Six Nodes) . . . . . . . . . . 89Hardware Modifications to BDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89Software Supported on Big Data Appliance X3-2 . . . . . . . . . . . . . . . . 90
BDA Install and Configuration Process . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92Critical and Noncritical Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94Automatic Failover of the NameNode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95BDA Disk Storage Layout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96Adding Storage to a Hadoop Cluster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99Hadoop-Only Config and Hadoop+NoSQL DB . . . . . . . . . . . . . . . . . . . . . . 99
Hadoop-Only Appliance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100Hadoop and NoSQL DB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
Memory Options . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103Deployment Architectures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
Multitenancy and Hadoop in the Cloud . . . . . . . . . . . . . . . . . . . . . . 103Scalability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105Multirack BDA Considerations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Installing Other Software on the BDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107BDA in the Data Center . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Administrative Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107Client Access Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108InfiniBand Private Network . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108Network Requirements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109Connecting to Data Center LAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111Example Connectivity Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Oracle Big Data Appliance Restrictions on Use . . . . . . . . . . . . . . . . . . . . . . 112BDA Management and Monitoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Enterprise Manager . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115Cloudera Manager . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117Hadoop Monitoring Utilities: Web GUI . . . . . . . . . . . . . . . . . . . . . . . 117Oracle ILOM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120Hue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122DCLI Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
00-FM.indd 13 8/14/13 1:56 PM
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9
xiv Oracle Big Data Handbook
6 Integrating the Data Warehouse and Analytics Infrastructure to Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
The Data Warehouse as a Historic Database of Record . . . . . . . . . . . . . . . . 126The Oracle Database as a Data Warehouse . . . . . . . . . . . . . . . . . . . . 127Why the Data Warehouse and Hadoop Are Deployed Together . . . . . 128
Completing the Footprint: Business Analyst Tools . . . . . . . . . . . . . . . . . . . . . 130Building Out the Infrastructure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7 BDA Connectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133Oracle Big Data Connectors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134Oracle Loader for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Online Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137Oracle OCI Direct Path Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139JDBC Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139Offline Mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140Oracle Data Pump Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141Delimited Text Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
Installation of Oracle Loader for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . 142Invoking Oracle Loader for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143Input Formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
DelimitedTextInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145RegexInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146AvroInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146HiveToAvroInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146KVAvroInputFormat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147Custom Input Formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Oracle Loader for Hadoop Configuration Files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Loader Maps . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150Additional Optimizations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152Leveraging InfiniBand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152Comparison to Apache Sqoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Oracle SQL Connector for HDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153Installation of Oracle SQL Connector for HDFS . . . . . . . . . . . . . . . . . . . . . . 157HIVE Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159Creating External Tables Using
Oracle SQL Connector for HDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160ExternalTable Configuration Tool . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161Data Source Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161Configuration Tool Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162Required Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163Optional Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164ExternalTable Tool for Delimited Text Files . . . . . . . . . . . . . . . . . . . . . 164Testing DDL with --noexecute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
00-FM.indd 14 8/14/13 1:56 PM
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9
Contents xv
Adding a New HDFS File to the Location File . . . . . . . . . . . . . . . . . . 167Manual External Table Configuration . . . . . . . . . . . . . . . . . . . . . . . . . 168
Hive Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169ExternalTable Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
Oracle Data Pump Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171Configuration Files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173Querying with Oracle SQL
Connector for HDFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175Oracle R Connector for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176Oracle Data Integrator Application Adapter for Hadoop . . . . . . . . . . . . . . . . 177
8 Oracle NoSQL Database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181What Is a NoSQL Database System? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
NoSQL Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184Oracle NoSQL Database . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
A Sample Use Case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Client Driver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189Key-Value Pairs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190Storage Nodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192Replication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193Smart Topology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194Online Elasticity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194No Single Point of Failure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Data Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195APIs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195CRUD Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196Multiple Update Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196Lookup Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196Transactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197Predictable Performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199Installation and Administration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
Simple Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200Administration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
How Oracle NoSQL Database Stacks Up . . . . . . . . . . . . . . . . . . . . . . . . . . . 201Useful Links . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
PART IIIAnalyzing Information and Making Decisions
9 In-Database Analytics: Delivering Faster Time to Value . . . . . . . . . . . . . . . . 205Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Oracle’s In-Database Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208Why Running In-Database Is So Important . . . . . . . . . . . . . . . . . . . . 211
00-FM.indd 15 8/14/13 1:56 PM
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9
xvi Oracle Big Data Handbook
Introduction to Oracle Data Mining and Statistical Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
Oracle’s In-Database Advanced Analytics . . . . . . . . . . . . . . . . . . . . . 213Oracle Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213Introduction to R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
In-Database Statistical Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236Making BI Tools Smarter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Spatial Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238Understanding the Spatial Data Model . . . . . . . . . . . . . . . . . . . . . . . 239Querying the Spatial Data Model . . . . . . . . . . . . . . . . . . . . . . . . . . . 239Using Spatial Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240Making BI Tools Smarter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Graph-Based Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242Graph Data Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242Querying Graph Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
Multidimensional Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245Making BI Tools Smarter and Faster . . . . . . . . . . . . . . . . . . . . . . . . . . 246
In-Database Analytics: Bringing It All Together . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
Integrating Analytics into Extract-Load-Transform Processing . . . . . . . . . . . . . . . . . . . . . . . . 247
Delivering Guided Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248Delivering Analytical Mash-ups . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
10 Analyzing Data with R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251Introduction to Open Source R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
CRAN, Packages, and Task Views . . . . . . . . . . . . . . . . . . . . . . . . . . . 252GUIs and IDEs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
Traditional R and Database Interaction vs. Oracle R Enterprise . . . . . . . . . . 256Oracle’s Strategic R Offerings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258
Oracle R Enterprise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259Oracle R Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260ROracle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261Oracle R Connector for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
Oracle R Enterprise: Next-Level View . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261Oracle R Enterprise Installation and Configuration . . . . . . . . . . . . . . . . . . . . 263Using Oracle R Enterprise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
Transparency Layer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265Embedded R Execution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276Predictive Analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
00-FM.indd 16 8/14/13 1:56 PM
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9
Contents xvii
Oracle R Connector for Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309Invoking MapReduce Jobs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311Testing ORCH R Scripts Without the Hadoop Cluster . . . . . . . . . . . . 311Interacting with HDFS from R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313HDFS Metadata Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314Working with Hadoop Using the ORCH Framework . . . . . . . . . . . . . 316ORCH Predictive Analytics on Hadoop . . . . . . . . . . . . . . . . . . . . . . . 317ORCHhive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319Oracle R Connector for Hadoop and
Oracle R Enterprise Interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . 322Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
11 Endeca Information Discovery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325Why Did Oracle Select Endeca? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
Product Suites Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326Endeca Information Discovery Platform . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
Major Functional Areas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328Key Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
Endeca Information Discovery and Business Intelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
Difference in Roles and Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . 332BI Development Process
vs. Information Discovery Approach . . . . . . . . . . . . . . . . . . . . . . . 333Complementary But Not Exclusive . . . . . . . . . . . . . . . . . . . . . . . . . . 334
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335Oracle Endeca Server . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336Oracle Endeca Studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339Oracle Endeca Integration Suite . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342Endeca on Exalytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343Scalability and Load Balancing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
Unifying Diverse Content Sets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348Endeca Differentiator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349Industry Use Cases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
Hands-On with Endeca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351Installation and Configuration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351Developing an Endeca Application . . . . . . . . . . . . . . . . . . . . . . . . . . 353
12 Big Data Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357Key Elements of Enterprise Data Governance . . . . . . . . . . . . . . . . . . . . . . . . 359
Business Outcome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359Information Lifecycle Management . . . . . . . . . . . . . . . . . . . . . . . . . . 359Regulatory Compliance and Risk Management . . . . . . . . . . . . . . . . . 360Metadata Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
00-FM.indd 17 8/14/13 1:56 PM
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9
xviii Oracle Big Data Handbook
Data Quality Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361Master and Reference Data Management . . . . . . . . . . . . . . . . . . . . . 361Data Security and Privacy Management . . . . . . . . . . . . . . . . . . . . . . 362Business Process Alignment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
How Does Big Data Impact Enterprise Data Governance? . . . . . . . . . . . . . . 363Modeled Data vs. Raw Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363Types of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366Applying Data Governance to Big Data . . . . . . . . . . . . . . . . . . . . . . . 370Leveraging Big Data Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
Industry-Specific Use Cases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377Utilities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377Healthcare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379Financial Services . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380Retail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382Consumer Packaged Goods (CPG) . . . . . . . . . . . . . . . . . . . . . . . . . . . 383Telecommunications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384Oil and Gas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
How Does Big Data Impact Data Governance Roles? . . . . . . . . . . . . . . . . . 388Governance Roles and Organization . . . . . . . . . . . . . . . . . . . . . . . . . 388
An Approach to Implementing Big Data Governance . . . . . . . . . . . . . . . . . . 389
13 Developing Architecture and Roadmap for Big Data . . . . . . . . . . . . . . . . . . 393Architecture Capabilities for Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
New Characteristics of Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394Conceptual Architecture Capabilities of Big Data . . . . . . . . . . . . . . . 395Product Capabilities and Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397Making Big Data Architecture Decisions . . . . . . . . . . . . . . . . . . . . . . 399
Architecture Development Process for Realizing Incremental Values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
Overview of Oracle Information Architecture Framework . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
Overview of Applied OADP for Information Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
Big Data Architecture Development Process . . . . . . . . . . . . . . . . . . . 408Impact on Data Management
and BI Processes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415Traditional BI Development Process . . . . . . . . . . . . . . . . . . . . . . . . . 415Big Data and Analytics Development Process . . . . . . . . . . . . . . . . . . 415
Big Data Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416Traditional Data Governance Focus . . . . . . . . . . . . . . . . . . . . . . . . . . 417New Focus for Governance in Big Data . . . . . . . . . . . . . . . . . . . . . . 417
Developing Skills and Talent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418Data Scientist . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
00-FM.indd 18 8/14/13 1:56 PM
Oracle-Regular / Oracle Big Data Handbook / Plunkett / 726-9
Contents xix
Big Data Developer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419Big Data Administrator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
Big Data Best Practices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419Align Big Data Initiative with
Specific Business Goals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420Ensure a Centralized IT Strategy
for Standards and Governance . . . . . . . . . . . . . . . . . . . . . . . . . . . 420Use a Center of Excellence to
Minimize Training and Risk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420Correlate Big Data with Structured Data . . . . . . . . . . . . . . . . . . . . . . 420Provide High-Performance and Scalable Analytical Sandboxes . . . . . 420Reshape the IT Operating Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
00-FM.indd 19 8/14/13 1:56 PM