UNIVERSIDADE PRESBITERIANA MACKENZIE
Centro de Ciências Sociais e Aplicadas
Programa de Pós-Graduação em Administração de Empresas
MAYCON FRANCO LOURENÇO GIMENEZ
OS EFEITOS DA UTILIZAÇÃO DO BIG DATA NA INTELIGÊNCIA
COMPETITIVA
São Paulo
2018
MAYCON FRANCO LOURENÇO GIMENEZ
OS EFEITOS DA UTILIZAÇÃO DO BIG DATA NA INTELIGÊNCIA
COMPETITIVA
Dissertação apresentada ao Programa de
Pós-Graduação em Administração de
Empresas da Universidade Presbiteriana
Mackenzie, como requisito para a
obtenção do Título de Mestre em
Administração.
Linha de pesquisa: Recursos e
Desenvolvimento Empresarial
Orientador:
Prof. Dr. Gilberto Perez
São Paulo
2018
G491e Gimenez, Maycon Franco Lourenço
Os efeitos da utilização do Big Data na inteligência
competitiva /
Maycon Franco Lourenço Gimenez.
84 f. : il. ; 30 cm
Dissertação (Mestrado em Administração de Empresas) –
Universidade Presbiteriana Mackenzie, São Paulo, 2018.
Orientador: Prof. Dr. Gilberto Perez.
Bibliografia: f. 71-75.
1. Inteligência competitiva. 2. Big Data. I. Perez, Gilberto,
orientador. II. Título.
CDD 658.4
Bibliotecário Responsável: Aline Amarante Pereira – CRB 8/9549
Dedico a todos os meus familiares e amigos
pelo apoio incondicional em todos os
momentos. À academia para que auxilie na
geração de maior conhecimento.
AGRADECIMENTOS
Ao meu orientador, Professor Dr. Gilberto Perez, por todo apoio, paciência e empenho, sempre
disponível para orientar e contribuir para o êxito deste trabalho, pois durante todo o programa
de Pós-Graduação esteve presente, apoiando e motivando em cada uma das etapas.
A todos os meus familiares e amigos pela paciência, apoio e compreensão incondicional nos
momentos em que estive ausente, dedicando-me ao mencionado programa.
À banca examinadora, Professor Dr. Alberto de Medeiros Júnior e Professor Dr. Antonio
Geraldo da Rocha Vidal pela disponibilidade e precisas orientações realizadas durante a fase
de qualificação: foi muito importante para finalização da dissertação.
A todos os professores com quem tive a oportunidade de frequentar as aulas durante o Programa
de Pós-Graduação em Administração de Empresas da Universidade Presbiteriana Mackenzie.
Aos meus colegas do Mestrado, pela convivência, pela troca de experiências e instigantes
debates durantes as aulas, as quais foram muito importantes para minha formação no programa.
RESUMO
Com esta pesquisa, procurou-se verificar a influência da utilização do conjunto tecnológico do
Big Data na Inteligência Competitiva. O método de pesquisa adotado foi o qualitativo, de
caráter descritivo e exploratório, sendo a coleta de dados feita com entrevistas em profundidade,
direcionadas por meio de um roteiro estruturado previamente elaborado. Foram entrevistados
quatro especialistas e gestores que trabalham diretamente com o conjunto de técnicas e
ferramentas que compõem o ecossistema de Big Data. A análise dos dados deu-se pela
utilização da análise de conteúdo e os resultados da pesquisa, obtidos pela formação de cinco
categorias, indicaram que há influência nos resultados obtidos pela Inteligência Competitiva
com a utilização do Big Data. Os resultados também indicam a existência de relações entre as
principais dimensões do Big Data com as etapas do Ciclo da Inteligência Competitiva. A
revisão da literatura propiciou a criação do Modelo Conceitual que propõe a relação teórica
entre os constructos, que veio a ser validada pela análise dos dados coletados. Também foram
verificadas relações entre o ciclo da Inteligência Competitiva e o fluxo de dados do Big Data.
Ao final da pesquisa, pôde-se inferir que o conjunto tecnológico do Big Data pode proporcionar
resultados que dificilmente seriam obtidos com as tecnologias tradicionais utilizadas na
Inteligência Competitiva.
Palavras-chave: Inteligência Competitiva. Inteligência Estratégica. Big Data.
ABSTRACT
With this research, we tried to verify the influence of the use of the technology of set Big Data
on competitive intelligence. The method of research was the qualitative, descriptive and
exploratory character, being data collection made with in-depth interviews, directed through a
structured script previously prepared. Were interviewed four experts and managers who work
directly with the set of techniques and tools that make up the Big Data ecosystem. The analysis
of the data was for the use of content analysis and the results of the survey, obtained by the
formation of five categories, indicated that there is influence on the results obtained by
competitive intelligence through the use of Big Data. The results also indicate the existence of
relationships between the main dimensions of the Big Data with the stages of the cycle of
competitive intelligence. The literature review led to the creation of the conceptual model that
proposes the theory relationship.
Keywords: Competitive Intelligence. Strategic Intelligence. Big Data.
LISTA DE FIGURAS
Figura 1: Mapeamento dos termos de busca ............................................................................ 12
Figura 2: Volume de publicações 1960 – 2016 (Inteligência Competitiva & Big Data) ......... 13
Figura 3: Big Data por área de pesquisa 1960 - 2016 .............................................................. 14
Figura 4: Competitive Intelligence por área de pesquisa 1960 - 2016 ...................................... 14
Figura 5: Competitive Intelligence + Big Data por área de pesquisa 1960 - 2016 ................... 15
Figura 6: Volume de pesquisas BD, CI, CI + BD 1960 - 2016 ................................................ 16
Figura 7: Os três Vs do Big Data ............................................................................................. 21
Figura 8: Ciclo da Inteligência Competitiva............................................................................. 33
Figura 9: Modelo Conceitual da Pesquisa ................................................................................ 35
Figura 10: Evolução do Hadoop no decorrer do tempo ........................................................... 37
Figura 11: A pirâmide da Inteligência Competitiva – Fluxo geral dos dados .......................... 38
Figura 12: Exemplo de fluxo de dados em lotes ...................................................................... 39
Figura 13: Exemplo de fluxo de dados em tempo real ............................................................. 39
Figura 14: Macrofluxo do Big Data ......................................................................................... 40
Figura 15: Relação entre o Ciclo da IC e o Macrofluxo de dados do Big Data ....................... 41
Figura 16: Relação entre o Fluxo geral da IC e o Macrofluxo de dados do Big Data ............. 41
Figura 17: Macroprocesso de análise dos dados ...................................................................... 46
Figura 18: Nuvem de palavras das entrevistas ......................................................................... 50
Figura 19: Nuvem de palavras ordenadas................................................................................. 51
Figura 20: Unidades de Significado da CT01 - As principais dimensões do Big Data nas Etapas
da Inteligência Competitiva ...................................................................................................... 52
Figura 21: Unidades de Significado da CT02 - Conjunto tecnológico de Big Data nas empresas
.................................................................................................................................................. 55
Figura 22: Unidades de Significado da CT03 - Relações entre o ciclo da Inteligência
Competitiva e o fluxo de dados do Big Data............................................................................ 59
Figura 23: Unidades de Significado da CT04 - Engajamento das empresas na adoção de Big
Data .......................................................................................................................................... 61
Figura 24: Unidades de Significado da CT05 - Casos de uso do conjunto tecnológico de Big
Data .......................................................................................................................................... 63
Figura 25: Relação das Categorias ........................................................................................... 66
LISTA DE QUADROS
Quadro 1: Web of Science Competitive Intelligence + Big Data 2014 - 2016 ......................... 16
Quadro 2: Rotinas afetadas pelo avanço tecnológico ............................................................... 19
Quadro 3: Conceitos de Big Data ............................................................................................. 22
Quadro 4: Volume de dados gerados ........................................................................................ 24
Quadro 5: Categorias de dados estruturados ............................................................................ 27
Quadro 6: Demais características do Big Data ......................................................................... 29
Quadro 7: Composição da amostra ........................................................................................... 48
Quadro 8: Formação das Categorias ......................................................................................... 52
Quadro 9: Ferramentas apresentadas no referencial teórico. .................................................... 56
Quadro 10: Mapeamento das Ferramentas citadas pelos entrevistados ................................... 57
Quadro 11: Objetivos específicos e Categorias ........................................................................ 65
LISTA DE SIGLAS
3 V’s Volume, Velocidade e Variedade
5 V’s Volume, Velocidade, Variedade, Veracidade e Valor
ABRAIC Associação Brasileira dos Analistas de Inteligência Competitiva
BD Big Data
BI Business Intelligence (Inteligência de Negócios)
CI Competitive Intelligence (Inteligência Competitiva)
DNA Deoxyribonucleic acid
ERP Enterprise Resource Planning
ETL Extract, transform and load
IC Inteligência Competitiva
IE Inteligência Estratégica
ISBN International Standard Book Number
ISSN International Standard Serial Number
MP3 MPEG Audio Layer III
NFS Network File System
SCIP Strategic and Competitive Intelligence Professionals
SGI Silicon Graphics Inc.
TI Tecnologia da Informação
XFS X File System
SUMÁRIO
1 INTRODUÇÃO .................................................................................................................. 8
1.1 Questão de Pesquisa ................................................................................................... 9
1.2 Objetivos da Pesquisa ............................................................................................... 10
2 REFERENCIAL TEÓRICO ............................................................................................. 11
2.1 Estudo Bibliométrico acerca de Inteligência Competitiva e Big Data ..................... 11
2.2 O Constructo Big Data ............................................................................................. 17
2.2.1 A Era dos Dados ................................................................................................... 17
2.2.2 Big Data - Conceitos ............................................................................................ 20
2.2.3 Volume ................................................................................................................. 24
2.2.4 Velocidade ............................................................................................................ 25
2.2.5 Variedade .............................................................................................................. 27
2.2.6 Demais Dimensões ............................................................................................... 28
2.3 O Constructo Inteligência Competitiva .................................................................... 30
2.3.1 Inteligência Competitiva - Conceitos ................................................................... 30
2.3.2 O Ciclo da Inteligência Competitiva .................................................................... 32
2.4 Estudos Envolvendo Big Data e Inteligência Competitiva ...................................... 34
2.4.1 Modelo Conceitual da Pesquisa ............................................................................ 35
2.4.2 Fluxo de Dados ..................................................................................................... 38
3 PROCEDIMENTOS METODOLÓGICOS ..................................................................... 43
3.1 Quanto ao Método e Tipo de Pesquisa ..................................................................... 43
3.2 Instrumento de Coleta de Dados ............................................................................... 43
3.3 Técnica para Análise de Dados ................................................................................ 44
3.4 Amostra da Pesquisa ................................................................................................. 47
4 ANÁLISE E INTERPRETAÇÃO DOS RESULTADOS ................................................ 48
4.1 Pré-Análise ............................................................................................................... 50
4.2 Identificação das Unidades de Registro ................................................................... 50
4.3 Formação das Unidades de Significado.................................................................... 51
4.4 Formação das Categorias e Inferência dos resultados .............................................. 51
4.4.1 CT01 - As principais dimensões do Big Data nas Etapas da Inteligência
Competitiva .............................................................................................................................. 52
4.4.2 CT02 - Conjunto tecnológico de Big Data nas empresas ..................................... 55
4.4.3 CT03 - Relações entre o ciclo da Inteligência Competitiva e o fluxo de dados do
Big Data .............................................................................................................................. 59
4.4.4 CT04 - Engajamento das empresas na adoção de Big Data ................................. 61
4.4.5 CT05 - Casos de uso do conjunto tecnológico de Big Data ................................. 63
5 CONSIDERAÇÕES FINAIS ........................................................................................... 67
REFERÊNCIAS ....................................................................................................................... 71
APÊNDICE I – MATRIZ DE AMARRAÇÃO ....................................................................... 76
APÊNDICE II – ROTEIRO DE ENTREVISTAS ................................................................... 77
APÊNDICE III – UNIDADES DE REGISTRO X SIGNIFICADO ........................................ 79
8
1 INTRODUÇÃO
Nos últimos anos, sobretudo, a partir do final do século XX, as Tecnologias de
Informação e Comunicação vêm desenvolvendo-se velozmente e, frequentemente, são lançados
novos aplicativos, softwares e plataformas on-line. De acordo com o estudo do Cisco Visual
Networking Index (CISCO, 2016), em 2020, o tráfego global de dados será equivalente a 95
vezes o volume do tráfego global de 2005, e deve atingir 21 gigabytes por pessoa, muito acima
dos 7 gigabytes por pessoa de 2015; em 2016, o tráfego anual de dados superou 1 zettabytes e,
em 2020, deve atingir 2.3 zettabytes (um zettabyte corresponde a 1021 que é equivalente a mil
exabytes ou 1018, um exabyte é equivalente a um bilhão de gigabytes que corresponde a 109).
Um zettabyte é a quantidade de dados percorridos em toda Internet desde a sua criação e 300
zettabytes equivale a toda informação visual transmitida dos olhos para o cérebro de toda a raça
humana no período de 1 ano (CISCO, 2016).
O crescimento do tráfego de dados ocorre de maneira exponencial. Muitas podem ser
as fontes desses dados: navegação na web; mídias sociais; dados transacionais de diferentes
naturezas, como gerenciamento de risco, consumo, financeiro, seguros, telecomunicações,
saúde e entretenimento; dados de biometria para identificação e validação como
reconhecimento de voz, íris, retina e face; dados gerados no dia a dia pelas pessoas por envio
de e-mails, logs, blogs, relatórios, apresentações e documentos em geral e, finalmente, a
comunicação entre dispositivos fixos e móveis que monitoram processos, máquinas, localizam
pessoas, liberam acessos e contabilizam estoques (TAURION, 2013).
Em julho de 2017, o Facebook anunciou ter alcançado a marca de 2 bilhões de usuários
ativos (FACEBOOK, 2017), em outras palavras, quase 1/3 da população mundial acessou o
Facebook pelo menos uma única vez dentro do mês (ONU BRASIL, 2017). Para Marquesone
(2017), todo esse engajamento dos usuários, curtindo e compartilhando informações, avaliando
organizações e dando cada vez mais suas opiniões, geram uma fonte inesgotável de dados que
podem ser extremamente valiosas para as organizações.
Um exemplo é a identificação de tendências, a análise imediata das informações
compartilhadas em redes sociais, as quais permitem gerar descobertas como pandemias de
doenças em determinadas regiões. Neste sentido, as autoridades podem ter um panorama
praticamente instantâneo sobre a saúde da população em determinadas regiões
(MARQUESONE, 2017).
No campo empresarial, as informações, que as empresas dispõem em seus sistemas de
informação que, no geral, são bem-estruturadas, existem em grande quantidade e estão
9
relacionadas com o passado (CARON-FASAN, 2001). Informações mal-estruturadas, esparsas
e desconexas, normalmente, não são bem-aproveitadas. Exemplos deste tipo de informação
podem ser frases, fotos, imagens, desenhos, pedaços de artigos ou qualquer observação
pronunciada por alguém (LESCA; FASAN, 2001).
Informação e Conhecimento gerados a partir da coleta, análise e disseminação de dados
são as bases da Inteligência Competitiva, também referenciada como Inteligência Estratégica
(PEREZ; SACRAMENTO; NAGANO, 2016). Para Fleisher e Bensoussan (2003), a
Inteligência Competitiva pode ser entendida como uma função organizacional, variando em
escopo entre a área mais ampla de Inteligência de Negócios e a versão mais pontual da análise
da concorrência. A Inteligência Competitiva fornece a base sobre a qual estratégia e tática são
construídas, avaliadas e modificadas.
A Inteligência Competitiva costumava ser uma atividade intuitiva, entretanto, o Big
Data está trazendo uma mudança para essa abordagem. Com a possibilidade de se obter uma
maior quantidade de detalhes e realizar uma análise sistemática sobre o que se pretende
descobrir a partir dos dados, as decisões estratégicas tendem a ser mais assertivas
(DAVENPORT, 2014).
Com o objetivo de gerar inteligência, a partir desse grande volume de dados estruturados
e não estruturados, internos e externos das organizações, as tecnologias comuns perdem sua
eficiência, pois não possuem capacidade adequada para coleta, armazenamento, processamento
e disseminação desse conhecimento. Por esse motivo, as empresas estão buscando maneiras
mais eficientes de armazenar, processar e analisar essa nova volumetria e variedade de dados
disponíveis no mundo virtual (TAURION, 2013).
1.1 Questão de Pesquisa
Com base na problemática, que envolve o desafio de se trabalhar com o crescente
volume de dados, sendo estes dados a matéria-prima para a geração de Inteligência
Competitiva, a questão desta pesquisa é: A utilização do Big Data influencia no Ciclo da
Inteligência Competitiva?
10
1.2 Objetivos da Pesquisa
Os objetivos são as metas a serem atingidas visando à obtenção da resposta à questão
de pesquisa. Sendo assim, o objetivo geral é: Verificar se o uso do Big Data pode influenciar
o Ciclo da Inteligência Competitiva.
Para tanto, os objetivos específicos deste estudo são:
1) avaliar as possíveis relações entre as dimensões do Big Data com as etapas do Ciclo
da Inteligência Competitiva;
2) verificar se existe relação entre o ciclo da Inteligência Competitiva e o fluxo de dados
do Big Data;
3) identificar os Resultados dos projetos de Big Data relatados do uso do Big Data na
Inteligência Competitiva;
4) identificar as tecnologias envolvidas no cenário de exponencial crescimento da
volumetria de dados (Big Data) na Inteligência Competitiva.
11
2 REFERENCIAL TEÓRICO
Consoante com Demo (2000), é essencial, para pesquisa, uma fundamentação teórica
de caráter explicativo. O autor também aponta alguns procedimentos necessários para a
elaboração de uma fundamentação teórica consistente como: definir os conceitos-chave e
estudar a fundo toda a bibliografia pertinente ao tema.
Para a elaboração deste capítulo, foi realizado um estudo bibliométrico, consolidando
referências bibliográficas de três importantes bases de dados a respeito de Big Data e de
Inteligência Competitiva. O detalhamento desse estudo está apresentado na sessão 2.1. Com
isso, foi possível constituir um referencial teórico consistente dentre os mais de 13.300 títulos
mapeados no estudo bibliométrico, o que representa o atual estado da arte sobre os constructos
que compõem esta pesquisa, demonstrando, de maneira clara, os conceitos-chave do estudo que
são apresentados nas sessões 2.2 e 2.3.
2.1 Estudo Bibliométrico acerca de Inteligência Competitiva e Big Data
Com o objetivo de identificar o volume, evolução, tipo, área e principais publicações
acadêmicas que foram e estão sendo desenvolvidas sobre a Inteligência Competitiva e o Big
Data, foi realizado um estudo com base em dados bibliométricos extraídos dos portais
EBSCOHost, ProQuest e Web of Science.
A coleta dos dados foi realizada em novembro de 2017 com diferentes termos e
combinações para a busca de produções acadêmicas sobre Inteligência Competitiva. Assim
como utilizado por Perez; Sacramento e Nagano (2016), foram utilizados cinco diferentes
termos de busca que compõem o entendimento acerca da Inteligência Competitiva ou
Competitive Intelligence; Business Intelligence, Competitive Intelligence, Market Intelligence,
Marketing Intelligence e Strategic Intelligence.
Os termos foram empregados nos títulos das publicações e, nos resultados obtidos,
foram aplicados os filtros: “revistas acadêmicas, periódicos científicos, revisão por pares, texto
completo e idioma inglês”. O período das publicações foi definido entre os anos de 1960 e
2016, visto que o ano de 2017 ainda estava em curso durante a coleta.
Para busca de produções acadêmicas sobre Big Data, foi empregado o termo Big Data
nos títulos das publicações e, nos resultados obtidos, foram aplicados os filtros: “revistas
acadêmicas, periódicos científicos, revisão por pares, texto completo e idioma inglês”. O
período das publicações foi definido entre os anos de 1960 e 2016.
12
Com o objetivo de entender os estudos sobre Inteligência Competitiva que mencionam
Big Data, foi feita a busca, utilizando os termos: Business Intelligence, Competitive
Intelligence, Market Intelligence, Marketing Intelligence e Strategic Intelligence nos títulos das
publicações e no corpo do texto o termo Big Data e, nos resultados obtidos, foram aplicados os
filtros: “revistas acadêmicas, periódicos científicos, revisão por pares, texto completo e idioma
inglês”. O período das publicações foi definido entre os anos de 1960 e 2016.
Com o objetivo de entender os estudos sobre Big Data que mencionam a Inteligência
Competitiva, foi realizada a busca utilizando o termo Big Data no título das publicações e no
corpo do texto os termos: Business Intelligence, Competitive Intelligence, Market Intelligence,
Marketing Intelligence e Strategic Intelligence e, nos resultados obtidos, foram aplicados os
filtros: “revistas acadêmicas, periódicos científicos, revisão por pares, texto completo e idioma
inglês”. O período das publicações foi definido entre os anos de 1960 e 2016. Dessa maneira,
os termos de busca foram mapeados de acordo com a Figura 1.Erro! Fonte de referência não
encontrada.
Figura 1: Mapeamento dos termos de busca
Fonte: Elaborado pelo autor, 2017.
Após a coleta, foi executado um processo de enriquecimento dos dados, incluindo campos
com as informações de sua origem, termo de busca e agrupamento por constructo.
Também foi realizado um processo de normalização e consolidação dos resultados,
utilizando a ferramenta Microsoft® Office Access®, visto que as bases possuem diferentes
estruturas de dados e algumas produções possuíam diferentes campos para demonstrar a mesma
informação, ou, ainda, diferentes formatos de dados nos mesmos campos.
Após esse processo, as produções duplicadas foram removidas por meio do ISSN, ISBN
e, para os casos os quais não havia tal informação, a eliminação foi executada, utilizando o
13
título da produção em conjunto com o nome do autor, formando, assim, uma chave inequívoca
para deleção.
A revisão das eliminações foi preparada manualmente após a ordenação alfabética dos
títulos, sendo possível identificar possíveis duplicatas. Para as análises comparativas entre as
bases, os dados utilizados não passaram pelo processo de eliminação de duplicatas, onde foram
obtidos os resultados indicados na Figura 2.
Figura 2: Volume de publicações 1960 – 2016 (Inteligência Competitiva & Big Data)
Fonte: Elaborado pelo autor, 2017.
Pôde-se observar na Figura 2 que a base Web of Science possui o maior volume de
publicações de “Big Data”, seguida pela EBSCOHost e ProQuest respectivamente. O segundo
maior volume de publicações são sobre “Competitive Intelligence”, seguido pelas publicações
que abordam os dois constructos.
Após o processo de eliminação de duplicatas e refinamento da análise, foram verificadas
as áreas de pesquisa para cada um dos três conjuntos de termos de busca. Desta forma, a Figura
3 apresenta as áreas de pesquisa que permeiam as publicações de Big Data.
14
Figura 3: Big Data por área de pesquisa 1960 - 2016
Fonte: Elaborado pelo autor, 2017.
Utilizando o termo de busca “Big Data”, constatou-se que 73% das publicações são da
área “Computer Science” e apenas 7% pertencem à área “Business & Economics”, evidenciando
a falta de publicações que abordam o tema, do ponto de vista corporativo.
A Figura 4 apresenta as áreas de pesquisa das publicações dos conjuntos de termos de
busca que compõem a Inteligência Competitiva ou “Competitive Intelligence”.
Figura 4: Competitive Intelligence por área de pesquisa 1960 - 2016
Fonte: Elaborado pelo autor, 2017.
De acordo com os dados apresentados na Figura 4, quando a análise de dados é feita
sobre o conjunto de termos de busca que compõem o “Competitive Intelligence”, conforme
explicado anteriormente, há um aumento significativo no volume de publicações da área
“Business & Economics”, chegando a 32% das publicações. Contudo, essa diferença se
15
equilibra na busca por publicações que abordam os dois temas, conforme evidenciado na Figura
5.
Figura 5: Competitive Intelligence + Big Data por área de pesquisa 1960 - 2016
Fonte: Elaborado pelo autor, 2017.
Nas publicações que possuem o termo “Big Data” em seu título e mencionam
“Competitive Intelligence” consolidadas com as publicações que possuem “Competitive
Intelligence” em seu título e mencionam “Big Data”, foi constatado que os maiores volumes de
publicações são da área “Computer & Science” com 67% dos registros e “Business &
Economics” representa 18% das publicações.
Com o objetivo de refinar a busca, foi realizada uma segunda coleta de dados, utilizando
apenas o Web of Science por concentrar a maior parte do volume de publicações que abordam
a temática desse estudo em comparação com o EBSCOHost e o ProQuest, sendo que essa
comparação foi detalhada anteriormente na Figura 2.
Na segunda coleta, foram utilizados os termos de busca “Competitive Intelligence” e
“Big data”, individualmente e em conjunto no título das publicações entre o período de 1960 e
2016, filtrando por “publicações acadêmica e revisão por pares”, resultando nos dados
evidenciados na Figura 6.
16
Figura 6: Volume de pesquisas BD, CI, CI + BD 1960 - 2016
Fonte: Elaborado pelo autor, 2017.
O maior volume de publicações foi obtido com o termo de busca "Big Data”, totalizando
7.635 registros, seguido por 742 publicações de “Competitive Intelligence” e 4 publicações que
possuem tanto “Competitive Intelligence” quanto “Big Data” em seus títulos. A análise dessas
4 publicações revelou que a associação entre as duas temáticas é relativamente recente, pois
foram publicadas entre 2015 e 2016 com diferentes nacionalidades e idiomas, conforme
evidenciado no Quadro 1.
Quadro 1: Web of Science Competitive Intelligence + Big Data 2014 - 2016
Título País Idioma Ano
01 Competitive intelligence service of sports science and
technology in the era of big data China Chinês 2015
02 Big Data - competitive intelligence Índia Inglês 2015
03 Big Data as a source of competitive intelligence República
Checa Eslovaco 2016
04 Competitive Intelligence Changes in Big Data Era Based on
Literature Analysis China Inglês 2016
Fonte: Elaborado pelo autor, 2017.
A pesquisa bibliométrica realizada sobre as publicações que abordam Big Data,
Inteligência Competitiva e a relação entre os dois constructos denotou que a associação entre
os constructos é recente e pouco explorada. Assim também ficou evidenciada a falta de estudos
com investigação empírica do ponto de vista corporativo no ambiente em que os fenômenos
(Big Data e Inteligência Competitiva) ocorrem e se influenciam, resultando na principal
motivação para a realização dessa pesquisa.
Os estudos apresentados no Quadro 1 são explanados com mais detalhes na sessão 2.4.
17
2.2 O Constructo Big Data
Nesta sessão, abordam-se questões sobre o constructo Big Data, que é uma das bases
teóricas do estudo.
Para melhor entendimento sobre sua teoria, o tema foi dividido em subseções: a
subseção 2.2.1 contextualiza seu surgimento, motivações e evolução; na subseção 2.2.2, estão
os conceitos e o entendimento geral acerca das características e dimensões; na subseção 2.2.3,
é apresentada a dimensão Volume de diferentes perspectivas; na subseção 2.2.4, é exposta a
dimensão Velocidade; na subseção 2.2.5, a dimensão Variedade e, na subseção 2.2.6, são
abordadas as demais dimensões apontados por alguns autores do tema.
2.2.1 A Era dos Dados
Segundo Schönberger-Mayer e Cukier (2013), o termo Big Data foi concebido por
autores de áreas da ciências como Astronomia e a Genômica, que vivenciaram a explosão dos
dados nos anos 2000. Entretanto, Wainer, Gruvaeus e Blair (1974) já utilizaram o termo “Big
Data” no título de seu estudo “TREBIG: A 360/75 FORTRAN program for three-mode factor
analysts designed for big data sets”, que abordava a utilização de procedimentos para análise
de dados multifatoriais e longitudinais da década de 1960 e 1970. Apesar de não abordar o Big
Data com base em suas dimensões como é visto nos dias atuais (Volume, Velocidade e
Variedade), já existia a preocupação sobre a dificuldade em se trabalhar com volumes maiores
de dados. O volume que era tratado como “grande” em 1960 e 1970 é pequeno se comparado
com a atual capacidade computacional. É possível afirmar que o volume de dados em si não é
relevante, a expressividade do volume é relativa à capacidade computacional disponível
(BLASIAK, 2014).
A década de 1990 aumentou a recorrência de estudos que procuravam solucionar a
dificuldade de se trabalhar com grandes volumes de dados. Brown (1995) publicou o artigo
“Rambus DSP eyes big data sets” sobre o microchip A236 da Oxford Computer, abordando
questões sobre eliminação da sobrecarga de memória em cachê para processamento de grandes
volumes de dados em alta velocidade, aplicações e capacidade de armazenamento.
No ano seguinte, em 1996, foi publicado o “SGI promotes Big Data extensions to NFS”
(WIRBEL, 1996). O artigo traz um relatório sobre a experiência da Silicon Graphics Inc. (SGI)
acerca do desenvolvimento de sua própria extensão de sistema de arquivos de rede, o XFS, que
foi concebido para substituir o NFS e introduzir o conceito de “Big Data” do ponto de vista de
18
armazenamento de dados, desenvolvido para suportar grandes volumes. O novo sistema de
arquivos de redes foi concebido para o sistema operacional o IRIX da própria SGI que,
posteriormente, teve seu código-fonte liberado e adaptado para funcionar no sistema
operacional Linux (MOSTEK; EARL; KOREN, 1999).
Em 1998, foi publicado na Revista Science o título “A Handler for Big Data” (CASS,
1998), que apresenta um software desenvolvido pela National Instruments Corporation. O
sistema foi elaborado especificamente para se trabalhar com grandes volumes de dados. O
software é apresentado como uma solução para coleta, processamento, análise e visualização
de dados em um único pacote técnico. Esta publicação aborda a utilização do software em áreas
como biologia molecular e sequenciamento de DNA.
Já, em 2004, o termo passou a ser utilizado com mais frequência no mundo corporativo,
demonstrado pelo artigo “Wal-Mart's Big Data Warehouse” (WHILTING, 2004), o qual
explora como a empresa Wal-Mart Stores Inc. expandiu, o que se acreditava ser o maior Data
Warehouse do setor varejista no mundo, de acordo com a Teradata Corp. que, na época, era a
fornecedora de Data Warehouse da Wal-Mart. Esta empresa utilizava um Data Warehouse com
centenas de terabytes de dados para estudar tendências de vendas e rastrear seu inventário. O
sistema era acoplado com outro sistema que dava suporte para tomada de decisões relativas a
inventário e a vendas (WHILTING, 2004). Atualmente, o Wal-Mart Stores Inc. está
construindo o maior sistema de Cloud Computing privado do mundo, com o objetivo de
processar 2,5 petabytes de dados por hora (MARR, 2017).
Então, em 2008, a revista Nature publicou o título “Big data: science in the petabyte
era” que abordou as principais questões sobre o desafio da ciência moderna em lidar com o que
chamou de “inundação de dados” (NATURE, 2008). O surgimento do Big Data é uma reação
à evolução e à expansão da tecnologia da informação em conjunto com a adesão por parte dos
usuários. Como resultado deste fenômeno, a composição tradicional dos dados mudou, não
sendo mais composta apenas por dados estruturados e servindo a um propósito específico. Este
fato, aliado ao uso de novas ferramentas que podem possuir características de Machine Learning
para mineração, processamento, análise e visualização oferecem uma nova forma de
compreender o mundo, fazendo com que dados que antes eram considerados estáticos se
tornaram matéria-prima no mundo dos negócios (AKERKAR, 2014).
Para Marquesone (2017), o avanço da tecnologia da informação gerou um enorme
volume de recursos que, com o passar do tempo, se tornaram cada vez mais acessíveis à
população. Deste modo, nos dias atuais, é comum a utilização de smartphones desde o primeiro
instante do dia, por meio de um alarme com a música favorita e intervalos de tempos
19
predeterminados ou durante o café da manhã, sendo possível, solicitar, ainda, um serviço de
transporte de passageiros por meio de um aplicativo. Se houver necessidade de um documento,
basta acessar a internet e buscá-lo em um serviço de computação em nuvem para
armazenamento de dados.
Essas mudanças afetam várias categorias de rotinas como mapeado no Quadro 2.
Quadro 2: Rotinas afetadas pelo avanço tecnológico
Categoria Como ocorre atualmente
Viagem
Comparação de preços de passagens. Compra de passagem pela internet. Check-in
online. Recomendação de serviços de hospedagem; Serviços de reserva de
hospedagem. Definição de trajeto por auxílio de GPS e trânsito em tempo real.
Trabalho
Reuniões por videoconferência. Agenda de compromissos online. Hospedagem de
arquivos online. Serviços de financiamento coletivo (crowdfunding). Busca e
candidatura de vagas de trabalho online.
Lazer Serviços de streaming de filmes, seriados e músicas. Compartilhamento de
momentos em redes sociais. Leitura de livros eletrônicos. Jogos online.
Compras
Compras via comércio eletrônico. Avaliação online de produtos. Comparação de
preços. Compras coletivas. Pedidos online de serviços alimentícios. SAC online.
Internet banking.
Fonte: Adaptado de Marquesone (2017).
Junto com o Big Data, estão surgindo empresas especialistas nesse novo conjunto de
práticas e tecnologias. Essas empresas oferecem serviços de consultoria em tecnologia,
avaliações, implementação, aplicativos, soluções, extensões e suporte (DAVENPORT, 2014).
A utilização dos grandes volumes de dados, gerados pelo engajamento dos usuário na
internet, possui forte potencial para diferentes setores da sociedade e, sobretudo, para as
atividades econômicas, é também recente e crescentemente importante dadas as possibilidades
de extração de informações valiosas para os negócios (CAMPOS, 2015).
De acordo com Watson (2014), a necessidade de dados para apoiar a tomada de decisão
baseada na capacidade computacional teve seu início na década de 1970. Este período pode ser
pensado como a primeira geração (grifo nosso) de sistemas de gerenciamento de dados para
suporte à decisão com dados estruturados para apoiar uma única decisão ou um conjunto de
decisões relacionadas.
Ainda, de acordo com Watson (2014), na década de 1990, havia a necessidade de
suportar uma grande variedade de sistemas de informação executiva com base em dados que
demandavam bases de dados independentes para cada aplicação. Isso foi dispendioso,
20
resultando em inconsistências de dados em várias das aplicações e no surgimento do Data
Warehouse empresarial, ou seja, a segunda geração (grifo nosso) de sistemas de
gerenciamento de dados para suporte à decisão, que apresentou uma abordagem centrada para
o gerenciamento de dados.
A terceira geração (grifo nosso) foi o Data Warehouse real-time. Essa tecnologia
evoluiu até os anos 2000, de modo que foi possível capturar dados em tempo real e armazenar
imediatamente em Data Warehouse. Essa evolução mudou o paradigma para quais tipos de
decisões poderiam ser suportadas (WATSON, 2014).
E agora, mais importante ainda é a quarta geração (grifo nosso) de gerenciamento de
dados de suporte à decisão. O Big Data oferece a capacidade de capturar, armazenar e analisar
dados em grande volume, múltiplas variedades e, também, em tempo real, permitindo que novas
decisões sejam suportadas, trazendo também um grande desafio para o gerenciamento de dados.
2.2.2 Big Data - Conceitos
Ainda não existe consenso sobre o conceito de Big Data e cada organização entende
este fenômeno por uma perspectiva diferente, entretanto, a essência do termo é contemplada
por muitas organizações e autores por meio de três dimensões fundamentais: Volume,
Velocidade e Variedade, À vista disso, o Big Data está associado ao crescimento e ao uso de
dados estruturados e não estruturados com resultados em alta performance e disponibilidade
(FRANKS, 2013).
Apesar do termo “Big Data” ter sido formado ainda na década de 1970, Laney (2001)
publicou o artigo seminal “3D Data Management: Controlling Data Volume, Velocity, and
Variety”, sendo o primeiro a tratar o tema com base nas três dimensões principais denominadas
“3 Vs” (Volume, Velocidade e Variedade) e relacionar a questão do gerenciamento de grandes
volumes de dados aos desafios que as grandes empresas viriam a enfrentar com a escalada dos
dados.
Durante o ano de 2001 e 2002, as principais empresas vão utilizar um data warehouse
centralizado para definir um vocabulário de negócios comum que melhore a
colaboração interna e externa. Entre o ano de 2003 e 2004, os problemas de qualidade
e integração de dados serão temperados por tecnologias com perfil de dados (para
geração de metadados, esquemas consolidados e lógica de integração) e agentes de
logística de informação. Em 2005 e 2006, o gerenciamento de dados, documentos e
conhecimento se unirá, impulsionado por estratégias de indexação de esquema
agnóstico e a maturidade dos portais (LANEY, 2001).
21
Para Laney (2001), Volume é caracterizado por quantidades de dados maiores do que
poderiam ser armazenados em bancos de dados tradicionais; Velocidade, pela possibilidade de
analisar e processar grandes volumes de dados em tempo real e, por último, a Variedade, que
é a combinação de dados com diferentes origens, tipos e estruturas.
Na Figura 7, estão dispostas as sobreposições das dimensões que compõem o conceito
central proposto por Laney (2001).
Figura 7: Os três Vs do Big Data
Fonte: Elaborado pelo autor, 2017.
O Big Data é um corte horizontal do universo digital e pode incluir dados transacionais,
dados mestres, metadados e outros dados que residem em arquivos de diferentes variedades. Os
dados podem ser oriundos de entretenimento, saúde, vigilância por vídeo e redes sociais, como
o Facebook e Twitter, que são as mais novas fontes de dados a gerar interesse de utilização
pelas grandes empresas, em que os consumidores (consciente ou inconscientemente) estão
fornecendo fluxos contínuos de dados sobre organizações, sobre si mesmos e sobre terceiros
(GANTZ; REINSEL; GANTZ, 2011).
O Quadro 3 contém uma série de definições a respeito do Big Data.
22
Quadro 3: Conceitos de Big Data
Autor (es) Conceito
MANYIKA et. al. (2011); DUMBILL
(2012); MAHRT; SCHARKOW
(2013); RAJESH (2013);
DAVENPORT; BARTH; BEAN
(2012); KWON; LEE; SHIN (2014);
AMATO; DI MARTINO;
VENTICINQUE (2014)
Big Data são conjuntos de dados cujo tamanho está além da
capacidade de softwares típicos para coleta, armazenamento,
processamento, gerenciamento e análise.
International Data Corporation (2011)
Big Data é uma nova geração de tecnologias e arquiteturas
desenvolvidas para extrair valor de grandes volumes de dados com
ampla variedade, permitindo sua coleta, armazenamento,
processamento e análise em alta velocidade.
GARTNER (2012)
Big Data, em geral, é definido como ativos de alto volume, velocidade
e variedade de informação que exigem custo-benefício, que se utiliza
de formas inovadoras para processamento de dados que permitem
maior visibilidade na tomada de decisão.
LOHR (2012) Big Data é considerado atalho para o avanço de tecnologias que
armazenam, processam e exibem dados abrindo uma nova abordagem
para a compreensão do mundo e a tomada de decisões.
MCAFEE; BRYNJOLFSSON (2012)
Big Data se tornou essencial para melhorar a eficiência e a eficácia das
organizações. Ao colocar Big Data a disposição de áreas como vendas
e marketing, os insights podem ser aproveitados para melhorar a
tomada de decisão em tempo real.
PHELAN (2012)
O Big Data surgiu nos últimos anos devido à enorme quantidade de
dados que as máquinas estão gerando em conjunto com dados de
diversas fontes. A análise de todos esses dados por si só cria outro
conjunto enorme de dados.
SATHI (2012)
Big Data diz respeito a dados internos (estruturados, não estruturados
ou semiestruturados) de uma organização que, devido à automação e
ao acesso estão sendo cada vez mais compartilhados. Também diz
respeito a dados de fora da organização, como as informações
disponíveis em sites como mídias sociais, literatura de produto,
hierarquias organizacionais, dicas úteis disponíveis a partir de terceiros
e reclamações de clientes postados em sites de regulamentação.
DEMIRKAN; DELEN (2013)
Existe o desafio do gerenciamento de Big Data, devido à evolução
dos dados digitais e dispositivos como telefones móveis, laptops e
sensores. Seu gerenciamento está ficando cada vez mais possível
dada a queda do custo de armazenamento.
MINELLI; CHAMBERS; DHIRAJ
(2013)
Big data é a próxima geração de Data Warehouse e está pronto para
entregar receitas economicamente eficientes para as empresas. Este
fenômeno se deve, em maior parte, ao rápido ritmo de inovação e
mudança que o mundo está vivenciando nos dias de hoje.
MAYER-SCHÖNBERGER; CUKIER
(2013)
Big data é a capacidade de uma sociedade de obter informações de
maneira inovadora a fim de gerar ideias úteis, bens e serviços que
agreguem algum tipo de valor. Assim, a verdadeira revolução não está
nas máquinas que calculam, e sim nos dados em si e na maneira como
os usamos.
TAURION (2013) Big Data em uma simples fórmula para conceitualização: Big Data =
volume + variedade + velocidade + veracidade, tudo agregado + valor.
ZHAO (2013) Big data é o sonho dos cientistas de dados que virou realidade, pois se
pode o que nunca se pode para obter insights interessantes. É o
23
Autor (es) Conceito
conjunto de soluções de armazenamento grandes e escaláveis, assim
como capacidades e aplicações de análise também escaláveis.
AKERKAR (2014)
Big Data refere-se a conjuntos de dados, cujo tamanho está além das
capacidades tecnológicas dos bancos de dados atuais. Trata-se de um
campo emergente onde um conjunto tecnológico inovador oferece
alternativas para resolver os problemas inerentes que aparecem quando
se trabalha com volumes massivos de dados, oferecendo novas
maneiras de extrair valor de data sets onde não seria possível com as
tecnologias atuais.
IBM (2012b) Big Data é o termo utilizado para descrever grandes volumes de dados
que está cada vez mais relevante à medida que a sociedade se depara
com o aumento exponencial da geração diária de dados.
KIM; TRIMI; CHUNG (2014) Trata-se de um termo geral para se referir a enorme quantidade de
dados coletados a partir de diversos tipos de fontes diferentes.
Fonte: Elaborado pelo autor, 2017.
Para a maioria dos autores, desde os anos 2000, a humanidade está na era da explosão
dos dados, em que os dados digitais vêm sendo criados e armazenados exponencialmente. Essa
era pode ser chamada de era do big data que é caracterizada pela aplicação de novos métodos
para armazenamento, processamento e análise desses dados (UEDA, 2012).
Segundo Taurion (2013), Big Data é um conjunto tecnológico que permite às empresas
alcançarem análises de dados que antes não tinham acesso, sendo composto por “5 Vs” que
podem ser representados por uma simples fórmula:
Big Data = (volume + variedade + velocidade + veracidade), a agregação dessa fórmula
gera o quinto V que é valor.
Mesmo que o Big Data envolva um grande volume de dados, não se refere somente a
esse grande volume, pois também traz aumento na velocidade, complexidade e variedade em
comparação com as fontes de dados do passado (FRANKS, 2013).
A inovação do Big Data pode transformar por completo a maneira como trabalhamos e
pensamos no desenvolvimento de novos produtos, serviços e estratégias (TAURION, 2013).
Com base nos conceitos citados nessa sessão, nesse estudo considera-se que Big Data é
um conjunto de práticas, processos e tecnologias, havendo consenso entre os autores em pelo
menos três dimensões. Volume que se caracteriza pela grande quantidade de dados que podem
ser coletados, armazenados, processados e analisados. Velocidade, que possibilita a coleta,
armazenamento, processamento e análise dos dados em tempo real e Variedade, pois,
possibilita o a utilização de dados estruturados e não estruturados gerados por e-mails, mídias
sociais, documentos, mensagens, sensores, vídeos, fotos e áudios (AKERKAR, 2014; LANEY,
2001; WATSON, 2014).
24
2.2.3 Volume
Lévy (1999) já alertava para a questão do crescimento exponencial de dados,
caracterizando este fenômeno como o “dilúvio” das informações que atribuiu sua causa para o
avanço das tecnologias ligadas aos bancos de dados, hipertextos e redes. Esse “dilúvio
informacional” é fluido por meio da internet sem nenhum sinal que deve em algum momento
diminuir (PIERRE LÉVY, 1999).
Ao se tratar sobre volumetria de dados, existem duas fontes comuns de dados agrupados
sob a bandeira do Big Data: (1) são os dados internos de uma organização que podem ser
estruturados, não estruturados ou semiestruturados; (2) são os dados de externos da
organização, como as informações disponíveis em sites de mídias sociais, hierarquias
organizacionais, dicas úteis disponíveis a partir de terceiros e reclamações de clientes postados
em sites de regulamentação (SATHI, 2012).
Grande volume de dados está além dos dados gerados pelos sistemas transacionais como
ERPs. Nos dias atuais, há uma imensidão de dados sendo gerados a cada segundo por máquinas
como sensores e câmeras. Também há um volume massivo de dados sendo gerados nas mídias
sociais por meio de desktops, smartphones e tablets (LANEY, 2001; TAURION, 2013).
Blasiak (2014) ressalta que volumes de dados hoje considerados demasiadamente
grandes, no futuro muito próximo será considerado pequeno. Então, a palavra "grande" não
descreve o tamanho real dos dados, mas seu tamanho relativo à capacidade das tecnologias dos
dias de hoje.
O Quadro 4 dimensiona o volume de dados, de acordo com sua unidade de medida.
Quadro 4: Volume de dados gerados
Unidade de medida Comparativo
Bit Abreviação do dígito binário.
Byte
(8 bits) 8 bits é o suficiente para armazenar um caractere de texto.
Kilobyte
(1.000 bytes) 20 KB armazena pequenos textos.
Megabyte
(1.000.000 bytes) 5 MB armazena uma música em MP3.
Gigabyte
(1.000.000.000 bytes) 1 GB armazena uma hora de vídeo.
Terabyte
(1.000.000.000.000 bytes)
385 terabytes armazenam todo o catálogo da Biblioteca do
Congresso americano, a maior do mundo.
25
Unidade de medida Comparativo
Petabyte
(1.000.000.000.000.000 bytes) Armazena todos os jogos de WII, Xbox e Playstation.
Exabyte
(1.000.000.000.000.000.000 bytes) Armazena mais do que pode ser visto em uma vida.
Zettabyte
(1.000.000.000.000.000.000.000 bytes) Todas as palavras já ditas na história da humanidade.
Yottabyte
(1.000.000.000.000.000.000.000.000 bytes) Mais que toda informação disponível no mundo.
Fonte: Adaptado de Solci (2011).
De acordo com a Cisco (2017), apenas o tráfego mundial de dados oriundos de
dispositivos móveis aumentará sete vezes até 2021, chegando a 49 Exabytes.
Para Marquesone (2017), o poder de armazenamento, os recursos computacionais e o
acesso à internet oferecidos por esses dispositivos ampliaram não somente a quantidade de
dados gerados, mas também a quantidade de vezes que eles são compartilhados. Um vídeo
gerado em um smartphone, por exemplo, pode facilmente ser compartilhado nas redes sociais,
enviado por aplicativos de troca de mensagens e disponibilizado em diversos sites da Web em
um curto espaço de tempo.
O principal desafio relacionado à dimensão Volume do Big Data é o desenvolvimento
de mecanismos capazes de armazenar grandes volumes de dados com escalabilidade. Em outras
palavras, é uma infraestrutura capaz de se adequar e atender o aumento de uma determinada
demanda que tende a crescer com o passar do tempo (DUMBILL, 2012).
Com o propósito de superar esse desafio, a computação em nuvem está sendo
amplamente utilizada por empresas que possuem ambientes de Big Data. Por meio da oferta de
recursos computacionais (como processamento, armazenamento e rede) sob demanda, a
computação em nuvem tem sido uma grande aliada para a criação de soluções de Big Data.
Sendo um paradigma que oferece benefícios como a elasticidade de recursos, a escalabilidade
e a qualidade de serviço, somada à redução de custo e ao aumento da eficiência, diversas
empresas estão aproveitando o potencial da computação em nuvem para hospedar suas soluções
de Big Data (MARQUESONE, 2017).
2.2.4 Velocidade
Além dos desafios impostos pelos grandes volumes de dados, o Big Data possui outra
dimensão importante: a Velocidade. Isto significa a velocidade com que os dados são coletados,
26
processados e utilizados, além da velocidade de análise que também está relacionado à rapidez
com que os dados estão sendo gerados. Assim, existem inúmeras aplicações que mantêm seus
serviços em execução 24 horas por dia e dependem da velocidade de armazenamento,
processamento e tráfego de dados (MARQUESONE, 2017).
Para Laney (2001), a importância da velocidade surge da necessidade de utilização e da
análise de dados em tempo real. A definição dessa dimensão refere-se ao estudo da velocidade
em que os dados são produzidos e quão rápido deve ser o seu tratamento para que seu Valor
seja maximizado.
A velocidade no Big Data significa que os dados podem ser coletados e analisados em
tempo real, também com soluções escaláveis e em Cloud Computing, o que permite que o
ambiente de negócio de uma determinada empresa seja analisado e compreendido com mais
rapidez que seus concorrentes, gerando vantagem competitiva com sua utilização (MINELLI;
CHAMBERS; DHIRAJ, 2013; PARK; BAEK; PENG, 2016).
McAfee e Brynjolfsson (2012) introduzem a ideia de que para boa parte das possíveis
aplicações do Big Data dimensão Velocidade é ainda mais importante do que a dimensão
Volume, tendo em vista a crescente necessidade das empresas em tomarem decisões imediatas,
trabalhando com questões que podem perder sua importância, dependendo da velocidade de
reação.
Uma empresa que compreende bem o benefício da velocidade é a varejista Amazon,
que adota um mecanismo de precificação dinâmica, podendo chegar a atualizar os
valores de seus produtos a cada 10 minutos, de acordo com a análise da demanda em
tempo. Além da velocidade de análise, o fator velocidade também está relacionado à
rapidez com que os dados estão sendo gerados. Estatísticas mencionam que, em
apenas 1 minuto, mais de 2 milhões de pesquisas são realizadas no buscador Google,
6 milhões real de seus suprimentos. O fator velocidade está se tornando tão
importante, ao ponto que empresas que não conseguirem agilizar o tempo de análise
dos dados terão dificuldades em se manterem competitivas no mercado. Estatísticas
mencionam que, em apenas 1 minuto, mais de 2 milhões de pesquisas são realizadas
no buscador Google, 6 milhões de páginas são visitadas no Facebook e 1.3 milhão de
vídeos são vistos no YouTube. Em complemento, temos os inúmeros aplicativos que
mantém seus serviços em execução 24 horas por dia e os sensores que geram dados
continuamente a cada segundo (MARQUESONE, 2017).
Deste modo, o entendimento, sobre a velocidade como dimensão do Big Data, é que o
acesso à inteligência gerada, a partir dos dados seja em tempo real, deixou de ser tendência e
se tornou requisito primordial para tecnologias que suportam o tratamento e análise de dados,
pois a baixa velocidade pode limitar diversas operações, diminuindo a vantagem competitiva
de um determinado negócio ou organização (DINESHKUMAR et al., 2016; TAURION, 2013).
27
2.2.5 Variedade
Essa dimensão é caracterizada pela grande Variedade dos tipos de dados disponíveis no
mundo virtual. Há poucos anos, a maior parte dos dados gerados eram estruturados, ou seja,
organizados por linhas e colunas. Nos dias atuais, o cenário mudou, a maior parte dos dados
gerados no ciberespaço são dados não estruturados, como imagens, sons, textos, bases de dados,
e-mails, dados de sensores e redes sociais, o que exige grandes desenvolvimentos para sua
coleta, armazenamento, processamento, disseminação gerenciamento e organização (CUKIER;
MAYER-SCHÖENBERGER, 2013; LANEY, 2001; MANYIKA et al., 2011; WALKER;
SCHÖNBERGER-MAYER, 2014).
Para Taurion (2013), a dimensão variedade é tipificada por dados que possuem sua
origem em sistemas estruturados e não estruturados como navegação na web, mídias sociais,
dados transacionais de diferentes naturezas como gerenciamento de risco, consumo, financeiro,
seguros, telecomunicações, saúde e entretenimento. Incluem-se também dados de biometria
para identificação e validação como: reconhecimento de voz, íris, retina e face; dados gerados
no dia a dia pelas pessoas por envio de e-mails, logs, blogs, relatórios, apresentações e
documentos em geral, além da comunicação entre dispositivos fixos e móveis que monitoram
processos, máquinas, localizam pessoas, liberam acessos e contabilizam estoques.
Com relação aos dados estruturados, Meer (2013) relaciona cinco diferentes categorias
principais que são mais familiares às pessoas que utilizam os sistemas de informação
convencionais, conforme apresentado no Quadro 5.
Quadro 5: Categorias de dados estruturados
Categoria Descrição do dado
Criados Um determinado indivíduo fornece esse tipo de dado ao responder um questionário de
uma empresa.
Provocados As opiniões que são registradas, como, por exemplo, na avaliação da página de uma loja
no facebook.
Transacionados As ações dos usuários que são geradas, por exemplo, numa compra no Mercado Livre.
Compilados Algumas empresas os mantêm em suas bases com diversas informações de cada pessoa
Experimentais Um conjunto dos dados criados e transacionados, com estes a área de marketing pode
ofertar produtos específicos para cada cliente.
Fonte: Adaptado de Meer (2013).
28
No campo dos dados não estruturados, McAfee e Brynjolfsson (2012) ressaltam a
variedade dos dados que possuem relação com o Big Data e assumem a forma de mensagens,
imagens postadas nas redes sociais, leituras de sensores e sinais de GPS, a partir de dispositivos
móveis. Com este cenário, os dispositivos móveis assumem grande importância, visto que são
responsáveis por enormes fluxos de dados ligados às pessoas, às atividades e aos locais.
De acordo com a Cisco (2017), em 2021, haverá no mundo mais dispositivos móveis do
que contas bancárias, casas com água canalizada ou linhas de telefone fixo. Toda essa
quantidade de dispositivos deverá trafegar 587 exabytes de dados por ano, mais de 122 vezes
todo o tráfego mundial de dados móveis gerado em 2011.
Para Tufekci (2013), os dados gerados por engajamento nas redes sociais podem induzir
a uma análise rasa por trazer amostras distorcidas não suficientes para conclusões assertivas,
nessa linha. Esse autor defende que as análises realizadas com base em dados coletados em
plataformas como Facebook, Tweeter, Instagram, Snapchat, Linkedin, Pinterest não devem ser
replicados para o restante da população.
Entretanto, para Marquesone (2017), a utilização de dados coletados em redes sociais,
associados com a capacidade de processamento em tempo real, tem sido cada vez mais
importante para sociedade. Um exemplo é a identificação de tendências com velocidade nunca
alcançada antes, pois a análise imediata das informações compartilhadas e pesquisadas pelas
redes permite gerar descobertas como pandemias de doenças em regiões específicas. Isso
significa um grande avanço, visto que, em muitos casos, se gastariam dias para realizar essa
identificação, observando que os dados analisados já estariam desatualizados. Os dados gerados
por humanos fornecem uma valiosa fonte de informação que, quando avaliados em tempo real,
podem gerar conhecimentos imensuráveis (MARQUESONE, 2017).
Pensando no mundo corporativo, o fluxo de geração de registros é contínuo e resultante
de interações sociais e econômicas em todo o mundo, por meio de dispositivos móveis
computadores e tablets. Esses dados, quando coletados, armazenados, processados,
correlacionados, compartilhados e visualizados, são fonte de importante inteligência que podem
colocar as decisões à frente de concorrentes (FERNANDES; LIMA-MARQUES, 2014;
FRANKS, 2013; TAURION, 2013).
2.2.6 Demais Dimensões
Apesar da convergência sobre as dimensões Volume, Velocidade e Variedade para
representar o Big Data, como visto no Quadro 3, parte dos autores mencionam mais dimensões
29
além dos tradicionais “3Vs”, utilizando 5 dimensões para descrever o Big Data: Volume,
Velocidade, Variedade, Veracidade e Valor (DEMCHENKO; DE LAAT; MEMBREY, 2014;
TAURION, 2013; ZIKOPOULOS; EATON, 2011).
Taurion (2013) defende que é preciso incluir a dimensão Veracidade, pois é preciso ter
a certeza de que os dados fazem sentido e são autênticos e, também a dimensão Valor, dada a
necessidade de as organizações implementarem projetos de Big Data que obtenham retorno
destes investimentos. Valor vem da importância de extrair benefícios de diversas naturezas a
partir do uso do Big Data, ou seja, agregar valor aos processos, produtos, serviços e negócios
mediante dados confiáveis. Quanto maior a veracidade dos dados e sua riqueza, maior será a
chance de a análise ser realizada de maneira clara a gerar vantagens para as organizações
(TAURION, 2013).
Para Marquesone (2017), as três dimensões formam a base necessária para o
conhecimento sobre Big Data, mas ressalta a validade sobre as dimensões Valor e Veracidade,
descrevendo Valor como uma dimensão que faz referência ao quão valioso e significativo um
dado pode ser em uma solução. Um exemplo seria: qual o valor dos dados de mídias sociais
para uma solução de Big Data no departamento de marketing de uma empresa? É importante
fazer essa análise de valor para se determinar quais dados serão priorizados.
Já a dimensão Veracidade está relacionada à confiabilidade dos dados. Pelo fato de que
Big Data está inserido em um contexto de dados em grande volume e variedade, pois é comum
a existência de dados inconsistentes. Assim, a veracidade refere-se ao quão confiável é um
conjunto de dados usado em uma solução de Big Data (MARQUESONE, 2017).
Sathi (2012) também adiciona a dimensão Veracidade ao contexto de Big Data e a
descreve por meio da credibilidade das fontes de dados utilizadas, bem como a adequação dos
dados para um determinado fim. Além das dimensões Volume e Veracidade, Lyon (2014)
ressalta outras características que devem ser consideradas ao se tratar de Big Data.
Quadro 6: Demais características do Big Data
Característica Descrição
Exaustividade de escopo Dados coletados tendem a englobar um número cada vez maior
de pessoas e sistemas.
Resolução dos dados Dados não estruturados possuem uma enorme quantidade de
detalhes.
Interconexão dos dados Dados possuem campos em comum que permitem o
relacionamento de diferentes conjuntos de dados.
30
Característica Descrição
Flexibilidade e escalabilidade horizontal Dados que permitem adicionar mais detalhes sobre uma mesma
coleta de dados.
Flexibilidade e escalabilidade vertical Possibilidade de novas coleta de dados na mesma análise.
Fonte: Adaptado de Lyon (2014)
Um estudo realizado pela IBM (2012a) ressalta que a Veracidade dos dados está
associada com sua grandeza de Valor, de maneira que tipos específicos de dados, em que os
métodos de limpeza não são eficazes para remoção de suas incertezas, como o tempo, a
economia, ou a real decisão de compra futura de um cliente, tem seu Valor reduzido. Deste
modo, saber escolher e processar as fontes de dados para diminuir incertezas é um objetivo a
ser alcançado pelas organizações que trabalham com Big Data.
2.3 O Constructo Inteligência Competitiva
Esta sessão refere-se à Inteligência Competitiva, que é a outra base teórica desse estudo.
Assim como na sessão que trata sobre o Big Data, esta sessão foi dividida em subseções: na
subseção 2.3.1, estão os conceitos e o entendimento geral sobre a Inteligência Competitiva; na
subseção 2.3.2, está descrito, com detalhes, o ciclo da Inteligência Competitiva, assim como
cada uma de suas etapas.
2.3.1 Inteligência Competitiva - Conceitos
O processo de Inteligência Competitiva já se encontra difundido e amadurecido na
literatura. Inteligência Competitiva gera recomendações praticáveis advindas do processo
sistemático de planejar, coletar e disseminar informação sobre o ambiente externo para
oportunidades ou desenvolvimentos, que tem o potencial de afetar a situação competitiva de
uma companhia ou país (CALOF, 2007).
A Inteligência Competitiva surgiu como campo de estudo, na década de 1980, como
uma disciplina capaz de integrar o planejamento estratégico de modo a possibilitar o
monitoramento constante do ambiente externo e, assim, conseguir acompanhar com mais
rapidez os movimentos do mercado. Dessa maneira, o que torna o processo de Inteligência
Competitiva diferente é a geração de informações em tempo real, de forma dinâmica e
cíclica. O tempo e a velocidade se tornam importantes para o processo de Inteligência
Competitiva, visto que propiciam aos sujeitos organizacionais se anteciparem às mudanças
31
advindas do mercado de modo ágil, consistente e assertiva (CHEN; CHIANG; STOREY,
2012; SOUZA, 2016).
Para Fuld (1994), Inteligência Competitiva pode ser definida como a informação
analisada sobre concorrentes que tem implicações no processo de tomada de decisão da
empresa, auxiliando gestores a responderem corretamente questões específicas e tomarem
decisões em longo prazo. No entanto, Herring (2002) define a Inteligência Competitiva como
um programa sistemático e ético para monitoramento, coleta, análise e gestão de informação a
respeito dos competidores e todo o ambiente organizacional que possa afetar os planos, decisões
e operação de uma determinada empresa.
Calof (2007) ressalta que a alta gestão, em geral, é o alvo principal dos produtos gerados
pela Inteligência Competitiva. Com isso, é possível buscar vantagem competitiva, fazendo
melhores escolhas que seus competidores, levando em consideração os ambientes: interno e
externo, além do tempo: o passado, o presente e o futuro.
Já, a Strategic and Competitive Intelligence Professionals - SCIP (2017) define a
Inteligência Competitiva ou “Competitive Intelligence” como um processo de coleta, análise
legal e ética de informações sobre concorrentes que podem ajudar uma organização a tomar
melhores decisões e a alcançar seus objetivos. “Corporate intelligence”, “Business
Intelligence”, “Market Intelligence” e outros termos similares também são usados para se referir
à Inteligência Competitiva (SCIP, 2017).
A atividade de Inteligência Competitiva refere-se a um processo intelectual de produção
de informação, cujos métodos de coleta e monitoramento restringem-se a atividades éticas e
legais como, por exemplo, a entrevista, sem a utilização de falsa identidade, o benchmarking,
a busca em bases de dados, a participação em evento, a coleta de dados em material publicitário,
dentre outros (MENDES, ANDRÉA LARA; MARCIAL, 2010).
Para Miller (2002), a Inteligência Competitiva tem a finalidade de analisar e avaliar os
ambientes, antecipar eventos, descobrir potenciais concorrentes, aprender com o sucesso ou o
fracasso de terceiros, avaliar ameaças e identificar oportunidades, identificar e adquirir novas
tecnologias, além disto, monitorar os ambientes político, legal e regulatório, gerar informações
para o processo de planejamento estratégico com o intuito de ajustar a empresa ao ambiente
onde está inserida. Destaca-se, ainda, que a Inteligência Competitiva é uma atividade de
produção de informação estratégica acionável e de proteção, que contribui para o aumento da
capacidade de competição inclusive em ambientes turbulentos, caracterizada pela ocorrência
de grandes mudanças (PRESCOTT, 1999).
32
Atualmente, empresas dos mais variados setores da economia mundial investem
sistematicamente em processos e sistemas de Inteligência Competitiva com o objetivo de
evitarem surpresas competitivas desagradáveis que coloquem em risco sua sobrevivência e seu
crescimento nos mercados em que operam. Há, portanto, uma crescente necessidade dos
estrategistas, de informações relevantes, precisas, oportunas e confiáveis sobre fatos, tendências
e relacionamentos no ambiente competitivo em que suas empresas estão instaladas
(OLIVEIRA; GONÇALVES; DE PAULA, 2011).
Historicamente, a Inteligência Competitiva foi baseada em informações básicas das
empresas, como sua localização física, números de telefone e pontuação de crédito, com as
possibilidades oferecidas pelo ecossistema do Big Data. A partir disto, é possível explicar, com
riqueza de detalhes, o que as empresas fazem no mercado, demonstrando empiricamente seu
comportamento que antes não era visível e, com isso, gerar tendências, benchmarking,
segmentação, novas modelagem e recomendações precisas (DAVENPORT, 2014).
Nessa pesquisa entende-se a Inteligência Competitiva como descrita pela Associação
Brasileira dos Analistas de Inteligência Competitiva que compreende a Inteligência
Competitiva como um processo informacional proativo que conduz à melhor tomada de
decisão, seja esta estratégica ou operacional, visando a descobrir as forças que regem os
negócios, reduzir o risco e conduzir o tomador de decisão a agir antecipadamente (ABRAIC,
2017)
2.3.2 O Ciclo da Inteligência Competitiva
Fuld (2007) defende que o processo de Inteligência Competitiva pode produzir e
processar informações sobre o ambiente de uma organização para propósitos estratégicos. A
força motriz da Inteligência Competitiva é o Valor, e não o Volume de informações que
resultam em análises assertivas, servindo de base para as decisões fundamentais de uma
organização.
O processo de Inteligência Competitiva pode produzir e processar informações sobre o
ambiente de uma organização para propósitos estratégicos (FULD, 2007). Com isso, Miller
(2002) propõe sua perspectiva sobre o ciclo da Inteligência Competitiva, conforme apresenta a
Figura 8.
33
Figura 8: Ciclo da Inteligência Competitiva
Fonte: Adaptado de Miller (2002).
Na Figura 8, observa-se que, segundo Miller (2002), o ciclo de Inteligência Competitiva
é composto pelas etapas de planejamento, coleta, análise e disseminação (grifo nosso) de
informações. Trata-se de um processo em que dados de diversas fontes são coletados,
interpretados e comunicados para os interessados. Essas etapas devem ser entendidas como
exposto abaixo.
1. Planejamento: Nessa etapa, é preciso identificar quem precisa da inteligência
(responsáveis pelas decisões) e quais são as suas necessidades.
2. Coleta: Os responsáveis devem buscar informações relevantes para a organização,
partindo de um roteiro previamente definido.
3. Análise: Esse é o momento em que as informações coletadas são tratadas,
recuperadas e analisadas para a produção de Inteligência Competitiva, que será
disponibilizada, posteriormente, aos tomadores de decisão.
4. Disseminação: O resultado do trabalho de Inteligência Competitiva é apresentado
aos tomadores de decisão para que possa apoiar às suas escolhas que poderão ou não
se basear na inteligência disponibilizada.
Observando o contexto dos conceitos apresentados, pode-se dizer que o ciclo da
Inteligência Competitiva permite às organizações aperfeiçoar o funcionamento interno de seus
serviços, na medida em que apresenta recursos para incrementar a tomada de decisão e, como
efeito desta, a produção de informações de alto valor agregado levam-nas a se manterem
permanentemente competitivas (QUEYRAS; QUONIAM, 2006).
34
2.4 Estudos Envolvendo Big Data e Inteligência Competitiva
Esta sessão demonstra a análise realizada sobre as publicações evidenciadas no Quadro
1, elaborado a partir do resultado da pesquisa bibliométrica executada sobre as publicações que
abordam Big Data, Inteligência Competitiva e a relação entre os dois constructos apresentada
na sessão 2.1.
A respeito da publicação 1 relacionada no Quadro 1, trata-se de um artigo acadêmico
que apresentou uma pesquisa sobre a utilização da Inteligência Competitiva especificamente
para esportes por meio de aplicações e serviços em empresas esportivas e departamentos de
esporte de universidades chinesas (HONG-YING, HAI-YAN, 2015). Esse estudo teve um
objetivo bastante específico e restrito à ciência nos esportes. Dessa maneira, não demonstra
relação entre o Big Data e a Inteligência Competitiva, do ponto de vista corporativo.
A publicação 2 é um Proceedings Paper que aborda conceitualmente a Inteligência
Competitiva e a oportunidade aberta pela era do Big Data para a obtenção de informações sobre
um ambiente dinâmico dominado por mídias sociais e outras plataformas de rede. Nesse
sentido, os autores explanam e descrevem o desenvolvimento técnico, de forma experimental,
um sistema de análise de sentimento de redes sociais de pequenas proporções que pode ser
utilizado como base para futuros estudos e adaptações (SHARMA et al., 2015). Por se tratar de
um Proceedings Paper, o principal objetivo dessa publicação não foi entender diretamente a
ocorrência da Inteligência Competitiva com a utilização de Big Data e, sim, descrever
tecnicamente uma das possibilidades oferecidas pelo conjunto tecnológico que compõe o
ecossistema do Big Data.
A publicação 3 é um artigo acadêmico que desenvolveu um estudo sobre a utilização de
banco de dados como fonte de vantagem competitiva em pequenas e médias empresas da
Eslováquia. Os resultados apontam que o conhecimento e as habilidades de trabalhar com
bancos de dados comerciais nas empresas examinadas são inadequados, e que os entrevistados
são mais propensos a buscar informações por meio da Internet, ferramentas de pesquisa
baseadas na web e análises de sites. Assim, na conclusão, o autor ressalta a importância para as
organizações passarem a buscar o entendimento de soluções para se trabalhar com uma grande
volume de dados (BOLEK et al., 2016).
Embora a fundamentação teórica tenha explorado de maneira consistente questões que
permeiam tanto o Big Data quanto a Inteligência Competitiva, a coleta de dados foi realizada
por meio de perguntas sobre a forma como as empresas estavam utilizando e coletando dados
de uma maneira geral para gerar Inteligência Competitiva e sua percepção sobre o Big Data,
35
isto é, não se identificando se as empresas estavam ou não utilizando o Big Data na Inteligência
Competitiva ou qual as implicações entre ambos os constructos.
A publicação 4 trata de um ensaio teórico que, por meio da literatura, resume o status
de pesquisa acerca da Inteligência Competitiva na era do Big Data e propõe implicações sobre
o Big Data na pesquisa sobre Inteligência Competitiva (LI et al., 2016). Por se tratar de um
ensaio teórico, não há pesquisa de campo, assim a ocorrência dos fenômenos (Big Data e
Inteligência Competitiva) não é identificada nem avaliada.
Conforme exposto na sessão 2.1, a análise das publicações mapeadas no estudo
bibliométrico que abordam Big Data, Inteligência Competitiva e a relação entre os dois
constructos apresentadas anteriormente no Quadro 1, revelou a falta de estudos com
investigação empírica do ponto de vista corporativo no ambiente em que os fenômenos (Big
Data e Inteligência Competitiva) ocorrem e poderiam se influenciar.
2.4.1 Modelo Conceitual da Pesquisa
A despeito de Cukier (2010) enfatizar que o Big Data tem seus efeitos percebidos nas
empresas, ciência e governo e, embora muitos periódicos de alto fator de impacto estejam
publicando sobre o tema, ainda há muito a ser explorado sobre o Big Data e assuntos
correlacionados (AKERKAR, 2014).
A Figura 9 apresenta o modelo conceitual tomado como base para realização desta
pesquisa.
Figura 9: Modelo Conceitual da Pesquisa
Fonte: Elaborado pelo autor, 2017.
36
A Figura 9 apresenta o Modelo Conceitual que demonstra a relação teórica entre os
constructos. A Inteligência Competitiva é apresentada na perspectiva do ciclo proposto Miller
(2002) e o Big Data está retratado por meio das dimensões empregadas no artigo seminal de
Laney (2001). O detalhamento desse relacionamento está descrito a seguir.
Conforme abordado na sessão 2.3.2, na etapa de Planejamento, é preciso identificar os
responsáveis pelas decisões e suas necessidades no tempo requerido pelas demandas do
negócio. Assim, os responsáveis pelas decisões terão acesso à análise dos dados e, por
consequência, não devem tomar as devidas ações tardiamente, diante de um cenário crítico
(MILLER, 2002). Entretanto, não há o entendimento que nessa etapa exista relação com as
dimensões do Big Data propostas por Laney (2001).
Durante a Coleta de dados, os responsáveis devem buscar informações relevantes para
a organização a partir de um roteiro previamente definido (MILLER, 2002). Baseado nas
necessidades mapeadas durante o Planejamento, é possível que seja preciso coletar dados
estruturados e não estruturados, em alta velocidade em volumes massivos de diferentes fontes
e sistemas descritos por Taurion (2013). O autor citou dados transacionais de diferentes
naturezas, dados de biometria para identificação e validação como reconhecimento de voz, íris,
retina e face, dados gerados no dia a dia pelas pessoas por envio de e-mails, logs, blogs,
relatórios, apresentações e documentos em geral e redes sócias.
O conjunto tecnológico de Big Data utilizado durante a Coleta para a Inteligência
Competitiva deve ser capaz de trabalhar com grandes volumes de dados. Um exemplo de coleta
de dados em grande escala de uma fonte não convencional seria a coleta de tweets da rede social
Twitter por meio de um data streaming (fluxo contínuo dos dados), com o nome dado às
mensagens que possuem até 140 caracteres publicadas pelos usuários da rede. Tal fonte de
dados pode alimentar um sistema de análise de sentimentos de redes sociais, possibilitando que
um gestor de marketing digital saiba os resultados de uma campanha em tempo real, no mesmo
momento em que a campanha foi lançada. Este cenário foi demonstrado no Proceedings Paper
“Big Data – Competitive Intelligence” (SHARMA et al., 2015), citado anteriormente nesta
mesma sessão. Esse tipo de coleta de dados, nesta mesma rede social, foi detalhada e
demonstrada por Marquesone (2017), que aborda questões sobre Volume, Velocidade e
Variedade de dados durante sua coleta.
Levando em consideração o grande volume de dados que podem ser coletados, é preciso
que exista um conjunto tecnológico capaz de processar tamanha quantidade, em alta velocidade,
com diferentes estruturas e tipos, visto que, segundo Miller (2002), durante a Análise, os dados
coletados são tratados e recuperados para a produção de Inteligência Competitiva. De acordo
37
com Marquesone (2017), uma das primeiras e principais tecnologias de Big Data utilizada para
um infinidade de aplicações com processamento massivo de dados é o Hadoop (grifo nosso).
A utilização do Hadoop por grandes organizações contribuiu para sua rápida
evolução, tanto em aperfeiçoamento quanto em adição de novas funcionalidades.
Como resultado, novos subprojetos foram criados no topo dos componentes principais
do Hadoop, criando um ecossistema com diversas soluções de manipulação de dados
(MARQUESONE, 2017).
A Figura 10 apresenta os subprojetos e ferramentas geradas a partir da evolução do
ecossistema Hadoop no decorrer dos anos.
Figura 10: Evolução do Hadoop no decorrer do tempo
Fonte: Marquesone (2017).
Dessa forma, com o conjunto tecnológico que permeia todo o ecossistema de Big Data,
seria possível executar a etapa de análise do ciclo da Inteligência Competitiva no que tange às
dimensões Volume, Velocidade e Variedade na perspectiva de Laney (2001).
Com relação à etapa de Disseminação, é preciso que o resultado do trabalho de
Inteligência Competitiva, gerado durante as etapas antecessoras, sejam apresentados aos
tomadores de decisão com o objetivo de dar suporte às suas decisões Miller (2002). Assim
como no Ciclo da Inteligência Competitiva, no Big Data, quando um projeto tem como foco o
aumento da percepção sobre determinados cenários, é preciso que seja entregue uma
visualização de dados capaz de alavancar esse objetivo (MARQUESONE, 2017).
Para Taurion (2013), a entrega dos dados processados também pode ser chamada de
fase de visualização de dados. Essa fase possui total sincronia com etapa de Disseminação da
38
inteligência do ciclo da Inteligência Competitiva, pois, em ambos os casos, é preciso que os
dados sejam entregues aos interessados em alta Velocidade, permitindo que os tomadores de
decisão tenham tempo hábil para interpretação desses resultados e tomem ou não ações
cabíveis. Um exemplo inovador no mundo corporativo de entrega de inteligência com utilização
de tecnologia de Big Data é a linguagem de programação gratuita denominada R, que possui
funcionalidades voltadas à computação estatística e à visualização de dados (MARQUESONE,
2017).
2.4.2 Fluxo de Dados
A Inteligência Competitiva possui um fluxo geral dos dados que antecedem a geração
da inteligência. Nesse fluxo, os dados estão disponíveis em três segmentos que formam a
pirâmide da inteligência conforme demonstrado na Figura 11 (SHARP, 2009).
Figura 11: A pirâmide da Inteligência Competitiva – Fluxo geral dos dados
Fonte: Adaptado de Sharp (2009).
Ainda, de acordo com Sharp (2009), cada um dos segmentos da pirâmide que forma o fluxo
geral dos dados possui suas peculiaridades, indicados a seguir.
Dados: Os dados são os mais fáceis de reunir, requer a menor habilidade dos três
segmentos e mais pessoas ou organizações podem obtê-lo.
Informação: As informações, no entanto, oferecem mais valor do que dados, são mais
difíceis de se descobrir e menos pessoas têm habilidades para fornecer.
39
Inteligência: A inteligência realmente é a ponta e o topo da pirâmide. Há muito menos
inteligência do que dados, poucas pessoas entendem o que é, e ainda menos parecem ter as
habilidades para fornecê-lo.
Assim como a Inteligência Competitiva, o Big Data também possui diferentes fluxos de
dados que podem ser elaborados com processamento em lotes ou em tempo real conforme
apresentado na Figura 12.
Figura 12: Exemplo de fluxo de dados em lotes
Fonte: Marquesone (2017).
Um fluxo de dados que possui seu processamento em lotes, refere-se ao processamento
de um conjunto de dados pertencente a um grupo também chamado de lote. Um grupo é
formado por dados coletados em um certo período de tempo e que foram agregados para serem
processados por um job (agendamento de serviço computacional). Essa abordagem é
comumente chamada um-para-muitos, pois em uma única requisição é processado um grupo
inteiro de dados, e não apenas um único registro (MARQUESONE, 2017).
Outro fluxo de dados bastante utilizado por aplicações de Big Data são os fluxos que
possuem processamento e entrega da inteligência em tempo real conforme Figura 13.
Figura 13: Exemplo de fluxo de dados em tempo real
Fonte: Marquesone (2017).
Diferentemente do processamento em lote em que as etapas de coleta, armazenamento
e processamento ocorrem separadamente, no processamento em tempo real, os dados são
analisados assim que são gerados, possibilitando que a entrega da inteligência seja imediata.
40
Dessa maneira, na Figura 13, é possível perceber que o fluxo do processamento em
tempo real é contínuo, sendo o dado processado à medida que ele chega à aplicação e sendo
entregue aos tomadores de decisão em tempo real (MARQUESONE, 2017).
Ainda, de acordo com Marquesone (2017), para implementação de ambientes de Big
Data, é necessário uma grande capacidade computacional que pode ser gerenciada
internamente, ou por prestadores de serviços como a Amazon Web Services ou a Microsoft
Azure, além do custo com o aparato tecnológico e da necessidade de uma equipe técnica
responsável pelas práticas e processos para mapear as necessidades dos usuários e desenvolver
toda a inteligência por traz das etapas de coleta, pelo armazenamento, processamento e
visualização de dados.
Com base nos fluxos de dados de Big Data apresentados, foi elaborada a Figura 14 que
representa de maneira macro as 4 principais etapas dos fluxos de dados utilizados por aplicações
de Big Data.
Figura 14: Macrofluxo do Big Data
Fonte: Adaptado de Marquesone (2017).
O fluxo de dados apresentado na Figura 14 também é observado em aplicações
convencionais que não necessariamente coletam, armazenam ou processam grandes volumes
de dados. Com isso, ressalta-se que aplicações de Big Data possuem ferramentas, técnicas e
práticas diferentes das aplicações convencionais, entretanto, quando se trata do macrofluxo de
dados, não há diferenças entre as aplicações (MARQUESONE, 2017).
De acordo com o macrofluxo apresentado na Figura 14, é possível relacionar, de forma
teórica, o macrofluxo de dados do Big Data adaptado de Marquesone (2017), com o Ciclo da
Inteligência Competitiva proposto por Miller (2002), conforme demonstra a Figura 15.
41
Figura 15: Relação entre o Ciclo da IC e o Macrofluxo de dados do Big Data
Fonte: Elaborado pelo autor, 2017.
Dessa forma, é possível visualizar a relação e a aderência entre a Coleta de dados da
Inteligência Competitiva com a Coleta de dados do Big Data, demonstrando as etapas de
Armazenamento e Processamento com a etapa de Análise e, por fim, a etapa de Visualização
com a etapa de Disseminação.
Também é possível relacionar de maneira teórica o macrofluxo de dados do Big Data
adaptado de Marquesone (2017), com o fluxo geral dos dados proposto por (SHARP, 2009)
como apresentado na Figura 16.
Figura 16: Relação entre o Fluxo geral da IC e o Macrofluxo de dados do Big Data
Fonte: Elaborado pelo autor, 2017.
42
Com base nas relações descritas ao longo da sessão 2.4, fica evidenciada a aderência e
a relação teórica entre as etapas do ciclo da Inteligência Competitiva proposto por Miller
(2002), com as dimensões do Big Data concebidas por Laney (2001) e ratificadas por Taurion
(2013), assim como o a relação entre o macrofluxo de dados adaptado de Marquesone (2017),
com o fluxo geral de dados da Inteligência Competitiva proposto por Sharp (2009) e o ciclo da
Inteligência Competitiva proposto por Miller (2002).
43
3 PROCEDIMENTOS METODOLÓGICOS
Essa sessão tem como objetivo descrever o conjunto de procedimentos metodológicos
que vão ser utilizados na pesquisa, assim como o método, tipo, instrumento de coleta de dados,
técnica de análise e amostra de dados.
3.1 Quanto ao Método e Tipo de Pesquisa
De acordo com Merrian (1998), a pesquisa qualitativa ocupa um reconhecido lugar entre
as várias possibilidades de se estudar os fenômenos que envolvem os seres humanos e suas
intricadas relações sociais estabelecidas em múltiplos ambientes. Trata-se de um conceito que
envolve uma gama de técnicas e procedimentos interpretativos, que procuram essencialmente
descrever, decodificar e traduzir o sentido de eventos ou fenômenos do mundo social. Vergara
(2010) acrescenta que a pesquisa descritiva expõe as características de determinada população
ou fenômeno, estabelece correlações entre variáveis e define sua natureza.
Foi adotada uma pesquisa qualitativa do tipo descritiva exploratória, que pode ser
definido como o que se aplica ao estudo da história, das relações, das representações, das
crenças, das percepções e das opiniões, produtos das interpretações que os humanos fazem a
respeito de como vivem, constroem seus artefatos e a si mesmos, sentem e pensam (MINAYO,
2010). A escolha metodológica justifica-se pela escassez de estudos encontrados que buscam
explicar ou descrever os efeitos entre Inteligência Competitiva e os métodos e ferramentas que
integram o Big Data, sendo esse tema amplo e complexo, tornando difícil a realização de seu
estudo fora do contexto onde ocorre.
3.2 Instrumento de Coleta de Dados
As entrevistas “em profundidade” são adequadas para campos de estudos em que há
pouco conhecimento sobre o fenômeno estudado ou onde percepções detalhadas são necessárias
a partir de pontos de vistas individuais (OLIVEIRA; MARTINS; VASCONCELOS, 2010). As
entrevistas estruturadas são elaboradas por questionário totalmente estruturado em que as
perguntas são previamente formuladas com o cuidado de não fugir a estas (BONI;
QUARESMA, 2005).
Com isso, os dados foram coletados por entrevistas em profundidade com roteiro
estruturado, de acordo com Creswell (2007). O roteiro de entrevistas a ser utilizado encontra-
44
se no Apêndice I, sendo que, para a sua elaboração foi utilizada a Matriz de Amarração que
consta no Apêndice II.
3.3 Técnica para Análise de Dados
Para Kerlinger (2007), a análise de conteúdo é um método para analisar e estudar as
comunicações, documentos, livros e cartas de maneira sistemática e objetiva. Para Vergara
(2010), a análise de conteúdo é considerada uma técnica para o tratamento de dados que tem
como fundamento identificar o que está sendo dito a respeito de um determinado tema. Presta-
se tanto aos fins exploratórios e de descoberta, quanto à verificação, à confirmação ou não de
hipóteses ou suposições preestabelecidas. Exige categorias exaustivas, mutuamente exclusivas,
pertinentes e objetivas e pode tratar grandes quantidades de dados, bem como armazenadas com
auxílio de programas de computador, preservando a interpretação do pesquisador (VERGARA,
2010).
Bardin (2011) define a análise de conteúdo como um conjunto de técnicas de análise
das comunicações que visam a obter, por meio de procedimentos sistemáticos e objetivos de
descrição do conteúdo das mensagens, indicadores (quantitativos ou não) que permitam a
inferência de conhecimento às condições de produção/recepção (variáveis inferidas) destas
mensagens.
Portanto, os dados foram analisados de acordo com a análise de conteúdo, na perspectiva
de Bardin (2011). Os critérios de categorização, ou seja, escolha de categorias é uma forma de
pensamento e reflete a realidade, de forma resumida, em determinados momentos, na
perspectiva da análise do conteúdo, as categorias são vistas como rubricas ou classes que
agrupam determinados elementos, reunindo características comuns. No processo de escolha de
categorias, adotam-se os critérios semântico (temas), sintático (verbos, adjetivos e pronomes),
léxico (sentido e significado das palavras-antônimo ou sinônimo) e expressivo (variações na
linguagem e na escrita). Ainda de acordo com Bardin (2011), a análise de conteúdo é organizada
sobre três polos cronológicos: pré-análise, exploração do material e tratamento de dados e
interpretação (grifo nosso):
1) pré-análise: que se refere à seleção dos materiais e à definição dos procedimentos
metodológicos que serão seguidos;
45
2) exploração do material: que consiste essencialmente em operações de
codificação, decomposição ou enumeração com base em regras previamente
formuladas;
3) tratamento dos dados e interpretação: que possuem o papel de geração
significativos de inferências dos resultados da investigação feita pelo pesquisador.
Os polos cronológicos, por sua vez, são distribuídos nas etapas de Preparação,
Codificação, Categorização e Inferência (grifo nosso), os quais estão descritos a seguir.
• Preparação: é a fase de organização, corresponde a um período de intuições, tem por
objetivo tornar operacionais e sistematizar as ideias iniciais, conduzindo um esquema
preciso do desenvolvimento das operações sucessivas, estabelecendo um programa
flexível e preciso.
• Codificação: é o processo pelo qual os dados brutos são transformados
sistematicamente e agregados em unidades de registro, as quais permitem uma
descrição exata das características pertinentes do conteúdo.
• Unidade de Registro: pode ser de natureza e de dimensões variáveis e possui certa
ambiguidade no que diz respeito aos critérios de distinção. Do ponto de vista prático,
consiste em recortes em nível semântico, por exemplo, o “tema”, enquanto que outros
são feitos em um nível linguístico, como a “palavra” ou a “frase”, um conjunto de
unidades de registros geram o significado extraído de uma determinada mensagem.
• Unidade de Significado: uma análise temática consiste em descobrir os "núcleos de
sentido" que compõem a comunicação e cuja presença, ou frequência de aparição,
podem significar algo para o objetivo analítico escolhido. A unidade de significação
corresponde ao segmento de conteúdo considerado unidade de base, visando à
categorização e à contagem de frequência.
Regras de Enumeração: é necessário fazer uma distinção entre a unidade de registro
(o que se conta) e a regra de enumeração (o modo de contagem). Qualquer escolha de uma regra
(ou de várias regras) de enumeração assenta numa hipótese de correspondência entre presença,
frequência, intensidade, distribuição, associação, presença, frequência, intensidade e
distribuição.
Categorização: é uma operação de classificação de elementos constitutivos de um
conjunto por diferenciação e reagrupamento segundo o gênero (analogia), com critérios
46
previamente definidos. As categorias são rubricas ou classes, as quais reúnem um grupo de
elementos (unidades de registro, no caso da análise de conteúdo) sob um título genérico. Este
agrupamento é realizado em razão das características comuns entre os elementos. O critério de
categorização pode ser semântico, sintático, léxico e expressivo.
• Inferência: trata-se da operação intelectual de derivar conclusões a partir de premissas
conhecidas ou decididamente verdadeiras. Na análise de conteúdo, existem dois tipos
de inferências:
1) inferências específicas: quando se procura responder às perguntas do tipo "será
que o país A tem intenções de atacar o país B?;
2) inferências gerais: quando se pretende saber se existe uma lei relacional em que
o aumento do nível pulsional do locutor seja acompanhado pela simplificação e
normalização das suas escolhas semânticas e estruturais.
Este conjunto de técnicas tem como objetivo dar o devido suporte ao atendimento das
necessidades dessa pesquisa no que tange à análise dos dados coletados com a utilização do
instrumento de coleta. Com base nas técnicas descritas anteriormente, foi elaborada a Figura
17, apresentada a seguir, que representa o macroprocesso da análise de conteúdo.
Figura 17: Macroprocesso de análise dos dados
Fonte: Elaborado pelo autor, com base em Bardin (2011).
47
3.4 Amostra da Pesquisa
Segundo Creswell (2007), uma amostragem de conveniência é indicada em casos em
que o investigador precisa utilizar grupos formados naturalmente, como, por exemplo, uma sala
de aula, uma organização ou unidade familiar. Os personagens devem ser designados de acordo
com suas características ou atributos que, nesse estudo, se caracteriza por suas atividades
profissionais e ambiente em que se está inserido.
De acordo com Maykut e Morehouse (1994), a amostra em pesquisa qualitativa deve
ser constituída por respondentes que tenham se destacado em suas atividades e detenham
informações consideradas de fato úteis para o entendimento do problema pesquisado.
Dessa maneira, foram selecionados quatro especialistas e gestores que trabalham com o
conjunto de técnicas e ferramentas que compõem o ecossistema de Big Data. Com isso, está
sendo projetado o preenchimento da lacuna identificada no estudo bibliométrico que apontou
para a falta de estudos com investigação empírica da ótica corporativa no ambiente em que os
fenômenos (Big Data e Inteligência Competitiva) ocorrem e se influenciam.
48
4 ANÁLISE E INTERPRETAÇÃO DOS RESULTADOS
Essa seção tem por objetivo apresentar os resultados da pesquisa, com base na análise e
na interpretação dos resultados. Para a realização da análise dos dados, foram utilizados os
dados coletados nas 4 entrevistas que foram realizadas por meio de roteiro estruturado
disponível no Apêndice II.
As entrevistas foram realizadas entre janeiro e abril de 2018, todas foram gravadas com
a utilização de um gravador digital e, posteriormente, foram transcritas em sua íntegra e de
forma homogênea. A entrevista inicial (E1 - piloto) foi realizada com o objetivo de validar o
roteiro assim como para o reconhecimento do campo.
No Quadro 7: Composição da amostraQuadro 7, estão relacionados os entrevistados,
com informações sobre as empresas que trabalham e seu enquadramento na organização.
Quadro 7: Composição da amostra
ENTREVISTA 1 (E1) ENTREVISTA 2 (E2)
Década de sua fundação: 1960 Década de sua fundação: 1910
Setor de Atuação: Celulose Setor de Atuação: Eletrodoméstico
Número de Funcionários: 19.000 Número de Funcionários: 100.000
Faturamento Anual: 10b Faturamento Anual: 20b
CARACTERIZAÇÃO DO RESPONDENTE
Cargo: Líder técnico de Data
Analytics e Big Data Cargo:
Arquiteto de Soluções
de Big Data
Formação Profissional: Business Intelligence,
Programação Formação Profissional:
Business Intelligence,
Programação, Sistemas
Área de atuação: Big Data e Analytics Área de atuação: Big Data e Analytics
Tempo na Organização: 4 anos Tempo na Organização: 1 ano
Escolaridade: Pós-graduação Escolaridade: Pós-graduação
49
ENTREVISTA 3 (E3) ENTREVISTA 4 (E4)
Década de sua fundação: 2000 Década de sua fundação: 1990
Setor de Atuação: Telecomunicações Setor de Atuação: Serviços Financeiros
Número de Funcionários: 34.000 Número de Funcionários: 2.400
Faturamento Anual: 33b Faturamento Anual: 11b
CARACTERIZAÇÃO DO RESPONDENTE
Cargo: Líder técnico de Big Data Cargo: Gerente de Big Data
Formação Profissional:
Desenvolvimento de
Sistemas. Business
Intelligence
Formação Profissional: Engenharia de dados,
Business Intelligence
Área de atuação: Projetos Big Data e
Analytics Área de atuação: Big Data
Tempo na Organização: 2 anos Tempo na Organização: 1 ano
Escolaridade: Pós-graduação Escolaridade: Pós-graduação
Fonte: Dados da Pesquisa, 2018.
Após a coleta e transcrição dos dados, foram utilizadas técnicas de análise descritas na
sessão 3, com base em Bardin (2011). As falas dos entrevistados indicam que o discurso foi
direcionado para audiências que possuem vivência ou prática com Big Data e Inteligência
Competitiva. A frequência das palavras, sua ordenação, o vocabulário, os tipos de palavras,
características gramaticais e estilísticas em trechos das falas, indicam que as respostas foram
direcionadas para um público específico (BAUER; GASKELL, 2017). Dessa forma, a análise
dos resultados buscou revelar também as questões intrínsecas nos trechos mais técnicos das
falas dos entrevistados.
Com o objetivo de aumentar a qualidade e assertividade na análise, optou-se pela
utilização do software “ATLAS.ti” versão 8.2.29.0. Com isso, a análise foi realizada em etapas
que foram detalhadas anteriormente na Figura 17.
50
4.1 Pré-Análise
Para identificação das unidades de registro, foi realizada uma pré-análise por meio de
leitura flutuante, em seguida, os arquivos transcritos foram carregados para o software
ATLAS.ti para nova leitura. Os núcleos das respostas foram ressaltados e deram origem às
Unidades de Registro que estão disponíveis no Apêndice III.
4.2 Identificação das Unidades de Registro
As Unidades de Registro foram determinadas a partir da análise individual das
entrevistas, destacando as palavras, expressões ou contextos-chave. Todos os entrevistados
possuíam bastante desenvoltura e domínio de suas respostas, dessa forma, houve casos em que
as respostas dos entrevistados à pergunta feita, em determinado momento, respondia perguntas
que estavam por vir e, em alguns casos, perguntas que já haviam sido feitas foram
complementadas com respostas de outras perguntas.
Com o software ATLAS.ti, para apoiar na elucidação do conteúdo das entrevistas, a
Figura 18 apresenta uma nuvem de palavras geradas por meio da consolidação de todas as
entrevistas apenas com palavras que foram citadas no mínimo 7 vezes.
Figura 18: Nuvem de palavras das entrevistas
Fonte: Dados da Pesquisa, obtidos com ATLAS-ti, 2018.
51
Com a contagem de palavras que gerou a Figura 18, fica evidente que falas dos
entrevistados indicam que o discurso foi direcionado para audiências que possuem vivência ou
prática com Big Data e Inteligência Competitiva.
Os respondentes enfatizaram palavras como “Azure”, “bigquery”, “storage” e
“python”, sendo estes termos conhecidos de pessoas que trabalham com Big Data. Tal
contagem de palavras, no início do processo de análise de conteúdo, ocorre predominantemente
nas abordagens somáticas de análise de conteúdo e tem o propósito de fornecer impressões
iniciais ao pesquisador sobre fenômeno estudado (HSIEH; SHANNON, 2005). Ressalta-se
também, na Figura 19, as palavras mais citadas, “dados”, “informação”, “volume”, “big-data”,
“dado” e “informações”, revelando o contexto central das respostas dos entrevistados.
Figura 19: Nuvem de palavras ordenadas
Fonte: Dados da Pesquisa, obtidos com ATLAS-ti, 2018.
4.3 Formação das Unidades de Significado
Após a identificação das unidades de registro, foi possível realizar a formação das
Unidades de Significado por meio do agrupamento das Unidades de Registro. O critério
utilizado para o agrupamento foi a similaridade de significado das unidades de registro, levando
o contexto em consideração. As Unidades de Registro que foram agrupadas e deram origem às
Unidades de Significado estão disponíveis no Apêndice III.
4.4 Formação das Categorias e Inferência dos resultados
Após a identificação das Unidades de Significado, foi possível realizar um novo
agrupamento, também com base na similaridade e dar origem às cinco categorias apresentadas
no Quadro 8, representando os elementos centrais dos achados nas entrevistas realizadas.
52
Quadro 8: Formação das Categorias
CT Categoria US Unidade de Significado
CT01 As principais dimensões do Big Data nas Etapas
da Inteligência Competitiva
US01 Variedade dos dados
US02 Velocidade dos dados
US03 Volume dos dados
CT02 Conjunto tecnológico de Big Data nas empresas
US04 Fluxo dos dados
US05 Cloud Computing
US06 Ferramentas
CT03 Relações entre o ciclo da Inteligência Competitiva
e o fluxo de dados do Big Data
US07 Áreas que consomem BD/IC
US08 Estrutura organizacional
US09 Planejamento do ciclo
US10 Preparação dos dados
CT04 Engajamento das empresas na adoção de Big
Data
US11 Conhecimento sobre o potencial do
Big Data
US12 Data-Driven
US13 Engajamento
CT05 Casos de uso do conjunto tecnológico de Big
Data
US14 Casos de uso
US15 Resultados dos projetos de Big Data
Fonte: Elaborado pelo autor, 2018.
A seguir, apresenta-se a análise das categorias geradas por meio do conteúdo das
entrevistas, em face ao referencial teórico apresentado na sessão 2.
4.4.1 CT01 - As principais dimensões do Big Data nas Etapas da Inteligência
Competitiva
A categoria CT01 - As principais dimensões do Big Data nas Etapas da Inteligência
Competitiva foi formada pelas unidade de significado indicadas na Figura 20 e busca
identificar e avaliar a relação entre as principais dimensões do Big Data com as etapas do ciclo
da Inteligência Competitiva que deram origem ao Modelo Conceitual proposto na Figura 9.
Figura 20: Unidades de Significado da CT01 - As principais dimensões do Big Data nas Etapas
da Inteligência Competitiva
Fonte: Dados da Pesquisa, obtidos com ATLAS-ti, 2018.
53
Ficou evidente que, em todas as entrevistas, os respondentes possuem claro
entendimento sobre Big Data e suas dimensões. Assim, foram capazes de elucidar, com
exemplos, o atual estágio de suas empresas e seu entendimento de como as dimensões do Big
Data podem afetar a Coleta, a Análise e a Disseminação de informação relevante dentro de suas
organizações.
Para Laney (2001), a Variedade dos dados é a combinação de dados com diferentes
origens, tipos e estruturas. Essa dimensão do Big Data foi identificada em todas empresas que
fizeram parte dessa entrevista nas etapas de Coleta e Análise de dados no ciclo da Inteligência
Competitiva. A seguir, apresentam-se os trechos das entrevistas que remetem esse
entendimento.
E1: “[...] em nossa empresa temos muitos tipos diferentes de informação, então as
variáveis ficam em uma quantidade grande, exemplo, hoje a gente usa muitos dados
meteorológicos coletados nas estações meteorológicas que ficam nas florestas. Visto
que a base meteorológica do Brasil como um todo, a pública, é muito pobre para esse
tipo de análise. [...] executamos alguns projetos com ferramentas de Web Crawler
para captar dados semiestruturados da internet, levamos para área de comunicação
para ver se isso não tinha valor para falar sobre a marca, levamos para área de
relacionamento com investidores para ver se não tinha valor também para eles para
falar também da marca e, também, levamos para área de Inteligência Competitiva que
hoje utiliza essas análises”
E2: “[...] estamos iniciando projetos com “tagueamento” de site, vamos coletar
cookies, cliques das pessoas no site, e está no nosso roadmap coletar dados de redes
sociais para algumas iniciativas que hoje não estamos coletando”
E3: “[...] já temos iniciativas em que estamos buscando dados das redes sociais para
identificar as preferências de nossos clientes e assim criar o que estamos chamando
de personas”
E4: “Hoje a gente coleta informações de parte de transação bancária, a parte de falha
dessas transações, parte de campanhas publicitárias e, também, de navegação dentro
do nosso site. [...] as informações hoje que são core da empresa que é parte de
transação elas são informações em texto, arquivo de texto que são gerados através do
Mainframe. Já é isso informação batch, já as informações que hoje vem online que é
na hora que passa na “bilhetadora” que faz a transação, ela vem em arquivo JSON que
é semiestruturado. Agora uma outra coisa que a gente está querendo pegar é arquivo
de rede social, de Twiter, etc. arquivo do Google Analytics a gente já pega e, também,
vem semiestruturado.
Os trechos acima demonstram a diversidade nas fontes de dados presentes na dimensão
Variedade, entretanto, vale ressaltar que os tipos de dados mencionados pelos entrevistados
são categorizados como dados semiestruturados que, de acordo com Marquesone (2017), são
dados que possuem uma estrutura predefinida, porém não com o mesmo rigor dos dados
relacionais. Essas estruturas são usadas normalmente apenas como um meio de marcação dos
dados, como é o caso dos arquivos no formato JSON (JavaScript Object Notation), mencionado
pelo entrevistado E4.
54
Ainda, de acordo com Laney (2001), a dimensão Velocidade do Big Data possibilita
a análise e o processamento de grandes volumes de dados também em tempo real. Essa
dimensão do Big Data também foi identificada em todas empresas que fizeram parte dessa
pesquisa. A dimensão foi detectada nas etapas de Coleta, Análise e Disseminação de dados
no ciclo da Inteligência Competitiva. Em prosseguimento, expõem-se os trechos das entrevistas
que abordam essa dimensão do Big Data.
E1: “Pensando em velocidade de processamento, hoje a gente usa o banco de dados
SAP HANA, ele atende a gente muito bem com alta velocidade. Eu acho até, na
verdade, não precisaria ter uma base tão cara, para maioria das coisas que a gente faz,
streaming por exemplo”
E2: “[...] no nosso processo é preciso velocidade para algumas das iniciativas e nesse
ponto acho que estamos tendo sucesso, nosso cluster é bastante potente e com ele
temos iniciativas inclusive com streaming”
E3: “Aqui é relativo, temos sim projetos em tempo real, mas para alguns casos não
adianta eu ter dados em tempo real para relacionar com dados que não são em tempo
real, então acabo tendo que trabalhar o dado para fazer sentido de análise”
E4: “[...] algumas informações têm que ser na hora. Por exemplo: informações de
queda de sistemas e o motivo, tem que ser real time, é realmente importante e faz parte
da área de Big Data por causa da análise do motivo, mas algumas informações de
vendas podem ter atraso de um dia. Outros casos, por exemplo: campanhas, a
velocidade tem que ser o mais online possível, com isso eles podem ajustar a estratégia
para atingir e impactar o cliente na hora, saber se está sendo efetivo ou não, e aí podem
fazer algum tipo de manobra, e não gastar todo o budget em algo com pouso
resultado”
Diferentemente das outras dimensões do Big Data, a dimensão Volume não foi
confirmada em todas as empresas que fizeram parte dessa pesquisa. Para tanto, nem na
Entrevista 1 e nem na Entrevista 2 foi detectada a dimensão Volume do Big Data.
E1: “[...] dentro da indústria, as informações não são geradas num volume muito
grande, então mesmo quando eu começo falar de nosso processo industrial, nosso
processo florestal, tem um volume significativo de informações, mas que pode ser
coletado e processado pelas outras tecnologias que temos aqui”
E2: “[...] até agora não tem volume considerado Big Data. O que se considera Big
Data no nosso ambiente é a variedade e a velocidade dos dados”
Entretanto, na Entrevista 2 e na Entrevista 4, a dimensão Volume foi detectada também
para as etapas de Coleta e Análise de dados no ciclo da Inteligência Competitiva.
E3: “Em nosso processo temos extração e manipulação de dados de bases
absurdamente grandes, quando eu falo só do estado de São Paulo e Rio em tráfego de
dados gerados por celulares, estamos falando de 800 gigabytes dia no setor e essa é
só uma das minhas fontes”
55
E4: “Nos nossos projetos, temos um por exemplo em que coletamos e processamos
uma quantidade muito massiva de logs das “maquininhas”, com o ferramental
tradicional que tinha aqui não era possível fazer nada disso”
Nas falas dos entrevistados, quando eles descrevem o processo, relacionam
características das etapas do ciclo da Inteligência Competitiva e, nessas etapas, quando
descrevem a complexidade dos dados, relacionam as características das dimensões do Big Data.
Dessa forma, os dados coletados confirmam o Modelo Conceitual proposto na Figura
9 que relaciona as etapas de Coleta e Análise de dados com as dimensões Variedade,
Velocidade e Volume do Big Data e indicam também a confirmação do modelo para a
dimensão Velocidade na etapa de Disseminação do ciclo da Inteligência Competitiva.
4.4.2 CT02 - Conjunto tecnológico de Big Data nas empresas
A categoria CT02 - Conjunto tecnológico de Big Data nas empresas foi formada pelas
unidades de significado indicadas na Figura 21 e tem por finalidade identificar o conjunto
tecnológico que suporta o fluxo dos dados do Big Data utilizado nas etapas do ciclo da
Inteligência Competitiva.
Figura 21: Unidades de Significado da CT02 - Conjunto tecnológico de Big Data nas empresas
Fonte: Dados da Pesquisa, obtidos com ATLAS-ti, 2018.
A Figura 15 demonstra a relação e a aderência entre a Coleta de dados da Inteligência
Competitiva com a Coleta de dados do Big Data, as etapas de Armazenamento e
Processamento do Big Data com a etapa de Análise da Inteligência Competitiva e, por fim, a
etapa de Visualização do Big Data com a etapa de Disseminação da Inteligência Competitiva.
Essa relação também foi confirmada pelos dados coletados nas entrevistas.
Todos os entrevistados descreveram o macrofluxo de dados do Big Data aderente ao
ciclo da Inteligência Competitiva em suas organizações aderentes à macroestrutura apresentada
na Figura 15. Na sequência, evidenciam-se os trechos das falas que sustentam esse
entendimento.
56
E1: “[...] a gente tem um outro ambiente SAP HANA separado dos outros projetos
que não são de Big Data. Nesse ambiente, armazenamos dados através de Data
Sources do ERP da SAP, esse banco HANA é voltado à análise de Big Data por ser
colunar e in-memory. Criamos as tabelas analíticas para armazenar e como base para
os modelos de análise, então a partir dessas tabelas analíticas os dados são consumidos
pela camada de visualização”
E2: “[...] temos um data warehouse no BigQuery do Google que fazemos de sistema
de arquivos para armazenamento de grandes volumes de dados. Depois disso,
coletamos os arquivos que estão em JSON para formar uma tabela no BigQuery e
então realizar o processamento. Fazemos isso também para pegar streaming e registro
de cliques. Depois dessa análise, a informação já fica disponível para consumo dos
usuários”
E3: “Usando o Kafka para justamente fazer a coleta de dados, gravamos esses dados
num banco de dados colunar e com o Spark fazemos o processamento, os dados
processados gravamos em outro banco com o dado já agregado que é puxado para os
relatórios e gráficos’
A Figura 10 apresenta os subprojetos e ferramentas geradas a partir da evolução do
ecossistema Hadoop no decorrer dos anos de 2006 e 2015, no último ano do mapeamento foram
apresentadas 13 ferramentas, das 13 ferramentas, os entrevistados citaram 8 (62% do total),
conforme apresentado no Quadro 9.
Quadro 9: Ferramentas apresentadas no referencial teórico.
Ferramentas apresentadas Citação nas entrevistas
Spark Sim
Impala Sim
Kafka Sim
Flume Sim
Oozie Não
Sqoop Sim
Avro Não
Hive Sim
Pig Não
Mahout Não
Hbase Sim
ZooKeeper Não
HDFS, MR, YARN Sim
Fonte: Dados da Pesquisa, 2018.
Foi realizado também o mapeamento de todos os projetos e ferramentas que possuem
relação com o Big Data citados pelos entrevistados em suas respostas. Essa relação é
apresentada no Quadro 10, junto com uma breve descrição.
57
Quadro 10: Mapeamento das Ferramentas citadas pelos entrevistados Ferramentas mapeadas
nas entrevistas Descrição
Apache Software
Foundation
A Apache Software Foundation, também conhecida apenas como Apache, é uma
comunidade descentralizada de desenvolvedores de software, uma organização
sem fins lucrativos criada para suportar os projetos de código aberto,
principalmente os Apache.
Azure O Microsoft Azure é uma coleção de serviços de nuvem para criar, implantar e
gerenciar aplicativos.
BigQuery O BigQuery é um serviço de data warehouse empresarial de baixo custo e altamente
escalonável.
Blob Storage
O Blob Storage faz parte da coleção da Azure e serve para armazenar todos os tipos
de arquivo. O armazenamento quente, frio e arquivo morto do Azure é um
armazenamento de objeto em nuvem confiável para dados não estruturados.
BlueMix BlueMix é uma gama de produtos e serviços de nuvem. Permite que as organizações
e os desenvolvedores criem, implementem e gerenciem aplicativos na nuvem.
Cassandra
É um tipo de banco nosql (termo usado para descrever bancos de dados não
relacionais de alto desempenho.) que originalmente foi criado pelo Facebook e que
atualmente é mantido pela Apache e outras empresas. Ele é um sistema de banco
de dados distribuído baseado no modelo BigTable do Google e no sistema de
armazenamento Dynamo da Amazon.com.
Flume
O Apache Flume é um serviço distribuído, confiável e disponível para coletar,
agregar e mover de modo eficiente grandes quantidades de dados de eventos de
fluxo.
Hadoop
Hadoop é uma plataforma de software para computação distribuída voltada para
clusters e processamento de grandes volumes de dados, com atenção à tolerância a
falhas. Foi inspirada no MapReduce e no GoogleFS (GFS).
Hbase O Apache HBase é um datastore de big data altamente escalável e distribuído no
ecossistema do Apache Hadoop.
HDFS
O HDFS é um projeto da Apache Software Foundation e um subprojeto do projeto
Apache Hadoop. É um sistema de armazenamento utilizado para armazenar
grandes quantidades de dados, do porte de terabytes e pentabytes.
Hive
O Apache Hive, criado no Facebook, é um sistema de armazenamento de dados
para Hadoop que facilita a soma simples de dados, queries ad-hoc e a análise de
grandes bancos de dados armazenados em sistemas de arquivos compatíveis com
Hadoop.
Kafka
O Apache Kafka é uma plataforma de transmissão de dados distribuída, semelhante
a uma fila de mensagens ou um sistema de mensagens corporativo. Foi
desenvolvido para providenciar em tempo real um fluxo de dados com baixa
latência e uma alta taxa de transferência
Microsoft Power BI Utilizado para geração de relatórios dinâmicos e interativos no Desktop dos
usuários
58
Ferramentas mapeadas
nas entrevistas Descrição
MongoDB
O MongoDB é um banco de dados orientado a documentos de alta performance,
open source e schema-free, escrito em C++. Ele é uma mistura entre os repositórios
escaláveis baseados em chave/valor e a tradicional riqueza de funcionalidades dos
bancos relacionais.
Python
Python é uma linguagem de programação de alto nível, interpretada, de script,
imperativa, orientada a objetos, funcional, de tipagem dinâmica e forte amplamente
utilizada em algoritmos para grandes volumes de dados
Rstudio RStudio é um software livre de ambiente de desenvolvimento integrado para a
linguagem de programação R com foco em gráficos e cálculos estatísticos.
SAP HANA
O SAP HANA é uma plataforma de computação in-memory que pode ser
implementada on-premise ou em nuvem e permite acelerar a criação de
desenvolvimento de processos e fluxo de dados.
SAP Lumira
SAP Lumira é utilizado para criar infográficos e visualizações que permitam
analisar os dados rapidamente diretamente no Desktop do usuário combinando
diferentes fontes de dados.
SAP Predictive Analytics Ferramenta para criar e implantar modelos preditivos que também roda diretamente
no Desktop do usuário.
Spark
O Apache Spark é um framework de Big Data construído para ser veloz, fácil de
usar e com análises sofisticadas. Amplamente utilizado em arquiteturas de Big
Data.
Sqoop
O Apache Sqoop é uma ferramenta que tem o propósito de fazer ingestão de dados,
seu foco é em transferir dados entre o Hadoop e bancos de dados relacionais ou
mainframes.
Suite SAP Business
Objects
O SAP Business Objects é um conjunto de ferramenta com foco em visualização
de dados da empresa SAP.
Tableau O Tableau Desktop é um aplicativo de visualização e exploração de dados
amplamente difundido e utilizado para visualização de dados
Teradata
Produtos da empresa Teradata possuem como principal característica a capacidade
de processar, trafegar e armazenar grandes volumes de dados de diferentes origens
e disponibilizá-los para análises estratégicas.
Fonte: Dados da Pesquisa, 2018.
Em prosseguimento, um trecho de fala do entrevistado E4, descrevendo a utilização de
algumas das ferramentas mencionadas no Quadro 10.
E4: “[...] para os dados online foram utilizados vários componentes, usamos o Flume
e o Kafka para a ingestão dos dados, usamos o Spark para fazer enriquecimento dos
dados e depois a gente disponibilizou os resultados dentro do Hbase. Para
visualização dos dados os usuários estão usando o Power BI”
Nesse contexto, foi identificada a ampla utilização de plataformas e ferramentas de
Cloud Computing como a Azure e o BlueMix, conforme declarou o entrevistado E2.
59
E2: “Ninguém mais está construindo ambientes locais de Big Data. É muito difícil
você ter projeto feito desde a instalação do o cluster, comprar as máquinas, fazer a
manutenção e gestão, e sempre que precisa de mais máquina é preciso realizar um
projeto. Utilizar uma plataforma na nuvem faz o ambiente muito mais prático e
escalável”
Segundo Marquesone (2017), por meio da oferta de recursos computacionais como
capacidade de processamento, armazenamento e rede sob demanda, a computação em nuvem
tem sido uma grande aliada para a criação de soluções de Big Data. Sua utilização oferece
benefícios como elasticidade (aumento ou diminuição de recursos), qualidade de serviço, que
somada à redução de custo leva ao aumento da eficiência. Diversas empresas estão
aproveitando o potencial da computação em nuvem para hospedar suas soluções de Big Data.
Todos os entrevistados possuem pelo menos parte de seu ecossistema hospedado em
plataformas que oferecem esse tipo de serviço.
4.4.3 CT03 - Relações entre o ciclo da Inteligência Competitiva e o fluxo de dados do Big
Data
A categoria CT03 - Relações entre o ciclo da Inteligência Competitiva e o fluxo de
dados do Big Data foi formada pelas unidades de significado, indicadas na Figura 22, e busca
verificar se existe relação entre o ciclo da Inteligência Competitiva e o fluxo de dados do Big
Data identificados nas organizações que fizeram parte dessa pesquisa.
Figura 22: Unidades de Significado da CT03 - Relações entre o ciclo da Inteligência
Competitiva e o fluxo de dados do Big Data
Fonte: Dados da Pesquisa, obtidos com ATLAS-ti, 2018.
Observa-se que o ciclo da Inteligência Competitiva existe de maneira independente da
utilização do Big Data nas organizações. Nas empresas que fizeram parte dessa pesquisa, parte
das análises eram direcionadas para área de Business Intelligence ou ao departamento de TI que
utilizava as ferramentas disponíveis no momento para atender as demandas das áreas de
negócios.
Com o avanço tecnológicos dos últimos anos, neste momento, todas as empresas
analisadas nessa pesquisa possuem áreas internas específicas para executar o ciclo da
60
Inteligência Competitiva também quando se trata de Big Data, o que é determinado de acordo
com o enquadramento das três principais dimensões do Big Data no fluxo dos dados a serem
analisados.
E4: “[...] temos algumas áreas que consomem Big Data por exemplo: área comercial,
área de blindagem para retenção dos atuais clientes e o Marketing. Dependendo da
necessidade, se tem grande volume, um tipo de dado diferente ou a velocidade da
informação é importante, acaba vindo para minha área fazer o processo desde
entendimento com o usuário, criação de um novo fluxo de dados ou aproveitar um já
existente até a entrega final”
Na fala do entrevistado E4, pôde-se observar que a área a qual ele é o responsável é
acionada quando há uma demanda em que as tecnologias convencionais não são capazes
coletar, armazenar ou processar os dados devido sua complexidade, seja esta do ponto de vista
de Volume e Variedade ou necessidade de alta Velocidade na entrega dos resultados finais.
Para Fuld (2007), o ciclo da Inteligência Competitiva pode produzir e processar
informações sobre o ambiente de uma organização para propósitos estratégicos. Para as
iniciativas de Big Data, notou-se que esse ciclo é processo central dos projetos que são
realizados nas empresas que precisam de tecnologias capazes de trabalhar com as dimensões
do Big Data.
Esse conjunto tecnológico é responsável por sustentar esses projetos, mais uma vez
reforçando a relação entre o Ciclo da Inteligência Competitiva com o macrofluxo de dados do
Big Data, apresentados na Figura 15.
A seguir, explanam-se trechos das falas dos entrevistados que suportam esse
entendimento.
E3: “[...] os fluxos de dados, no geral são criados por projeto. Cada projeto inicia com
uma conversa com o usuário ou alinhamento interno da equipe de Big Data [...], se
for enquadrado como Big Data, quando o fluxo de dados inicia, a coleta, não tem um
lugar centralizado. Na medida que os projetos são criados, vão sendo criadas as
arquiteturas dentro do ambiente Cloud. Essa é a forma que a gente está trabalhando
hoje. No cloud criamos camadas de coleta, ou aquisição, outra camada analítica para
processamento e uma camada de visualização para entregar as informações”
E4: “Quando começamos um projeto, a coleta, processamento e armazenamento,
fazemos a ingestão dos dados para dentro do banco Oracle para dados menores. Já no
Big Data dependendo do tipo da informação e da frequência a gente usa o Sqoop que
coleta de um outro banco de dados, faz a ingestão, joga para o Hive, no Hive fazemos
a modelagem, enriquecimento e processamento da informação e depois disso a gente
disponibiliza a informação no Apache Impala para consumo das ferramentas de
visualização.
Os entrevistados E3 e E4 descrevem que, assim como o ciclo da Inteligência
Competitiva, quando se trata de Big Data, seus projetos iniciam com o planejamento, em que
ocorre o entendimento das necessidades, uma vez que esse planejamento é concluído, por meio
61
do conjunto tecnológico do Big Data e são gerados fluxos de dados para coleta,
armazenamento, processamento e disseminação das informações demandadas pelas áreas de
negócios, assim como proposto na Figura 15.
4.4.4 CT04 - Engajamento das empresas na adoção de Big Data
A categoria CT04 - Engajamento das empresas na adoção de Big Data foi formada
pelas unidades de significado indicadas na Figura 23. Essa é uma categoria emergente, que
embora não seja objeto deste estudo, ajuda no entendimento sobre a importância da difusão do
conceito de técnicas de análise e utilização de dados pelas organizações.
Figura 23: Unidades de Significado da CT04 - Engajamento das empresas na adoção de Big
Data
Fonte: Dados da Pesquisa, obtidos com ATLAS-ti, 2018.
Atualmente, muitas organizações estão coletando, armazenando e analisando grandes
quantidades de dados. Esses dados são comumente chamados de Big Data por causa de suas
dimensões. Esse conjunto tecnológico está criando uma nova geração de gerenciamento de
dados de suporte à decisão (WATSON, 2014).
Em todas as entrevistas, os respondentes enfatizaram a importância do engajamento e
do nível de conhecimento sobre o potencial do Big Data das demais áreas de suas empresas. O
entrevistado E1 comenta a importância do apoio dos executivos de sua organização.
E1: “[...] o pessoal, pelo menos dentro de nossa empresa, eles têm recebido muito bem
os resultados sobre do Big Data. O nosso presidente mesmo é um entusiasta dessas
iniciativas, o nosso vice-presidente também é um entusiasta desse tipo de tecnologia,
e a gente percebe que esse apoio da alta gestão faz com que as pessoas cada vez mais
entendam e confiem nessa tecnologia que traz grandes resultados para empresa”
O entrevistado E2 comenta, em sua fala, sobre a importância do usuário final saber os
potenciais do Big Data, pois os projetos de Big Data começam na etapa de planejamento do
ciclo da Inteligência Competitiva e, nessa etapa, geralmente os analistas de Big Data fazem o
entendimento da necessidade do usuário.
62
E2: “O que acontece é que a maturidade de usuário final influencia em todo o
processo, pois o planejamento da necessidade é feito com ele. No começo, alguns
usuários achavam que o Big Data só poderia ser usado para acelerar a informação e
ignorava o resto por não saber do potencial. Fizemos um trabalho de “evangelização”
e hoje os projetos estão mais maduros assim como os usuários”
Também foi identificado que as empresas estão em um processo de amadurecimento,
pois, quando as iniciativas de Big Data iniciaram, o foco era entregar resultados rápidos, porém,
muitos desses projetos não são reaproveitados, os fluxos dos dados são desenvolvidos sem
pensar nos novos projetos, assim como todos os processos das empresas não foram definidos,
pensando nos dados que poderiam ser aproveitados para análises futuras.
E1: “[...] a gente começou já querendo aprender a como entregar resultados falando
de Big Data. Então a gente começou querendo vincular isso ao negócio. Tem os
pontos positivos e negativos. Porque estávamos focados em entregar projetos fazendo
análise preditiva, fazendo análise dos dados e a gente nunca tinha focado até agora
em melhorar a nossa coleta e qualidade dos dados. Hoje estamos em busca de se
estruturar para que os processos da empresa sejam Data Driven, ou seja, queremos
que pensar a empresa olhando para os dados.
De acordo com Sorescu (2017), os modelos de negócios não devem ser projetados
apenas sobre a ótica de inovação de produtos, as empresas com o olhar Data Driven podem ser
projetadas em torno de um processo de coleta, organização e sumarização de dados externos.
Com o objetivo de simplificar o processo de pesquisa de mercado e aumentar a
probabilidade de identificar uma necessidade não satisfeita do consumidor, as empresas devem
ser projetadas, pensando no uso de seus dados, devem ser projetadas em torno de um processo
de coleta, organização e resumo também de dados internos, com o objetivo de melhorar os
processos decisórios (SORESCU, 2017).
E1: “Então, para que eu possa falar de um processo, eu devo pensar nos dados que
esse processo vai gerar. Eu preciso pensar como coletar esse dado para ele virar uma
fonte rica de informações para em seguida eu extrair análises dela. Então assim,
pensando em dados, pensando em ser voltado à análise desses dados [...] como nunca
tivemos essa cultura Data Driven, hoje a gente sente um impacto disso, então os
dados, os projetos, eles são conduzidos de uma forma sem muito direcionamento com
as informações, sem pensar em como utilizar elas no futuro”
O conceito de uma empresa Data Driven também é compartilhado por alguns dos
entrevistados que entendem que o ideal seria que desde o início da formulação dos processos e
até mesmo da concepção do modelo de negócios, as decisões deveriam ser pensadas visando a
como estruturar e aproveitar os dados gerados.
63
4.4.5 CT05 - Casos de uso do conjunto tecnológico de Big Data
A categoria CT05 - Casos de uso do conjunto tecnológico de Big Data foi formada
pelas unidades de significado indicadas na Figura 24 e busca demonstrar alguns casos descritos
pelos entrevistados em que o Big Data foi utilizado e que tiveram como processo central o ciclo
da Inteligência Competitiva.
Figura 24: Unidades de Significado da CT05 - Casos de uso do conjunto tecnológico de Big
Data
Fonte: Dados da Pesquisa, obtidos com ATLAS-ti, 2018.
O entrevistado E1 descreveu um projeto investigativo que foi realizado para entender
um distúrbio no crescimento de arvores que são utilizadas no processo de produção de celulose
em sua organização.
Com a utilização dos métodos e ferramentas de Big Data, foram desenvolvidos alguns
fluxos de dados e algoritmos estatísticos voltados para o estudo fisiológico das florestas que
fazem parte do processo produtivo da empresa e, com isso, a intenção era compreender a origem
do distúrbio nas árvores. Esse foi o primeiro projeto de Big Data na organização e entregou um
resultado satisfatório. A análise dos dados permitiu identificar a origem do problema e, assim,
inferir a tomada de ações preventivas, eliminando esse mesmo tipo de distúrbio nas novas
árvores que são cultivadas.
E1: “[...] foi feito um estudo fisiológico, o fenômeno que ocorria em algumas partes
das nossas florestas, que você via que a nossa árvore estava crescendo com um
distúrbio que afetava a produção de celulose. Então fomos estudar o que poderia estar
gerando aquele tipo de distúrbio utilizando Big Data. Esse projeto entregou um baita
resultado. Não temos mais esse tipo de distúrbio, as novas árvores que têm nascido,
não possuem esse tipo de problema pelas ações resultantes desse estudo”
O entrevistado E3 descreveu a utilização das tecnologias que compõem o ecossistema
de Big Data para processar dados de geolocalização e perfil dos clientes de telefonia móvel,
que, por sua vez, são associados aos dados do público-alvo definido por anunciantes. Dessa
maneira, os usuários recebem, em seus dispositivos móveis, ofertas de produtos ou serviços
com base em sua geolocalização e perfil.
64
Esse novo produto gerou uma nova fonte de renda antes não explorada por falta de
capacidade computacional para processar em tempo real o grande volume de dados necessários
para obter tais resultados.
E3: [...] o Anúncio baseado em geolocalização, no começo chamávamos de smart-
steps, então, por exemplo: Um cliente está passando por perto de uma loja de um de
nossos anunciantes e os anúncios desse anunciante têm aderência com o perfil desse
cliente que nós já mapeamos anteriormente, esse cliente pode receber um punch em
seu celular com o Anúncio bem assertivo. Isso nos trouxe uma nova fonte de renda na
época”.
O entrevistado E4 descreveu um projeto que tinha por objetivo principal fazer uma
análise de falhas em processos que poderiam acarretar em perdas financeiras, dado o grande
volume de transações diárias que sua empresa executa. Esse grande volume de transações gera
um grande volume de dados a serem analisados.
Durante o processamento e análise dos dados, foi descoberto que 0,3% das operações
que eram negadas nas máquinas de processamento de cartões geravam um grande custo para
sua organização. Esse projeto se aprofundou para entender as causas dessas falhas que geravam
esse custo e descobriram que parte dessas falhas poderiam ser prevenidas por meio de ações
preventivas.
E4: [...] realizamos algumas análises dos dados estruturados e semiestruturados dos
logs das maquinas e descobrimos que 0,3% das transações eram negadas, isso gerava
o custo de alguns milhões de reais por ano. Realizamos mais análises e descobrimos
que esses erros eram simples e aconteciam no momento da transação do cliente. A
transação havia sido negada ou por falha de conexão ou simplesmente pelo tipo de
cartão ou bandeira, por exemplo um vale-refeição não habilitado no equipamento.
Conseguimos tomar ações de prevenção, e economia foi gigantesca, na casa dos
milhões por ano”.
Com base na análise das categorias, foi elaborado o Quadro 11 que indica qual objetivo
específico corresponde a qual categoria.
65
Quadro 11: Objetivos específicos e Categorias
Objetivos Específicos Categoria
01) Avaliar as possíveis relações entre as dimensões do
Big Data com as etapas do Ciclo da Inteligência
Competitiva.
CT01 - As principais dimensões do Big Data nas
Etapas da Inteligência Competitiva.
02) Verificar se existe relação entre o ciclo da
Inteligência Competitiva e o fluxo de dados do Big
Data.
CT03 - Relações entre o ciclo da Inteligência
Competitiva e o fluxo de dados do Big Data.
03) Identificar os Resultados dos projetos de Big Data
relatados do uso do Big Data na Inteligência
Competitiva.
CT05 - Casos de uso do conjunto tecnológico de
Big Data.
04) Identificar as tecnologias envolvidas no cenário de
exponencial crescimento da volumetria de dados (Big
Data) na Inteligência Competitiva.
CT02 - Conjunto tecnológico de Big Data nas
empresas.
Categoria Emergente CT04 - Engajamento das empresas na adoção de
Big Data.
Fonte: Elaborado pelo autor, 2018.
Ao final da análise e da interpretação dos resultados, elaborou-se um esquema com a
finalidade de relacionar as cinco categorias formadas na pesquisa.
Na Figura 25, apresenta-se o relacionamento entre essas categorias.
Para facilitar o entendimento, foram utilizadas setas com pontas triangulares e
arredondadas: as com pontas triangulares representam a relação de causa e efeito
(dependência) entre as categorias que estão interligadas; as com pontas arredondadas
representam apenas uma relação temporal.
Vale ressaltar que o esquema proposto na Figura 25 representa uma possibilidade de
relação, e que essa relação pode vir a ser testada e contestada em futuras pesquisas.
66
Figura 25: Relação das Categorias
Fonte: Elaborado pelo autor, 2018.
A Figura 25 indica que o engajamento das empresas na adoção do Big Data faz com
que as organizações busquem maneiras eficientes para coletar, armazenar, processar e
analisar volumes massivos de dados com diferentes estruturas, formatos e origens em alta
velocidade.
As empresas que implementaram o conjunto tecnológico (CT02), caracterizado como
Big Data, apresentam possibilidade de que os resultados obtidos (CT05), por meio do
conjunto tecnológico, gere mais engajamento sobre esse tipo de tecnologia (CT04) e esse
engajamento, por sua vez, gere mais casos de uso e resultados (CT05). Assim, esses
resultados dependem do conjunto tecnológico do Big Data (CT02).
Dessa forma, o conjunto tecnológico não depende das outras categorias, entretanto,
todas as outras categorias dependem diretamente do conjunto tecnológico. As principais
dimensões do Big Data, nas etapas da Inteligência Competitiva (CT01), são dependentes
tanto do conjunto tecnológico (CT02) quanto dos casos de uso (CT05).
A relação entre o ciclo da Inteligência Competitiva e o fluxo de dados do Big Data
(CT03) depende diretamente do conjunto tecnológico (CT02), porém há apenas uma
dependência temporal do engajamento das empresas na adoção de Big Data (CT04), visto
que há iniciativas de Big Data que não necessariamente precisam do ciclo da Inteligência
Competitiva. Para tanto, um exemplo seria o simples armazenamento de dados que tende a
ter um custo mais baixo com a utilização desse tipo de conjunto tecnológico.
67
5 CONSIDERAÇÕES FINAIS
Esta pesquisa foi realizada com o propósito de responder à seguinte questão de pesquisa:
A Utilização do Big Data Influencia no Ciclo da Inteligência Competitiva? Com o objetivo
de responder essa questão, optou-se por adotar uma pesquisa qualitativa de caráter descritivo e
exploratório.
Os resultados obtidos indicam que as empresas participantes da pesquisa possuem
projetos, iniciativas, equipes, tecnologia, e as principais dimensões que fazem parte do
ecossistema do Big Data.
Na maioria dos projetos e iniciativas, ou pelo menos naqueles que buscam analisar
dados para conduzir o tomador de decisão a agir antecipadamente, ou ser mais assertivo em
suas decisões, foi observada a presença de todas as etapas do ciclo da Inteligência Competitiva
com destaque para as etapas de Coleta e Análise, as quais concentram todas as principais
dimensões do Big Data.
Os resultados também indicam que há influência nos resultados obtidos pela
Inteligência Competitiva com a utilização do Big Data.
Vale ressaltar que a maior parte das iniciativas e projetos que envolvem o paradigma do
Big Data não possuem todas as principais dimensões: Volume, Velocidade e Variedade.
Dessa forma, a definição do que é ou não Big Data, do ponto de vista teórico, merece ser
explorada em pesquisas futuras. Com base na análise dos dados, é possível inferir que, mesmo
em projetos que não possuem todas as dimensões, não seria possível alcançar seus resultados
sem as técnicas, metodologias e conjunto tecnológico que suportaram ao menos duas das três
principais dimensões.
Um exemplo seria a coleta, processamento e disseminação de dados em tempo real de
uma campanha de Marketing em redes sociais. Para atender um cenário como esse, é preciso
alta Velocidade e Variedade dos dados, não sendo necessária a coleta e os processamentos de
grandes Volumes de dados.
O estudo bibliométrico empregado no início da pesquisa demonstrou que publicações
que abordam a temática da Inteligência Competitiva ganharam força entre a década de 90 e
anos 2000, na medida que seu conceito se consolidou e suas atividades foram se tornando cada
vez mais intuitivas. Entretanto, com o aumento do volume de dados disponíveis e os avanços
tecnológicos dos últimos anos, o Big Data trouxe uma mudança expressiva para todo esse
contexto. A possibilidade de se coletar volumes massivos de dados, com diferentes fontes e
68
estruturas e em tempo real, mostrou que decisões estratégicas se tornassem mais rápidas e
assertivas.
O estudo bibliométrico também demonstrou a escassez de estudos que buscam explicar
ou descrever os efeitos entre Inteligência Competitiva e os métodos e ferramentas que compõem
o ecossistema do Big Data.
Uma das contribuições dessa pesquisa está ligada ao estudo de campo que buscou
preencher a lacuna da falta de estudos com investigação empírica, sob a ótica corporativa no
ambiente em que os fenômenos (Big Data e Inteligência Competitiva) ocorrem e se
influenciam. Com base nisso, os entrevistados foram selecionados com o objetivo de
propiciarem a coleta de dados em empresas que possuem Big Data e a Inteligência Competitiva.
Essa pesquisa pode ser utilizada pela academia, pois trata de temas não difundidos
completamente no Brasil, e que estão em ascensão como exemplificado na lacuna de
“preenchida”. Pode ser utilizada pelo mercado como referência para profissionais que desejem
empreender com a utilização do conjunto tecnológico do Big Data, ou por empresas já
consolidadas que desejam implementar um conjunto tecnológico inovador com grande
potencial para organização.
Dessa maneira, esta pesquisa também pode ser de interesse para acadêmicos, gestores
de áreas técnicas ou de negócios, assim como analistas de áreas técnicas e também de negócios.
Entende-se que o primeiro objetivo específico (Avaliar as possíveis relações entre as
dimensões do Big Data com as etapas do Ciclo da Inteligência Competitiva) foi cumprido por
meio do Modelo Conceitual apresentado na Figura 9, que ilustra a relação teórica entre os
constructos. A Inteligência Competitiva é apresentada na perspectiva do ciclo proposto por
Miller (2002) e o Big Data é retratado por meio das dimensões empregadas no artigo seminal
de Laney (2001).
Nas falas dos entrevistados, quando eles descrevem o processo que utilizam, eles
relacionam características das etapas do ciclo da Inteligência Competitiva e, nessas etapas,
quando descrevem a complexidade dos dados, também relacionam as características das
dimensões do Big Data.
Dessa forma, os dados coletados confirmam o Modelo Conceitual proposto na Figura
9 que relaciona as etapas de Coleta e Análise de dados com as dimensões Variedade,
Velocidade e Volume do Big Data e indicam também a confirmação do modelo para a
dimensão Velocidade na etapa de Disseminação do ciclo da Inteligência Competitiva. Esse
modelo conceitual pode ser utilizado em pesquisas futuras que relacionem o constructo Big
Data com a Inteligência Estratégica Competitiva.
69
O segundo objetivo específico (Verificar se existe relação entre o ciclo da Inteligência
Competitiva e o fluxo de dados do Big Data) foi atingido. A Figura 15 que apresenta a relação
teórica entre o Ciclo da Inteligência Competitiva proposto por Miller (2002) com o Macrofluxo
de dados do Big Data, adaptado de Marquesone (2017), representa a relação e a aderência
teórica entre a Coleta de dados da Inteligência Competitiva com a Coleta de dados do Big
Data, as etapas de Armazenamento e Processamento com a etapa de Análise e, por fim, a
etapa de Visualização com a etapa de Disseminação. Assim como o Modelo Conceitual
apresentado na Figura 9, a análise dos dados coletados também confirma a relação apresentada
na Figura 15.
Os entrevistados descreveram o macrofluxo de dados do Big Data de suas empresas
aderente ao ciclo da Inteligência Competitiva apresentada na Figura 15. Seus projetos iniciam
com o planejamento, em que ocorre o entendimento das necessidades e, uma vez que esse
planejamento é concluído, por meio do conjunto tecnológico do Big Data, são gerados fluxos
de dados para coleta, armazenamento, processamento e disseminação das informações
demandadas pelas áreas de negócios assim como proposto na Figura 15.
Dessa forma, com o terceiro objetivo específico (Identificar os Resultados dos projetos
de Big Data relatados do uso do Big Data na Inteligência Competitiva), pôde-se verificar que
os resultados obtidos com os projetos e iniciativas de Big Data vão desde a geração de
conhecimento que pode trazer mais precisão ao processo produtivo sobre o estudo fisiológico
das florestas para compreender a origem do distúrbios em arvores, até projetos que realizam a
previsão de falhas em equipamentos, resultando na economia de grandes montantes financeiros
para uma determinada organização. Um projeto interessante foi a criação de uma nova fonte de
renda por meio de uma nova modalidade de anúncios direcionados por perfil e geolocalização
do público-alvo.
A análise dos dados coletados evidenciou que o conjunto tecnológico do Big Data pode
proporcionar resultados que dificilmente seriam ser obtidos com as tecnologias tradicionais e,
como foi descrito na categoria emergente CT04, os entrevistados relacionam o sucesso das
iniciativas e projetos que se utilizam do Big Data ao entendimento sobre a importância da
difusão do conceito de técnicas de análise e de utilização de dados pelas organizações. Os
entrevistados enfatizaram a importância do engajamento e nível de conhecimento sobre o
potencial do Big Data das demais áreas de suas empresas.
Outra questão importante verificada pelo estudo é processo de amadurecimento das
empresas quanto às iniciativas de Big Data. No início, o foco dos projetos era entregar
resultados rápidos, porém, muitos desses projetos não são reaproveitados, pois os fluxos dos
70
dados são desenvolvidos sem pensar nos novos projetos, assim como todos os processos das
empresas não foram definidos pensando nos dados que poderiam ser gerados e aproveitados
para análises futuras.
A fala dos entrevistados indica o interesse em tornar suas empresas em organizações
com uma visão Data Driven, ou seja, empresas que baseiam sua idealização voltada para os
dados desde o início da formulação dos processos e até mesmo a concepção do modelo de
negócios.
O quarto objetivo específico (Identificar as tecnologias envolvidas no cenário de
exponencial crescimento da volumetria de dados (Big Data na Inteligência Competitiva)
também foi alcançado. A Figura 10 apresenta os subprojetos e ferramentas geradas a partir da
evolução do ecossistema Hadoop no decorrer dos anos de 2006 e 2015, sendo que, no último
ano do mapeamento, foram apresentadas 13 ferramentas, dentre as quais os entrevistados
citaram 8 (62% do total), conforme apresentado no Quadro 9.
Foi realizado também o mapeamento de todos os projetos e ferramentas que possuem
relação com o Big Data citados pelos entrevistados em suas respostas. Essa relação é
apresentada no Quadro 10, junto com uma breve descrição de cada um dos itens.
Naturalmente, a pesquisa apresenta algumas limitações: os resultados aqui descritos são
típicos das empresas estudadas e não podem ser generalizados ou estendidos para outras
instituições, contudo, podem ser úteis para gestores de organizações que pretendem
compreender características e exemplos reais de acordo com o descrito pelos entrevistados.
Ao final deste estudo, recomenda-se que novas pesquisas sejam realizadas visando a
aumentar a amostra de entrevistados, o desenvolvimento de pesquisas em outras regiões do
país, a aplicação de outras técnicas qualitativas (grupos de foco, Delphi), ou técnicas
quantitativas, que possam testar o esquema da Figura 25 (relações das categorias).
71
REFERÊNCIAS1
ABRAIC. O que é Inteligência Competitiva?. Disponível em:
<http://www.abraic.org.br/inf.php?idAtual=1&idTela=25>. Acesso em: 2 nov. 2017.
AKERKAR, R. Big Data Computing. Sogndal: CRC Press, 2014.
AMATO, A.; DI MARTINO, B.; VENTICINQUE, S. Big Data Processing for Pervasive
Environment in Cloud Computing. International Conference on Intelligent Networking and
Collaborative Systems. New York, 2014.
BARDIN, L. Análise de Conteúdo. Lisboa; Ediçoe 70, 2011.
BAUER, M. W., & GASKELL, G. Pesquisa qualitativa com texto, imagem e som: um
manual prático. Editora Vozes, 2017.
BLASIAK, K. Big Data: A Management Revolution. Metropolia, 2014.
BOLEK, V. et al. Big Data as a Source of Competitive Intelligence. Proceedings of 8th Annual
International Scientific Conference. Czech Republic, 2016.
BONI, V.; QUARESMA, S. J. Aprendendo a entrevistar: como fazer entrevistas em Ciências
Sociais. Revista Eletrônica dos Pós-Graduandos em Sociologia Política da UFSC, v. 2, n.
13, p. 68–80, 2005.
BROWN, C. Rambus DSP eyes big data sets. Electronic Engineering Times, n. 836, p. 35, 20
fev. 1995.
CALOF, J. Competitive Intelligence and the Management Accountability Framework.
Optimum Online, v. 37, n. 4, p. 3, dez. 2007.
CAMPOS, F. R. (UNICAMP). A Gestão da Inovação em serviços intensivos em
conhecimento: oportunidades e desafios do Big Data. 2015.
CARON-FASAN, M.-L. Une méthode de gestion de l’attention aux signaux faibles. Systèmes
D’Information Et Management, v. Vol. 6, n. N° 4, p. 73 à 90, 2001.
CASS, T. A handler for big data. Science, v. 282, n. 5389, p. 636, 1998.
CHEN, H.; CHIANG, R. H. L.; STOREY, V. C. Business Intelligence and Analytics: from big
data to big impact. MIS Quarterly, v. 36, n. 4, p. 1165–1188, dez. 2012.
CISCO. Visual Networking Index. Forecast and Methodology update, 2015–2020. Growth
Lakeland, v. 2016, n. 4, p. 2010–2015, 2016.
__________. O tráfego mundial de dados móveis aumentará 7 vezes entre 2016 e 2021.
Disponível em: <https://www.cisco.com/c/pt_pt/about/press/news-archive-
2017/20170208.html>. Acesso em: 29 out. 2017.
CRESWELL, J. W. Projeto de pesquisa: métodos qualitativo, quantitativo e misto. Artmed,
2007.
CUKIER, K. Data, data, everywhere: a special report on managing information. Acesso
online, 2010. Disponível em: <http://www.economist.com/node/15557443>. Acesso em: 22
out. 2017.
__________; MAYER-SCHÖENBERGER, V. The Rise of Big Data How It’s Changing the
1 De acordo com a Associação Brasileira de Normas Técnicas (ABNT NBR 6023).
72
Way We Think About the World. Foreign Affairs, v. 92, n. 3, p. 28+, 2013.
DAVENPORT, T. H. How strategists use “big data” to support internal business decisions,
discovery and production. Strategy & Leadership, v. 42, n. 4, p. 45–50, 2014.
__________; BARTH, P.; BEAN, R. How Big Data Is Different. MIT Sloan Management
Review, v. 54, n. 1, p. 43–46, 2012.
DEMCHENKO, Y.; DE LAAT, C.; MEMBREY, P. Defining Architecture Components of the
Big Data Ecosystem. Proceedings of the International Conference on Collaboration
Technologies and Systems. New York, 2014.
DEMIRKAN, H.; DELEN, D. Leveraging the capabilities of service-oriented decision support
systems: Putting analytics and big data in cloud. Decision Support Systems, v. 55, n. 1, p. 412–
421, 2013.
DEMO, P. Metodologia do conhecimento científico.São Paulo: Atlas, p. 160–185, 2000.
DINESHKUMAR, P. et al. Big data Analytics of IoT based Health Care Monitoring System.
Uttar Pradesh Section International Conference on Electrical, Computer and Electronics
Engineering. New York, 2016.
DUMBILL, E. What is big data? - An introduction to the big data landscape. O’Reilly Media,
Inc, 2012.
FACEBOOK. Facebook Reports First Quarter 2017 Results. NASDAQ, p. 1–8, 2017.
FERNANDES, G.; LIMA-MARQUES, M. Big Data & IoT: uma perspectiva a partir da
disciplina de Arquitetura da Informação. Academia.Edu, 2014.
FLEISHER, CRAIG S.; BENSOUSSAN, B. E. Strategic and competitive analysis: methods
and techniques for analyzing business competition. 2003.
FRANKS, B. Taming the Big Data tidal wave: Finding opportunities in huge data streams with
advanced analytics. John Wiley & Sons, v. 43, p. 204–205, 2013.
FULD, L.M. Inteligência competitiva: como se manter à frente dos movimentos da
concorrência e do mercado. 2007. Elsevier, 2007.
________.The new competitor intelligence: the complete resource for finding, analyzing, and
using information about your competitors J. Wiley, 1994.
GANTZ, J.; REINSEL, D.; GANTZ, B. J. Extracting Value from Chaos. IDC iview, n. June,
p. 1–12, 2011.
GARTNER. Gartner IT Glossary - Web Services. Disponível em: <http://www.gartner.com/it-
glossary/web-services/>. Acesso em: 10 out. 2017.
HERRING, J. P. Point: the world is intelligence. Competitive Intelligence Magazine, 2002.
HONG-YING, HAI-YAN, H.-Z. Competitive intelligence service of sports science and
technology in the era of big data. Shandong Sports Technology, v. Jornal of, p. 70–72, 2015.
HSIU-FANG HSIEH; SARAH E. SHANNON. Three Approaches to Qualitative Content
Analysis. Sage Journals, v. 15, n. 9, p. 1277–1288, 2005.
IBM. Saiba o que é o Big Data e os desafios que as empresas enfrentam. Acesso online,
2012a. Disponível em: <http://www.ibm.com/midmarket/br/pt/infografico_bigdata.html>.
Acesso em: 20 out. 2017.
__________. IBM Ttimes Big Data World Information Today Inc. Acesso online, 2012b.
Disponível em: <http://search.ebscohost.com/direct=true&db=aph&AN=75333496>. Acesso
73
em: 20 out. 2017.
IDC - International Data Corporation. The 2011 Digital Universe Study: extracting value
from chãos. 2011. Disponível em: <http://www.emc.com/collateral/analyst-reports/idc-
extracting-valuefrom-chaos-ar.pdf>. Acesso em: 15 set. 2017.
KERLINGER, F. N. Metodologia da Pesquisa em Ciências Sociais: Um tratamento
conceitual. São Paulo: EPU, 2007.
KIM, G.-H.; TRIMI, S.; CHUNG, J.-H. Big-data applications in the government sector.
Communications of the ACM, v. 57, n. 3, p. 78–85, 2014.
KWON, O.; LEE, N.; SHIN, B. Data quality management, data usage experience and
acquisition intention of big data analytics. International Journal of Information
Management, v. 34, n. 3, p. 387, jun. 2014.
LANEY, D. 3D data management: Controlling data volume, velocity and variety. META
Group Research Note, v. 6, n. February 2001, p. 70, 2001.
LANNA SOLCI. Do bit ao Yottabyte: conheça os tamanhos dos arquivos digitais. Disponível
em: <https://www.tecmundo.com.br/infografico/10187-do-bit-ao-yottabyte-conheca-os-
tamanhos-dos-arquivos-digitais-infografico-.htm>. Acesso em: 29 out. 2017.
LESCA, N.; CARON-FASAN, M.-L. La veille: états des connaissances actionnables produites
dans un champ de recherche hétérogène. Revista FCS, França, 2001.
LÉVY, P. La Cyberculture. Editions O ed. Paris. 1999.
LI, M. et al. Competitive Intelligence Changes in Big Data Era Based on Literature Analysis.
international conference on economics and management. destech publications. lancaster, 2016.
LOHR, S. The Age of Big Data. New York Times, v. 161, n. 55679, p. 1, 12 fev. 2012.
LYON, D. Surveillance, Snowden, and Big Data: Capacities, consequences, critique. Big Data
& Society, v. 1, n. 2, p. 20, 2014.
MAHRT, M.; SCHARKOW, M. The Value of Big Data in Digital Media Research. Journal of
Broadcasting & Electronic Media, v. 57, n. 1, p. 20–33, 2013.
MANYIKA, J., CHUI, M., BROWN, B., BUGHIN, J., DOBBS, R., ROXBURGH, C., &
BYERS, A. H. The next frontier for innovation. McKinsey Global Institute, 2011.
MARQUESONE, R. Big Data - Técnicas e tecnologias para extração de valor dos dados, 2017.
MARR, B. Really Big Data At Walmart: Real-Time Insights From Their 40+ Petabyte Data
Cloud. Disponível em: <https://www.forbes.com/sites/bernardmarr/2017/01/23/really-big-
data-at-walmart-real-time-insights-from-their-40-petabyte-data-cloud/#6c17a25a6c10>.
Acesso em: 28 out. 2017.
MAYER-SCHÖNBERGER, V.; CUKIER, K. Big Data: Como extrair volume, variedade,
velocidade e valor da avalanche de informação cotidiana. Elsevier, 2013.
MAYKUT, P.; MOREHOUSE, R. Beginning Qualitative Research: A Philosophic and
Practical Guide. Beginning Qualitative Research: A Philosophic and Practical Guide, p. 176,
1994.
MCAFEE, A., BRYNJOLFSSON, E. Big Data: The Management Revolution, Harvard
business review, 2012.
MEER, D. What Is “Big Data” Anyway? Acesso online, 2013. Disponível em:
<https://www.strategy-business.com/article/What-Is-Big-Data-Anyway?gko=88b29>. Acesso
74
em: 31 out. 2017.
MENDES, ANDRÉA LARA; MARCIAL, E. C. Fundamentos da inteligência competitiva.
Brasília: Thesaurus, 2010.
MERRIAN, S. B. Qualitative Research and Case Study Applications in Education. San
Francisco: Jossey-Bass Inc. Publishers, 1998.
MILLER, Jerry P. O processo de inteligência: como funciona, seus benefícios e sua situação
atual. Porto Alegre: Bookman, p. 31-44, 2002.
MINAYO, M. C. DE S. Minayo MCS. O desafio do conhecimento. Pesquisa qualitativa em
saúde. 9a edição revista e aprimorada. São Paulo: Hucitec; 2006. 406 p. Hucitec, p. 1087–1088,
2010.
MINELLI, M.; CHAMBERS, M.; DHIRAJ, A. Big Data Analytics - Emerging BI and Analitics
trends for today’s businesses. John Wiley & Sons, Inc. New Jersey, 2013.
MOSTEK, J.; EARL, W.; KOREN, D. Porting the SGI XFS File System. Proceedings of the
Freenix Track: 2000 USENIX Annual Technical Conference, 1999.
NATURE. Big data - Science in the petabyte era. Nature, v. 455, n. 7209, p. 1–136, 2008.
OLIVEIRA, V. MA. D.; MARTINS, M. D. F.; VASCONCELOS, A. C. F. Entrevistas “em
profundidade” na pesquisa qualitativa em administração: pistas teóricas e metodológicas.
Anais, p. 1–12, 2010.
_________, P. H. DE; GONÇALVES, C. A.; DE PAULA, E. A. M. Diretrizes Para a Condução
De Uma Atividade De Inteligência Competitiva: Uma Análise Preliminar. Revista Inteligência
Competitiva, v. 1, n. 3, p. 257–272, 2011.
ONU BRASIL. População mundial. Disponível em:
<https://nacoesunidas.org/acao/populacao-mundial/>. Acesso em: 12 out. 2017.
PARK, K.; BAEK, C.; PENG, L. A Development of Streaming Big Data Analysis System
Using In-memory Cluster Computing Framework: Spark. Advanced Mmultimedia and
Ubiquitous Engineering: New York, 2016.
PEREZ, GILBERTO; SACRAMENTO, KELLY; NAGANO, C. 50 Anos de Inteligência
Competitiva: Análise Bibliométrica da Produção Científica de 1965 a 2015. XIX SEMEAD,
Seminários em Administração, p. 1–15, 2016.
PHELAN, M. The Death Of Big Data. 2012. Disponível em:
<www.forbes.com/sites/ciocentral/2012/10/04/the-death-of-big-data>. Acesso em: 1 out. 2017.
PRESCOTT, J. The Evolution of Competitive Intelligence. Proposal Management, v. 6, p. 71–
90, 1999.
QUEYRAS, J.; QUONIAM, L. Inteligência Competitiva: Inteligência, informação e
conhecimento. Brasília: IBICT, p. 73-97, 2006.
RAJESH, K. V. N. Big Data Analytics: Applications and Benefits. IUP Journal of Information
Technology, v. 9, n. 4, p. 41–51, 2013.
SATHI, A. Big Data Analytics: Disruptive Technologies for Changing the GAme. Mc Press,
v. XXXIII, n. 2, p. 81–87, 2012.
SCIP. Strategic and Competitive Intelligence Professionals. 2017. Disponível em:
<http://www.scip.org/?page=CodeofEthics>. Acesso em: 2 nov. 2017.
SHARMA, D. et al. Big Data - CompetitiveIntelligence. International Conference on
75
Computing for Sustainable Global Development. New York, 2015.
SHARP, S. Competitive Intelligence Advantage: how to minimize risk, avoid surprises, and
grow your business in a changing world. John Wiley & Sons, 2009.
SORESCU, A. Data-Driven Business Model Innovation. Journal of Product Innovation
Management, v. 34, n. 5, p. 691-696, 2017.
SOUZA, J. Teoria dos Jogos aplicada à inteligência competitiva organizacional no âmbito da
Ciência da Informação. Unesp, 2016.
TAURION, C. Big Data. Brasport. São Paulo, 2013.
TELLES, R. A efetividade da matriz de amarração de Mazzon nas pesquisas em Administração.
Revista de Administração, v. 36, n. 4, p. 64–72, 2001.
TUFEKCI, Z. Big Data: Pitfalls, Methods and Concepts for an Emergent Field. SSRN (March
2013), p. 1–24, 2013.
UEDA, N. Communication science for the big data era. NTT Technical Review, v. 10, n. 11,
p. 2012, 2012.
VERGARA, S. C. Métodos de Coleta de Dados No Campo. Editora Atlas, 2000.
WAINER, H.; GRUVAEUS, G.; BLAIR, M. TREBIG: A 360/75 FORTRAN program for
three-mode factor analysts designed for big data sets. Behavior Research Methods &
Instrumentation, v. 6, n. 1, p. 53–54, 1974.
WALKER, S. J.; SCHÖNBERGER-MAYER, V. . C. K. Big Data: A Revolution That Will
Transform How We Live, Work, and Think. International Journal of Advertising, v. 33, n. 1,
p. 181–183, 2014.
WATSON, H. J. Tutorial: Big Data Analytics: Concepts, Technologies, and Applications.
Communications of the Association for Information Systems, 2014.
WHILTING, R. WAL-MART’S BIG DATA WAREHOUSE. Informationweek, n. 1010, p.
12, 18 out. 2004.
WIRBEL, L. SGI promotes “Big Data” extensions to NFS. Electronic Engineering Times
(01921541), n. 898, p. 45, 22 abr. 1996.
ZHAO, D. Frontiers of Big Data Business Analytics: Patterns and Cases in Online Marketing.
Big Data and Business Analytics, p. 43–67, 2013.
ZIKOPOULOS, P.; EATON, C. Understanding Big Data: Analytics for Enterprise Class
Hadoop and Streaming Data: Analytics for Enterprise Class Hadoop and Streaming Data. p.
176, 2011.
76
APÊNDICE I – MATRIZ DE AMARRAÇÃO
Problema da pesquisa: A utilização do Big Data influencia no Ciclo da Inteligência Competitiva?
Objetivo geral Objetivos específicos Fundamentação teórica Pontos de investigação Técnicas de
coleta Técnicas de
análise Resultado
O objetivo geral é
verificar se o uso
do Big Data pode
influenciar o Ciclo
da Inteligência
Competitiva
Identificar as tecnologias envolvidas no
cenário de exponencial crescimento da
volumetria de dados (Big Data) na
Inteligência Competitiva.
IC
Fuld (1994); Calof
(2007); ABRAIC (2017);
Miller (2002)
BD
Franks (2013); Taurion (2013); Marquesone
(2017); Laney (2001)
1. Questões sobre a existência do Big Data, Inteligência Competitiva e suas tecnologias.
a) Identificar e descrever se existe uma área específica de Inteligência Competitiva.
b) Identificar e descrever se existe uma área específica de Big Data.
c) Identificar e descrever se existe uma área de Inteligência Competitiva que utiliza o Big Data.
d) Quais são as tecnologias utilizadas na pratica da Inteligência Competitiva e Big Data?
Revisão
bibliográfica
Entrevista
Matérias
jornalísticas
Qualitativa
Análise de
conteúdo na
perspectiva
de Bardin
Descritivo
Tabelas
Gráficos
Avaliar as possíveis relações entre as
dimensões do Big Data com as etapas do
Ciclo da Inteligência Competitiva.
IC
Fuld (1994); Calof
(2007); ABRAIC (2017);
Miller (2002)
BD
Franks (2013); Taurion (2013); Marquesone
(2017); Laney (2001)
2. Questões sobre os efeitos do Big Data na Inteligência Estratégica.
a) Quais mudanças foram geradas pelo crescimento dos dados dos últimos anos?
b) Quais são as mudanças na velocidade com que a informação é entregue ao decisor?
c) Quais são as fontes e tipos dos dados utilizados nos processos?
d) Qual o controle sobre a veracidade nos dados coletados e resultados obtidos?
Avaliar os resultados do uso do Big Data
na Inteligência Competitiva.
IC
Fuld (1994); Calof
(2007); ABRAIC
(2017); Miller (2002)
BD
Franks (2013); Taurion (2013); Marquesone
(2017); Laney (2001)
3. Questões sobre os aspectos positivos e negativos do novo cenário.
a) Qual a influência do volume de dados no processo de análise?
b) Qual a influência da variedade dos dados no processo de análise?
c) Qual a influência da velocidade no processo de análise?
d) Quais os benefícios que o da Inteligência Competitiva em conjunto com Big Data?
Avaliar a relação entre o ciclo da
Inteligência Competitiva e o fluxo de
dados do Big Data.
IC
Sharp (2003)
BD
Marquesone (2017)
4. Questões sobre o fluxo de dados da Inteligência Competitiva e Big Data.
a) Qual o fluxo de dados no processo da Inteligência Competitiva?
b) Qual o fluxo de dados no conjunto tecnológico do Big Data?
Fonte: Adaptado de (TELLES, 2001).
77
APÊNDICE II – ROTEIRO DE ENTREVISTAS
ROTEIRO DE ENTREVISTA
Esta pesquisa faz parte da Dissertação de Mestrado “OS EFEITOS DO BIG DATA NA
UTILIZAÇÃO PARA A INTELIGÊNCIA ESTRATÉGICA COMPETITIVA”, do aluno
Maycon Franco Lourenço Gimenez, sob a orientação do Prof. Dr. Gilberto Perez, da
Universidade Presbiteriana Mackenzie.
Objetivo do Estudo
O objetivo principal deste trabalho é analisar a influência da utilização do Big Data no ciclo e
resultados da inteligência estratégica competitiva.
A entrevista é composta por algumas perguntas fechadas destinadas à caracterização da
Organização e do Respondente e por 15 perguntas abertas. O tempo estimado de duração
é de 45 min a 1h.
Para a entrevista-piloto, deve-se perguntar:
Qual sua opinião sobre essa entrevista e a forma que esta foi conduzida?
78
I - CARACTERIZAÇÃO DA ORGANIZAÇÃO
1. Nome da Instituição
2. Ano de sua fundação:
3. Setor de Atuação:
4. Número de Funcionários:
5. Faixa de Faturamento Anual (Opcional):
II - CARACTERIZAÇÃO DO RESPONDENTE
a) Nome (iniciais):
b) Cargo:
c) Formação Profissional:
d) Tempo na Organização:
e) Escolaridade:
f) Área de atuação na Organização:
III - PERGUNTAS
1) Questões sobre a existência do Big Data, Inteligência Competitiva e suas tecnologias
a) Existe alguma área em sua empresa dedicada para Coletar e Analisar dados em sua
organização? Se sim, descrever a área.
b) Existe um processo para Coleta e Análise de dados em sua organização? Se sim,
descrever as etapas do processo.
c) Descreva de maneira geral o conjunto tecnológico que sua organização utiliza para
coletar, armazenar, processar e disseminar dados.
d) Cite o nome das ferramentas que são utilizadas nas etapas do processo.
2) Questões sobre os efeitos do Big Data na Inteligência Estratégica
a) Você considera que o volume de dados que passa por esse processo e conjunto
tecnológico é demasiadamente grande? Comente a respeito?
b) Qual a sua percepção com relação à velocidade na coleta, armazenamento,
processamento e disseminação das informações?
c) Quais são a principais fontes dos dados coletados que fazem parte do processo?
d) Existem subprocessos de controle da qualidade da origem dos dados ou da veracidade
dos resultados obtidos? Dê detalhes sobre isso.
3) Questões sobre os efeitos do Big Data na Inteligência Estratégica
a) Como você compreende o volume de dados que influencia o processo de análise de
dados?
79
b) Qual sua opinião sobre a possibilidade de analisar dados de diferentes tipos e origens?
c) Qual a importância da velocidade em que dados são analisados e disponibilizados
para os decisores de sua organização? Justifique.
d) Você acredita que o conjunto de práticas, processos e tecnologias utilizadas por sua
organização para coletar, armazenar, processar, analisar e disseminar informações
traz benefícios para sua organização? Quais e por quê?
4) Questões sobre o fluxo de dados da Inteligência Competitiva e Big Data.
a) Descreva de maneira geral o fluxo que os dados percorrem no processo para geração
de Inteligência Competitiva. Citar Exemplos.
b) Descreva de maneira geral o fluxo que os dados percorrem durante a utilização das
tecnologias de Big Data. Citar Exemplos.
5) Questões gerais
a) Descreva os ganhos obtidos após o início da utilização do novo aparato tecnológico.
b) Você gostaria de expor algum ponto de vista ou fazer algum comentário sobre o tema
dessa entrevista?
APÊNDICE III – UNIDADES DE REGISTRO X SIGNIFICADO
US Unidade de Significado UR Unidade de Registro Fontes Números
de
referências
US01 Variedade dos dados UR001 Captação de dados da internet 3 7
US01 Variedade dos dados UR002 Captação de dados de redes sociais 3 15
US01 Variedade dos dados UR003 Há também uso de dados
estruturados
2 10
US01 Variedade dos dados UR004 Há um uma diversidade muito
grande de tipos de informação
3 11
US01 Variedade dos dados UR005 Uso de dados de logs 3 11
US01 Variedade dos dados UR006 Uso de dados de telemetria 4 19
US01 Variedade dos dados UR007 Uso de dados externos 3 9
US01 Variedade dos dados UR008 Uso de dados meteorológicos 2 9
US01 Variedade dos dados UR009 Uso de dados semiestruturados 4 9
US01 Variedade dos dados UR010 Utilização da dados de navegação
de site
3 14
US02 Velocidade dos dados UR011 Análises em tempo real 4 20
80
US Unidade de Significado UR Unidade de Registro Fontes Números
de
referências
US02 Velocidade dos dados UR012 Busca por aumentar a velocidade
dos fluxos
4 13
US02 Velocidade dos dados UR013 Uso de banco de dados de alta
performance
4 20
US02 Velocidade dos dados UR014 Uso de dados em streaming 2 5
US03 Volume dos dados UR015 Conjunto Tecnológico suporta
grandes volumes
4 14
US03 Volume dos dados UR016 Investimento em Hardware 4 10
US03 Volume dos dados UR017 Projeção de crescimento
exponencial dos dados
3 14
US03 Volume dos dados UR018 Volume relativo de dados alto 2 9
US03 Volume dos dados UR019 Volume relativo de dados baixo 4 12
US04 Fluxo dos dados UR020 Agregação de dados 3 6
US04 Fluxo dos dados UR021 Camada - Processo de
Armazenamento
4 11
US04 Fluxo dos dados UR022 Camada - Processo de coleta 4 15
US04 Fluxo dos dados UR023 Camada - Visualização de dados 2 8
US04 Fluxo dos dados UR024 Camada- Processamento de dados 2 10
US04 Fluxo dos dados UR025 Construção de Data-Lake Cloud 4 8
US04 Fluxo dos dados UR026 Consumo de dados de diferentes
origens
2 4
US04 Fluxo dos dados UR027 Enriquecimento de dados
multiestruturado
2 4
US04 Fluxo dos dados UR028 Front-End Self-Service 4 11
US04 Fluxo dos dados UR029 Processo de ETL próprio para BD 3 11
US04 Fluxo dos dados UR030 Uso de Data Warehouse 3 12
US04 Fluxo dos dados UR031 Uso de plataformas de
desenvolvimento
2 4
US05 Cloud Computing UR032 Arquitetura com a utilização de
Cloud
3 14
US06 Ferramentas UR033 Analysis Services 3 11
US06 Ferramentas UR034 Banco de dados Cassandra 3 14
US06 Ferramentas UR035 Banco de dados Hbase 2 9
US06 Ferramentas UR036 Banco de dados MongoDB 3 13
US06 Ferramentas UR037 Banco de dados SAP HANA 3 14
US06 Ferramentas UR038 BigQuery 3 11
81
US Unidade de Significado UR Unidade de Registro Fontes Números
de
referências
US06 Ferramentas UR039 Blob Storage 4 9
US06 Ferramentas UR040 Business Warehouse 3 10
US06 Ferramentas UR041 Córtex 2 4
US06 Ferramentas UR042 Data Catalog 2 10
US06 Ferramentas UR043 Data Factory 4 19
US06 Ferramentas UR044 Doctor Adress 3 10
US06 Ferramentas UR045 Flume 2 4
US06 Ferramentas UR046 Hadoop 3 11
US06 Ferramentas UR047 HDFS 4 14
US06 Ferramentas UR048 Hive 2 4
US06 Ferramentas UR049 IBM Bluemix 2 5
US06 Ferramentas UR050 Kafka 4 20
US06 Ferramentas UR051 Kfka 4 11
US06 Ferramentas UR052 Micro Strategy 2 7
US06 Ferramentas UR053 Microsoft Excel 3 7
US06 Ferramentas UR054 Microsoft Power BI 4 8
US06 Ferramentas UR055 Oracle 3 10
US06 Ferramentas UR056 Oracle Exadata 3 8
US06 Ferramentas UR057 Power Center 2 5
US06 Ferramentas UR058 Rstudio 2 6
US06 Ferramentas UR059 SAP 3 14
US06 Ferramentas UR060 SAP BexAnalyser 4 14
US06 Ferramentas UR061 SAP BexQuery 4 19
US06 Ferramentas UR062 SAP BW 3 13
US06 Ferramentas UR063 SAP Design Studio 4 12
US06 Ferramentas UR064 SAP ECC 3 6
US06 Ferramentas UR065 SAP Lumira 4 15
US06 Ferramentas UR066 SAP Predictive Analytics 2 8
US06 Ferramentas UR067 SAS 4 13
US06 Ferramentas UR068 SharePoint 4 9
US06 Ferramentas UR069 Spark 3 13
US06 Ferramentas UR070 SQL 4 12
US06 Ferramentas UR071 Sqoop 4 19
US06 Ferramentas UR072 Suíte SAP BO 4 19
US06 Ferramentas UR073 Tableau 3 8
US06 Ferramentas UR074 Teradata 4 10
82
US Unidade de Significado UR Unidade de Registro Fontes Números
de
referências
US07 Áreas que consomem
BD/IC
UR075 Área comercial 2 8
US07 Áreas que consomem
BD/IC
UR076 Área de retenção de clientes 2 4
US07 Áreas que consomem
BD/IC
UR077 Área jurídica 3 6
US07 Áreas que consomem
BD/IC
UR078 Marketing 4 10
US07 Áreas que consomem
BD/IC
UR079 Novos produtos 3 12
US07 Áreas que consomem
BD/IC
UR080 P&D 3 11
US07 Áreas que consomem
BD/IC
UR081 Produção 4 15
US08 Estrutura organizacional UR082 Área de Big Data trabalha em
conjunto do departamento de TI
4 9
US08 Estrutura organizacional UR083 Área de Big Data trabalha
independente do departamento de
TI
2 4
US08 Estrutura organizacional UR084 Áreas de Big Data é fornecedora
das áreas de negócios
3 8
US08 Estrutura organizacional UR085 Há uma área Exclusiva de IC 3 9
US08 Estrutura organizacional UR086 Há uma área exclusiva para Big
Data
4 18
US08 Estrutura organizacional UR087 Não há uma área Exclusiva de IC 2 5
US09 Planejamento do ciclo UR088 A demanda vai para área de Big
Data dependendo da capacidade
dos outros departamentos
fornecedores
4 16
US09 Planejamento do ciclo UR089 Cada área determina sua demanda 4 15
US09 Planejamento do ciclo UR090 Cada demanda é tratada como um
projeto
4 19
US09 Planejamento do ciclo UR091 Cada projeto pode ser permanente
ou não
2 5
US10 Preparação dos dados UR092 Estruturação dos dados 2 10
US10 Preparação dos dados UR093 Normalização dos dados 2 10
83
US Unidade de Significado UR Unidade de Registro Fontes Números
de
referências
US10 Preparação dos dados UR094 Tratamento para qualidade dos
dados
2 7
US11 Conhecimento sobre o
potencial do Big Data
UR095 Busca por coletar dados externos
ainda não utilizados
2 5
US11 Conhecimento sobre o
potencial do Big Data
UR096 Busca por coletar dados internos
ainda não utilizados
4 10
US11 Conhecimento sobre o
potencial do Big Data
UR097 Buscar por ampliar o ecossistema
tecnológico
3 8
US11 Conhecimento sobre o
potencial do Big Data
UR098 Interesse por outras tecnologias
ainda não utilizadas
4 18
US11 Conhecimento sobre o
potencial do Big Data
UR099 Reutilização de dados já
normalizados
4 12
US11 Conhecimento sobre o
potencial do Big Data
UR100 Uso de inteligência Artificial 3 11
US12 Data-Driven UR101 Busca por capacidade
computacional robusta
2 4
US12 Data-Driven UR102 Busca por melhor estruturação dos
dados
2 7
US12 Data-Driven UR103 Criação de processo de derivação
de dados
4 13
US12 Data-Driven UR104 Estruturação de processos voltada
aos dados
3 11
US12 Data-Driven UR105 Geração de novas fontes de dados 2 7
US12 Data-Driven UR106 Normalização da qualidade dos
dados entre as fontes
4 8
US12 Data-Driven UR107 Normalização de frequência de
dados
4 17
US12 Data-Driven UR108 Normalização de granularidade de
dados
2 7
US13 Engajamento UR109 Alta administração incentiva o uso
e investimento em BD
3 8
US13 Engajamento UR110 Área de negócios possui forte
aderência aos projetos de BD
4 16
US13 Engajamento UR111 Área de TI possui interesse no
avanço com BD
3 10
US14 Casos de uso UR112 Análises de campanhas Real-Time 3 10
84
US Unidade de Significado UR Unidade de Registro Fontes Números
de
referências
US14 Casos de uso UR113 Anúncio baseado em
geolocalização
2 5
US14 Casos de uso UR114 Estudo fisiológico de florestas 2 4
US14 Casos de uso UR115 Precisão de plantio 2 9
US14 Casos de uso UR116 Precisão na produção de celulose 4 8
US14 Casos de uso UR117 Redução de falhas técnicas 3 7
US15 Resultados dos projetos de
Big Data
UR118 Análise de permanência para o
projeto
3 10
US15 Resultados dos projetos de
Big Data
UR119 Análise de resultados por projeto 2 9
US15 Resultados dos projetos de
Big Data
UR120 Quantificação dos resultados 2 4