FACULDADE MERIDIONAL – IMED
SISTEMAS DE INFORMAÇÃO
Ingrid Cheng
Ontologias e algoritmos de similaridade como suporte à
integração de schemas em ambientes heterogêneos
Passo Fundo
2018
2
Ingrid Cheng
Ontologias e algoritmos de similaridade como suporte à integração de
schemas em ambientes heterogêneos
Trabalho de Conclusão de Curso apresentado à
Escola de Sistemas de Informação, da
Faculdade Meridional – IMED, como requisito
parcial para obtenção do grau de Bacharel em
Sistemas de Informação, sob a orientação do
professor Me. Fahad Kalil.
Passo Fundo
2018
3
Ingrid Cheng
Ontologias e algoritmos de similaridade como suporte à integração de
schemas em ambientes heterogêneos
Passo Fundo, 14 de dezembro de 2018.
BANCA EXAMINADORA
Prof. Me. Fahad Kalil
Prof. Me. Marcos Roberto dos Santos
Prof. Me. Ralph José Rassweiler Filho
Passo Fundo
2018
4
RESUMO
O presente trabalho partiu do seguinte problema: Como a utilização de ontologias
conceituais e algoritmos de similaridade podem contribuir para a integração de schemas de
dados em ambientes heterogêneos? Sob a perspectiva de quem realiza tal integração em
sistemas ERP e outros sistemas, este trabalho objetivou a combinação de técnicas de
similaridade textual com o uso ontologias para integração de schemas de dados, além da
identificação de algoritmos de similaridade para comparação de palavras e conceitos. Foi
desenvolvido um algoritmo combinando estas diferentes técnicas visando o suporte à
integração de schemas de dados, e identificou-se que as técnicas de similaridade e ontologias
podem ser utilizadas para tais comparações, mas apresentam limitações com relação às
palavras compostas e palavras incomuns no meio corporativo.
Palavras-chave: DBpedia. Integração de Schemas. Ontologia. Similaridade. WordNet.
5
ABSTRACT
The current work started with the following problem: How can the use of conceptual
ontologies and similarity algorithms contribute to the integration of data schemas in
heterogeneous environments? From the perspective of those who perform such integration in
ERP systems and other systems, this work aimed at combining textual similarity techniques
with the use of ontologies to integrate data schemas, as well as the identification of similarity
algorithms for comparison of words and concepts. An algorithm was developed combining
these different techniques aimed at supporting the integration of data schemas, and it was
identified that similarity and ontology techniques can be used for such comparisons, but
present limitations with respect to compound words and unusual words in the corporate
environment .
Keywords: DBpedia, Schema Integration, Ontology, Similarity, WordNet
6
LISTA DE FIGURAS
Figura 1 Os principais módulos do ERP de uma empresa industrial ....................................... 13
Figura 2 Exemplos de módulos verticais e horizontais ............................................................ 14
Figura 3 Exemplo de integrações de uma organização ............................................................ 19
Figura 4 Arquitetura Web Services .......................................................................................... 21
Figura 5 Tecnologias usadas para Web Services...................................................................... 22
Figura 6 Integração EAI x Integração Tradicional ................................................................... 23
Figura 7 Pilha de tecnologias para web semântica ................................................................... 24
Figura 8 Exemplo de estrutura XML ........................................................................................ 25
Figura 9 Exemplo de um diagrama RDF .................................................................................. 26
Figura 10 Resultado de busca na WordNet pela palavra "client" ............................................. 29
Figura 11 Representação gráfica de uma entidade e suas relações no YAGO ......................... 32
Figura 12 Trecho da visualização da entidade YAGO "Dancer" ............................................. 34
Figura 13 Fluxograma do algoritmo ......................................................................................... 38
Figura 14 Resultado Experimento 1 – client x customer ......................................................... 41
Figura 15 Resultados Experimento 2 – actor x dog ................................................................. 41
7
LISTA DE QUADROS
Quadro 1 Benefícios tangíveis e intangíveis ............................................................................ 16
Quadro 2 Características do ERP x Benefícios e Problemas.................................................... 16
Quadro 3 Classificação de Ontologias...................................................................................... 28
Quadro 4 Colunas dos datasets utilizados ................................................................................ 37
Quadro 5 Experimentos realizados ........................................................................................... 40
8
LISTA DE ABREVIATURAS E SIGLAS
AI Artificial Intelligence
B2B Business to Business
BPEL Business Process Execution Language
CA California
CRM Client Relationship Management
CSV Comma Separated Values
DC Distrito de Columbia
EAI Enterprise Application Integration
EDI Electronic Data Interchange
ERP Enterprise Resource Planning
HTTP Hypertext Transfer Protocol
NTLK Natural Language Toolkit
OWL Web Ontology Language
PASS Procurement Automated Support System
RDF Resource Description Framework
RDF-S Resource Description Framework Schema
RIF Rule Interchange Format
SPARQL Protocol and RDF Query Language
SQL Structured Query Language
URI Uniform Resource Identifier
URL Uniform Resource Locators
W3C World Wide Web Consortium
WS Web Service
XML eXtensible Markup Language
YAGO Yet Another Great Ontology
9
S U M Á R I O
1. INTRODUÇÃO ................................................................................................................ 10
2. ESTADO DA ARTE ......................................................................................................... 11
2.1. Enterprise resource planning ..................................................................................... 11
2.2. Integração de sistemas de informação ....................................................................... 18
2.3. Web semântica ........................................................................................................... 24
2.4. WordNet ..................................................................................................................... 28
2.5. YAGO ........................................................................................................................ 31
2.6. DBpedia ..................................................................................................................... 32
2.7. Medidas de similaridade semântica entre termos ...................................................... 34
3. METODOLOGIA ............................................................................................................. 36
3.1. Instrumentos e infraestrutura ..................................................................................... 36
3.2. Procedimentos da pesquisa ........................................................................................ 37
4. RESULTADOS E DISCUSSÕES .................................................................................... 41
5. CONSIDERAÇÕES FINAIS ............................................................................................ 45
BIBLIOGRAFIA ...................................................................................................................... 46
ANEXO A – CSV de Siglas e Acrônimos ............................................................................... 52
ANEXO B – Representação de Amostra do Dataset Purchase Order Data CA – Colunas 1 a
15 .............................................................................................................................................. 53
ANEXO C – Representação de Amostra do Dataset Purchase Order Data CA – Colunas 16 a
31 .............................................................................................................................................. 54
ANEXO D – Representação de Amostra do Dataset Purchase Order Data DC ....................... 55
10
1. INTRODUÇÃO
É comum a integração de schemas de dados (XML, banco de dados, webservices,
APIs), seja no meio acadêmico ou no meio empresarial. Ontologias já são muito conhecidas
mundialmente, principalmente na área de inteligência artificial, pois contribuem muito para
que um software seja capaz de realizar associações de palavras e conceitos. Segundo Haley
(2010), há diversas pessoas no mundo criando ontologias e outras diversas consumindo
ontologias, infelizmente, a grande maioria de ontologias possui foco acadêmico e
colaborativo.
Poucas ontologias são utilizadas no ambiente empresarial e mesmo que os benefícios
possam ser consideráveis, não há muitos estudos e ontologias sendo desenvolvidas para uso
neste contexto quanto poderia haver (HALEY, 2010). Por este motivo, a utilização de
ontologias conceituais e algoritmos de similaridade para integração de dados em ambientes
heterogêneos é objeto de pesquisa deste trabalho.
Um dos problemas mais comuns quando há uma integração entre sistemas, é o uso de
diferentes vocabulários para representar a mesma informação. Mesmo que estes campos
sejam mapeados de um sistema para o outro, visando a integração, após o término de tal
processo este mapeamento não costuma estar devidamente atualizado e não permite que as
pessoas consultem essa informação para garantia de veracidade.
Ontologias são baseadas em conceitos e permitem associar os mais diversos
vocabulários para formação de um conceito. Sendo assim, com o auxílio de uma ontologia é
possível que durante o processo de integração, o software saiba que “Client” no sistema de
origem é o mesmo que “Customer” no sistema de destino, sem precisar que um humano, no
momento da integração, faça esta associação de forma exclusivamente manual.
Existem casos em que mesmo na associação manual de um termo ao outro para
representar a mesma informação, a pessoa que está associando pode estar equivocada ou
desconhecer a correspondência de algum termo naquele dado contexto. Em resumo, a
utilização de ontologia para a integração de schemas de dados pode ajudar os profissionais a
ganhar mais produtividade e assertividade na realização de integrações.
O restante deste trabalho está organizado da seguinte forma: no Capítulo 2 é fornecida
uma fundamentação teórica com os principais conceitos necessários para a compreensão desta
monografia. No Capítulo 3 é abordada a metodologia e a descrição dos experimentos. O
Capítulo 4 abordará resultados e discussões. No Capítulo 5 este trabalho é concluído e
possível trabalhos futuros são destacados.
11
2. REFERENCIAL TEÓRICO
O referencial teórico do presente trabalho está divido em 7 capítulos. A primeira
sessão do referencial teórico foi feita para caracterizar ERP. A segunda, serviu para descrever
a integração de sistemas. Conceitos e termos são apresentados nos itens 2.3 a 2.7.
2.1. Enterprise resource planning
Atualmente, no mundo empresarial, é necessário que as organizações estejam atentas
ao comportamento do mercado e estejam preparadas para criar estratégias a fim de obterem
sucesso. Para elaboração de tais estratégias, é essencial o apoio da tecnologia da informação
pois, além de dar suporte às operações da empresa, pode prover informações para tomada de
decisões (VECCHIA, 2011).
ERP é uma sigla para Enterprise Resource Planning e pode ser definido como um
sistema de informação integrado cujo objetivo é suportar a maioria das operações de uma
empresa, sendo adquirido como um pacote de software comercial (DE SOUZA, 2000). Badr,
Elabd e Abdelkader (2016) definem o ERP como uma solução de software integrada que
atende as necessidades empresariais. Para Suprapto, Tarigan e Basana (2017), o ERP pode ser
definido como um pacote de software de negócio que permite que uma companhia automatize
e integre os principais processos de negócio, além de compartilhar dados em toda a
companhia com o objetivo de criar e acessar informação em cada departamento em tempo
real, tendo acesso a informações íntegras.
Para Laudon e Laudon (2010), os sistemas ERP tem como fundamento uma suíte de
módulos de software integrados e um banco de dados central comum. Este banco coleta dados
dos diferentes departamentos da empresa e torna-os disponíveis para aplicações que são
utilizadas em praticamente todas as atividades internas da empresa. Esta, e as definições
abordadas anteriormente deixam claro que o ERP é um sistema integrado com todos os
departamentos da empresa, permitindo que as informações acessadas estejam sempre
atualizadas e provendo dados para tomada de decisão.
Na literatura, é possível encontrar descrições de características dos sistemas ERP e de
sua arquitetura. A seguir, são sintetizadas as características abordadas por alguns autores:
Têm grande abrangência funcional – Os sistemas ERP possuem grande abrangência
funcional para atender todos os departamentos de uma empresa. O objetivo é cobrir o maior
número de funcionalidades possível, mas não tornar um software específico para uma única
organização. Por este motivo, é provável que hajam outros sistemas que cubram uma
determinada função empresarial de forma mais adequada que o ERP, e por este motivo pode
12
ser necessária uma integração entre o ERP e o sistema especializado (DE SOUZA, 2000;
VECCHIA, 2011).
Possuem banco de dados corporativo unificado – É necessário utilizar o mesmo
banco de dados em todos os setores para que as alterações sejam refletidas em tempo real para
toda a organização (DE SOUZA, 2000; VECCHIA, 2011; DE SOUZA JUNIOR; DA SILVA,
2014).
São integrados – Um sistema ERP pode ser realmente integrado se todos os módulos
do sistema atendem a todos os departamentos da empresa. É possível também integrar
módulos entre ERP ou outros sistemas diferentes, através de interfaces e a utilização de uma
base única, permitindo o compartilhamento de informações para se alcançar a disponibilidade
de informações coerentes e atualizadas em tempo real. Badr, Elabd e Abdelkader (2016)
ressaltam que a integração de um sistema ERP com outros sistemas é bastante trabalhosa
devido à diferença semântica entre os mais diferentes sistemas (DE SOUZA, 2000;
VECCHIA, 2011).
São pacotes comerciais de software – Os sistemas ERP são vendidos como um
pacote comercial porque o sistema já foi desenvolvido, utilizado e aprimorado, tendo
vantagem sobre um sistema de tamanha complexidade que fosse desenvolvido do zero. Desta
forma, o ERP vendido comercialmente é mais barato, mais rápido e resulta em menos bugs
que desenvolver um ERP (DE SOUZA, 2000; VECCHIA, 2011).
Fazem uso de modelos-padrão de processos – É comum que as tarefas de um
mesmo processo sejam executadas no mesmo setor de outra empresa. Desta forma, o ERP
utiliza um modelo-padrão nos processos permitindo que o sistema seja utilizado pelo maior
número possível de organizações, e não somente uma específica. Tais modelos-padrão de
processos são obtidos a partir das experiências de implantações (DE SOUZA, 2000;
VECCHIA, 2011).
Requerem procedimentos de ajuste – Ao implantar um ERP em uma organização,
provavelmente haverá diferença entre os processos de organização e o sistema, e este
processo trata de eliminar tais diferenças, sem descaracterizar o sistema (DE SOUZA, 2000;
DE SOUZA JUNIOR; DA SILVA, 2014).
Possuem arquitetura simples – Como os sistemas ERP são sistemas complexos, é
necessário que a arquitetura seja simples, para facilitar o fluxo de dados e as soluções que
venham a ser necessárias. (DE SOUZA JUNIOR; DA SILVA, 2014)
13
Os sistemas ERP possuem uma estrutura com a divisão de módulos, podendo ser cada
módulo um departamento da empresa. Na literatura, alguns autores abordam os módulos de
forma mais detalhada, enquanto outros abordam os módulos de forma mais ampla.
De Oliveira (2006) aborda os seguintes módulos que, segundo ele, compõem a maioria
dos sistemas ERP: Workflow, Contas a pagar, Gestão de Ativos, Manutenção, Contas a
Receber, Recursos Humanos, Folha de Pagamento, Gestão Financeira, Recebimento Fiscal,
Custos, Contabilidade Geral, DRP1, Gestão de Transporte, Venda/Previsão e Faturamento. O
autor ainda ressalta que a maioria das empresas de grande porte comporta todos estes
módulos, enquanto empresas de menor porte podem comportar apenas alguns destes módulos.
Na Figura 1 é possível visualizar a integração entre os principais módulos do ERP de
uma empresa industrial e entidades externas. As integrações com as entidades externas podem
ocorrer de forma eletrônica através de EDI2, B2B3 , e também podem ocorrer de forma
convencional, sem o apoio da tecnologia para a integração entre a entidade externa e o ERP.
Figura 1 Os principais módulos do ERP de uma empresa industrial
Fonte: Zwicker e De Souza (2003)
Considerando todos os módulos abordados pelos autores citados, pode-se identificar
que determinadas atividades executadas com o auxílio de um módulo podem ser agrupadas
em uma categoria maior. Como por exemplo, contas a pagar e contas receber podem fazer
1 DRP: Sigla para Distribution Requirements Planning, que pode ser traduzido para língua portuguesa como
planejamento das necessidades de distribuição 2 EDI: Sigla para Electronic Data Interchange, que pode ser traduzido para a língua portuguesa como
“Intercâmbio Eletrônico de Dados”, e representa uma troca estruturada de dados através de uma rede de dados
qualquer. 3 B2B: Sigla para Business to Business que pode ser traduzido para a língua portuguesa como “Negócio para
Negócio”, quando um negócio é B2B, significa que o público-alvo deste negócio são outras empresas.
14
parte da mesma categoria “Financeiro” e a categoria Financeiro pode ser considerada um
único grande módulo. Tal estrutura pode ser visualizada considerando os módulos maiores
como módulos verticais, e os módulos com tarefas mais específicas podem ser considerados
módulos verticais, um exemplo desta visualização é a Figura 2, onde Vendas, Operacional,
Recursos Humanos, e financeiro representam módulos horizontais e as atividades descritas
em nível mais detalhado e visualizadas verticalmente podem ser chamadas de módulos
verticais.
Figura 2 Exemplos de módulos verticais e horizontais
Fonte: Elaborado pela autora
Cada sistema ERP pode apresentar diferentes módulos, entretanto, os módulos de
sistemas ERP procuram contemplar o maior número de necessidades do maior número de
organizações. Neste sentido, é comum que alguns sistemas ERP de pequeno porte sejam
desenvolvidos para tipos diferentes de organizações. Por exemplo, um sistema ERP pode ser
voltado para instituições de ensino, para empresas de transporte de cargas, para empresas
varejistas e etc., de forma a contemplar as necessidades da organização de forma ainda mais
específica. Segundo pesquisa realizada por Diniz (2012), os cinco módulos ERP mais
utilizados pelas empresas são: Gestão Financeira, Recebimento Fiscal, Contas a Receber,
Contas a Pagar e Contabilidade Geral. É possível notar que tais módulos são comuns em todas
empresas, independente da área de atuação e por este motivo são mais comuns nas empresas
em geral.
Diante da implementação de um software tão complexo quanto o ERP, é de
conhecimento dos autores que há benefícios e também dificuldades de se implementar um
ERP. Segundo Azevedo e Serdeira (2016) e De Souza Junior e Da Silva (2014), são
benefícios dos sistemas ERP: a integração entre todas as áreas da organização e o banco de
dados unificado, pois tendo uma informação integrada e disponível em tempo real, ações
15
operacionais e também tomadas de decisão podem ser realizadas com base em informações
atualizadas.
Zwicker e De Souza (2003) citam benefícios como integração, maior possibilidade de
controle sobre os processos da empresa, a atualização tecnológica, a redução de custos de
informática e o acesso a informações de qualidade em tempo real para a tomada de decisões
sobre toda a cadeia produtiva.
De Almeida (2010), com ênfase na tomada de decisão, cita que os sistemas ERP
trazem benefícios como ampliação do processamento do conhecimento do apoio a decisão,
incremento da confiabilidade na tomada de decisão, melhora a capacidade de reunir
evidências para apoio, agilidade e redução de custos na tomada de decisão.
Muitas vezes, durante a implementação de um ERP é necessário que a organização
adapte alguns processos para utilização do ERP. Identificar formas inovadoras de melhorar
processos, reestruturar as atividades e melhorar a organização do negócio podem servir para
obter vantagens competitivas e neste sentido as alterações de processos necessárias devido a
implementação do ERP são benéficas (VIEIRA, 2009; LATINI, 2015).
Além de benefícios, a implementação do ERP traz também algumas desvantagens,
problemas ou dificuldades. Por se tratar de um sistema complexo, a implementação de um
ERP é um processo muito lento e pode chegar a levar 3 anos para ser concluído (DE SOUZA,
2000). O custo da aquisição do pacote comercial e implantação é muito elevado, sendo este
um dos principais fatores para que organizações cujo porte não é suficientemente grande não
utilizem ERP (DE SOUZA JUNIOR; DA SILVA, 2014).
Devido às alterações necessárias em alguns processos da empresa, e também a
integração de informações em tempo real, a influência dos fatores humanos é muito grande e
isto pode se tornar um problema. Podem haver pessoas resistentes às mudanças nos processos
e uma informação inserida incorretamente no sistema é propagada em tempo real para todos
os setores devido ao banco de dados único (OLIVEIRA; HATAKEYAMA, 2012).
Segundo De Oliveira (2006), podem existir benefícios tangíveis e intangíveis, os
benefícios tangíveis não podem ser mensurados pois são visualizados de uma forma muito
ampla, enquanto os benefícios tangíveis podem ser perfeitamente quantificados. O Quadro 1,
adaptado de De Oliveira (2006), possui a descrição de benefícios tangíveis e intangíveis do
ERP.
Benefícios Tangíveis Benefícios Intangíveis
Redução de estoques Redução de pessoal
Melhoria da produtividade
Melhoria no gerenciamento dos pedidos
Visibilidade de informação
Processos novos e melhorados
Atendimento mais rápido ao cliente
16
Melhoria financeira Redução de custos
Melhoria no gerenciamento de fluxo de caixa
Aumento dos lucros
Redução de custos com transporte e logística
Redução de custos na manutenção
Padronização
Flexibilidade
Globalização
Melhor desempenho nos negócios como um todo
Quadro 1 Benefícios tangíveis e intangíveis
Fonte: Adaptado de De Oliveira (2006)
No Quadro 2 adaptado de Zwicker e De Souza (2003), é possível identificar algumas
das características mencionadas anteriormente em comparativo mostrando benefícios e
problemas.
Características Benefícios Problemas
São pacotes
comerciais de
software
- Redução dos custos de informática
- Foco na atividade principal da empresa
- Redução do backlog4de aplicações
- Atualização tecnológica permanente, por
conta do fornecedor
- Dependência do fornecedor
- Empresa não detém o conhecimento sobre
o pacote
Usam modelos
de processos
- Difunde conhecimento sobre best practices
- Facilidade a reengenharia de processos
- Impões padrões
- Necessidade de adequação do pacote à
empresa
- Necessidade de alterar processos
empresariais
- Alimenta a resistência à mudança
São sistemas
Integrados
- Redução do retrabalho e inconsistências
- Redução da mão-de-obra relacionada a
processos de integração de dados
- Maior controle sobre a operação da empresa
- Eliminação de interfaces entre sistemas
isolados
- Melhoria na qualidade da informação
- Contribuição para a gestão integrada
- Otimização global dos processos da
organização
- Mudança cultural da visão departamental
para a de processos
- Maior complexidade de gestão da
implementação
- Maior dificuldade na atualização do
sistema pois exige acordo entre vários
departamentos
- Um módulo não disponível pode
interromper o funcionamento dos demais
- Alimenta a resistência à mudança
Usam banco de
dados
corporativos
- Padronização de informações e conceitos
- Eliminação de discrepâncias entre
informações de diferentes departamentos
- Melhoria na qualidade da informação -
acesso a informações para toda a empresa
- Mudança cultural da visão de “dono da
informação” para a de “responsável pela
informação”
- Mudança cultural para uma visão de
disseminação de informações dos
departamentos por toda a empresa
- Alimenta resistência à mudança
Possuem grande
abrangência
funcional
- Eliminação da manutenção de múltiplos
sistemas
- Padronização de procedimentos - redução de
custos de treinamento
- Interação com um único fornecedor
- Dependência de um único fornecedor
- Se o sistema falhar toda a empresa pode
parar
Quadro 2 Características do ERP x Benefícios e Problemas
Fonte: Adaptado de Zwicker e De Souza (2003)
Além dos conceitos, benefícios e dificuldades apresentados pelos autores, é importante
conhecer também os resultados dos estudos de caso realizados sobre a utilização e
implementação do ERP. No estudo realizado por Azevedo e Serdeira (2016), sobre a
4 Backlog: É um resumo histórico de acumulação de trabalho em um determinado intervalo de tempo.
17
utilização de ERP nas principais unidades hoteleiras de Portugal, foi identificada uma quase
ausência da utilização de forma integrada, as funções automatizadas possuem uma boa
cobertura porém com a utilização de módulos de diferentes origens, a integração dos
departamentos é bastante delicada e a obtenção de relatórios gerenciais também é dificultada.
Este cenário é um exemplo da utilização de ERP com integração de módulos de fornecedores
diferentes, e apresenta problemas que geralmente não acontecem na utilização de um ERP
inteiramente integrado e de uma única fonte.
No trabalho de Lech (2016), foi realizado um estudo em uma empresa de produção de
médio porte, com a implementação de um dos maiores softwares ERP do mercado. O autor
detalhou o esforço necessário para cada etapa da implementação, e ressalta que o esforço
destinado à configuração e parametrização do software de acordo com a organização não deve
ser subestimado e pode fazer uma diferença significativa, já que em seu estudo, a atividade de
parametrização foi a mais demorada. Demora esta que se justifica diante da diferença de
detalhes de cada organização.
No estudo realizado por Mendes, Carvalho, e Machado (2016), voltado para a
resistência na adoção de tecnologias e estratégias, foi identificado que receios quanto à perda
de emprego, falta de informação sobre os motivos da mudança, falta de conhecimento em
relação aos ERP, receios de falhar ou de não se conseguir adaptar ao novo sistema, perda de
poder, sentimento de insegurança e razões econômicas são algumas das principais fontes de
resistência dos usuários. Tais fontes estão diretamente relacionadas ao nível de informação e
formação do usuário, tendo em vista que, segundo o estudo do autor, quanto maior a idade e
quanto menores as habilitações e conhecimentos de informática, as pessoas possuem uma
tendência maior a serem usuários insatisfeitos. O ambiente de trabalho e a gestão do projeto
podem contribuir para minimizar a resistência dos usuários (MENDES; CARVALHO;
MACHADO, 2016).
Evangelista (2017) realizou um estudo sobre o gerenciamento dos fatores críticos de
sucesso na implementação de um módulo do sistema ERP em uma instituição de ensino do
setor público, como resultado do estudo o autor verificou que muitos dos fatores críticos não
foram adequadamente gerenciados, principalmente fatores organizacionais. Para o autor, o
problema pode ter sido ocasionado pela ausência de pessoas com visão de negócio na equipe
de implementação do ERP, já que a equipe era composta apenas por quatro pessoas da área de
Tecnologia da Informação. É comum que sistemas ERP de maior porte possuam uma equipe
de implementação variada e bem capacitada, enquanto em ERPs de porte menor, não é de
costume encontrar equipes de implementação muito mistas, pois os custos são maiores. No
18
caso do setor público, devido à burocratização na escolha de sistemas a serem utilizados, nem
sempre o sistema selecionado será o mais adequado para a instituição (EVANGELISTA,
2017).
LEE et al. (2009) realizaram um estudo para verificar como a implementação de um
ERP pode transformar os processos de negócio de uma empresa. No estudo, os autores
identificaram que implementar sistemas ERP envolve muito mais que apenas o aspecto
técnico. A etapa de análise e planejamento, é a mais importante, pois é neste estágio que os
aspectos gerenciais da implementação de ERP são considerados. É importante utilizar
tecnologias da informação inovadoras para criar valor para os clientes estendendo as
funcionalidades do ERP (LEE et al., 2009).
A implementação de um ERP é um processo complexo, aumentando a complexidade
de acordo com o tamanho da organização. Implementações malsucedidas podem trazer
prejuízos às empresas, ao mesmo tempo em que implementações de sucesso trazem benefícios
e lucros. Devido ao alto custo de implementação de um ERP inteiramente integrado, ou seja,
desenvolvido por uma única fonte, e das peculiaridades de alguns setores de empresas, é
comum que seja necessária a integração do ERP com outros sistemas. A próxima seção
abordará com mais detalhes o conceito e utilização de integração.
2.2. Integração de sistemas de informação
Os sistemas de informação estão cada vez mais presentes nas organizações, sendo
comum a utilização de dois ou mais sistemas no dia a dia dessas. Por este motivo, é comum a
necessidade de integrar diferentes sistemas, para juntos serem capazes de melhor atender os
processos de gestão e controle das empresas. A Figura 3 exemplifica áreas que necessitam
integração. Mais do que integrar departamentos, os sistemas também contribuem para a
integração de dados, já que estes fazem parte dos sistemas de informação.
19
Figura 3 Exemplo de integrações de uma organização
Fonte: Adaptado de https://docs.oracle.com/cd/A87860_01/doc/ois.817/a83729/adois01.htm
Para Balasubramanian et al. (2009), existem diferentes níveis de integração, tais quais:
Integração de dados: integra sistemas na camada de dados lógicos, geralmente
usando alguma forma de transferência ou compartilhamento de dados. São exemplos bancos
de dados comerciais.
Integração funcional: integra sistemas na camada lógica de negócios, geralmente
usando objetos ou componentes distribuídos, arquiteturas orientadas a serviços ou
middleware5 de sistema de mensagens.
Integração de apresentação: permite o acesso à funcionalidade de um aplicativo por
meio de sua interface do usuário, simulando a entrada de um usuário e lendo dados da tela.
Linguagens de programação que usam expressões regulares para analisar a saída de tela de
sistemas legados são exemplos da utilização desta integração.
Integração de portal: um aplicativo de portal que exibe informações recuperadas de
vários aplicativos por meio de uma interface de usuário unificada, permitindo que os usuários
executem as tarefas necessárias.
Integração de processos: define um modelo de processo de negócios que descreve as
etapas individuais em uma função de negócios complexa e coordena a execução de funções de
negócios de longa duração que abrangem vários aplicativos distintos. São exemplos de
tecnologias que suportam a integração de processos: implementações do Business Process
Execution Language (BPEL) e o BPEL voltado a web services (WS-BPEL).
5 Middleware: “Software que se encontra entre o sistema operacional e os aplicativos nele executados”.
Disponível em: https://azure.microsoft.com/pt-br/overview/what-is-middleware/ Acesso em 17/05/2018.
Integração
Aplicações ERP
Fornecedores e Parceiros
Força de Vendas
Sistemas de Business
Inteligence
Vitrine Eletrônica
Portal
Provedores de Serviços
Seriço ao Cliente
20
Mohamed et al. (2013) apresenta ainda outros níveis diferentes de integração, sendo
estes:
• Nível I – Integração de especificação do sistema: nível mais baixo de integração que
é marcado pela integração de compatibilidade e integração de especificação em uma
base independente.
• Nível II – Integração entre usuário e sistema: caracterizada pela integração de
usuários com tecnologia e ambiente.
• Nível III – Ilhas de integração tecnológica: O objetivo deste nível é conectar ilhas de
tecnologia que estão dispersas geograficamente, concentrando-se na capacidade dessas
ilhas de se conectarem entre si.
• Nível IV – Integração da organização: O foco deste nível é integrar a organização
como um todo, em vez de uma mera integração tecnológica.
• Nível V – Integração sócio organizacional: Este nível de integração abrange os
ambientes sociais externos, tais como instituições cívicas, indústria e governo indo
além das práticas tradicionais de negócios.
• Nível VI – Integração global: É o nível mais alto de integração. As organizações vão
além das fronteiras culturais e nacionais, sendo assim, há uma variedade de questões
envolvidas neste nível, desde os costumes, estilos de gestão, política, tempo e
diferenças de idioma. A cadeia de suprimentos que atravessa a fronteira geográfica
exemplifica esse nível de integração.
É comum que nem todos os níveis de integração estejam presentes em uma
determinada organização ou projeto, pois cada projeto de cada organização possui suas
características específicas. Além dos níveis de integração, é possível encontrar diferentes
abordagens conceituais que se complementam ao conceito de integração de sistemas de
informação como um todo, como a integração de subsistemas, integração web, Linked Data e
Enterprise Application Integration (EAI).
Subsistemas são sistemas desenvolvidos de forma independente, que podem ser
integrados outros subsistemas a fim de formar um sistema integrado que atenda às
necessidades da organização, por exemplo, um subsistema de CRM, pode ser integrado a
outros subsistemas para atender as necessidades do negócio da organização. Os subsistemas
podem ser integrados todos simultaneamente ou podem ser gradativamente integrados. É
benéfico realizar a integração dos subsistemas de forma gradual porque é mais fácil conciliar
as agendas dos projetos dos diferentes produtos de desenvolvimento, e também simplifica o
21
trabalho durante a identificação de erros, pois um erro que não existia quando o subsistema B
estava integrado, mas passou a existir quando o subsistema C foi integrado, provavelmente é
um erro causado pelo sistema C (SOMMERVILLE, 2005; DE ALMEIDA, 2010;
OLIVEIRA; HATAKEYAMA, 2012).
Quando falamos de integrações voltadas para a web, podemos destacar a utilização de
web services (serviços web), que são soluções para tornar uma determinada função acessível
por mais de um sistema. É como se algumas funções do sistema passassem a ser “modulares”,
por exemplo, como a função de criar um pedido em um sistema de força de vendas. A função
de criar um pedido poderia estar em um web service, e tanto aplicações mobile quanto web
poderiam utilizar o mesmo web service para persistir o pedido no banco de dados, evitando
que o processo seja desenvolvido de forma duplicada nas diferentes plataformas, permitindo a
reutilização do processo de troca de informações e facilitando a manutenção (DAL MORO;
DORNELES; REBONATTO, 2011; SIMÕES, 2017; ZAVALIK, 2004).
O objetivo principal do web service é prover interoperabilidade entre aplicações que
foram desenvolvidas em sistemas diferentes, com um middleware diferente e diferentes banco
de dados (MOCKFORD, 2004). A arquitetura de web services parte do pressuposto de que há
pelo menos dois agentes trocando informações, sendo um o solicitante do serviço (Service
Requester) e outro o provedor do serviço (Service Provider) (ZAVALIK, 2004).
Há ainda uma terceira entidade na arquitetura considerada o registro de serviços
(Service Broker) (TELÖKEN, 2006). As três entidades se relacionam da seguinte forma: o
Service Provider cria o serviço e disponibiliza ao mundo externo através do registro do
serviço no Service Broker, o Service Requester busca no Service Broker pelo serviço
desejado, e depois de encontrar, se conecta com o Service Provider para consumir o serviço.
Esta interação pode ser visualizada na Figura 4.
Figura 4 Arquitetura Web Services
Fonte: Adaptado de (TELÖKEN, 2006; ZAVALIK, 2004)
22
De acordo com Mockford (2004), tal arquitetura foi desenvolvida com base nos
seguintes princípios:
• Acoplamento solto: Um serviço da web deve ser visto como uma caixa preta que
divulga apenas as informações mínimas específicas do serviço necessárias para uma
comunicação correta.
• Passagem de mensagem assíncrona: A arquitetura supõe que os serviços podem
precisar ser dimensionados quase infinitamente.
• Transparência de dados: A arquitetura é baseada somente em formatos e tecnologias
baseados em XML. Isso permite a reutilização de bibliotecas e ferramentas comuns
disponíveis no mercado.
• Federação: A arquitetura permite que um aplicativo baseado em serviços da web
abranja várias organizações autônomas. Ao mesmo tempo, a arquitetura deve
funcionar sem assumir uma plataforma de implantação comum, registro de serviço ou
autoridade de segurança.
• Extensibilidade: A arquitetura deve fornecer um nível básico de interoperabilidade,
sem sufocar a evolução ou a inovação. É um requisito crítico na arquitetura que a
plataforma que construímos hoje possa se adaptar a requisitos e tecnologias
imprevistos de amanhã.
O funcionamento dos web services faz uso de protocolos de comunicação em 5
diferentes camadas, sendo elas: camada de Transporte, camada de Mensagens, camada de
Dados, camada de Descrição, e camada de Descoberta (TELÖKEN, 2006; ZAVALIK, 2004).
A Figura 5 mostra a relação dos protocolos com as camadas.
Figura 5 Tecnologias usadas para Web Services
Fonte: Adaptado de (TELÖKEN, 2006; ZAVALIK, 2004)
O termo “EAI” também é mencionado quando falamos de integração de sistemas. EAI
é sigla do inglês Enterprise Application Integration, termo que surgiu por volta dos anos 90, é
• UDDI, DISCO, WDIL, ebXMLCamada de Descoberta
• WSDL, RDF, ebSMLCamada de Descrição
• SOAP, XML-RPCCamada de Mensagens
• HTTP, SMTP, FTP...Camada de Transporte
• TCP/IP, UDPCamada de Rede
23
um termo de computação comercial para planos, métodos e ferramentas que visam
modernizar, consolidar e coordenar a funcionalidade geral do computador em uma empresa
(LEE; SIAU; HONG, 2003). O objetivo final do EAI é integrar todas as aplicações dentro da
empresa como um todo de forma coerente. Essa integração oferece a possibilidade de suportar
uma estratégia empresarial ampla, baseada na integração e com foco no cliente (WAHLBERG
et al., 2009).
Ao invés de realizar modificações em diversos sistemas para realizar a integração, o
EAI usa um middleware especial que serve como ponte entre diferentes aplicativos para a
integração do sistema. Todos os aplicativos podem se comunicar livremente entre si por meio
de uma camada de interface comum, e não por meio da integração ponto-a-ponto. Assim, o
EAI elimina a programação extensiva (LEE; SIAU; HONG, 2003). A Figura 6 compara a
abordagem do EAI com a integração tradicional de integração.
Figura 6 Integração EAI x Integração Tradicional
Fonte: Adaptado de (LEE et al., 2009; WAHLBERG et al., 2009)
Além das integrações EAI e tradicional mencionadas na Figura 6, outro termo
estudado é Linked Data. O termo Linked Data pode ser destacado pela ênfase da integração
entre informações. Linked Data é uma coleção de conjuntos de dados inter-relacionados na
Web, utilizando técnicas da Web Semântica, como Uniform Resource Identifier (URI), por
exemplo (DA ROCHA, 2012; W3C, 2013).
Os princípios de Linked Data foram delimitados por Berners-Lee (2006), sendo estes
princípios considerados comportamentos esperados para criar dados interconectados. Os
princípios segundo Berners-Lee (2006) são os seguintes:
24
1. Utilizar URIs como nomes para as coisas;
2. Utilizar HTTP URIs para que as pessoas possam procurar esses nomes;
3. Quando alguém procura um URI, fornecer informações úteis, usando os padrões
(RDF *, SPARQL);
4. Incluir links para outros URIs para que as pessoas possam descobrir mais coisas;
Tendo em vista que a utilização e existência do Linked Data são amplamente ligados a
web semântica, esse assunto será abordado com maior detalhamento no item 2.4.
2.3. Web Semântica
Web Semântica não é uma nova Web separada, mas sim uma extensão da Web
conhecida tradicionalmente. Web Semântica busca fazer com a semântica de conteúdos já
existentes em páginas web, e a interligação destes conteúdos possam ser utilizadas para
alcançar uma web realmente conectada. (BERNERS-LEE; HENDLER; LASSILA, 2001;
PEREIRA, 2018).
É necessário que os computadores tenham acesso a conjuntos estruturados de
informação e conjuntos de regras de inferência para que a web semântica funcione e possa
utilizar estes elementos para conduzir o raciocínio automatizado. Alguns conceitos que
contribuem para o funcionamento da web semântica são: Ontologia, XML, RDF, e OWL
(BERNERS-LEE; HENDLER; LASSILA, 2001).
Figura 7 Pilha de tecnologias para web semântica
Fonte: (BERNERS-LEE, 2009)
25
Estes conceitos estão na pilha tecnológica para web semântica, proposta por
(BERNERS-LEE, 2009), apresentada na Figura 7 e detalhada nos parágrafos que seguem.
XML é sigla para o termo inglês eXtensible Markup Language, o XML permite que
qualquer pessoa crie suas próprias tags e que scripts ou programas consumam esta informação
de formas sofisticadas, concentra-se na descrição dos metadados de um documento
(PEREIRA, 2018). A Figura 8 apresenta um exemplo de estrutura XML. De qualquer forma,
o XML permite utilizar uma estrutura de informações, mas não fornece informações sobre o
que as estruturas significam (BERNERS-LEE; HENDLER; LASSILA, 2001).
Figura 8 Exemplo de estrutura XML
Fonte: https://pt.slideshare.net/danielmotaba/daniel-mota-banco-de-dados-web-e-xml
RDF (Resource Description Framework), é uma estrutura para representar
informações na Web proposta pela W3C, é utilizado para expressar os significados,
codificando os significados em conjuntos de triplas, permitindo criar triplas que contêm um
nó sujeito, uma relação chamada de predicado e o nó objeto (sujeito, predicado, objeto).
Mediante essa tripla, é possível indicar a relação entre dados e usá-la para representar a
semântica contida neles. Tais triplas podem ser escritas utilizando tags XML (ISOTANI,
SEIJI; BITTENCOURT, [s.d.]; PEREIRA, 2018).
No RDF, um documento faz afirmações de que determinadas "coisas" (do inglês,
things) têm propriedades com determinados valores. Essa estrutura é uma maneira natural de
descrever a grande maioria dos dados processados por máquinas. O assunto e objeto
utilizados no RDF são identificados por um URI (Universal Resource Identifier). URLs,
Uniform Resource Locators, são o tipo mais comum de URI. URIs também permitem a
qualquer um definir um novo conceito, um novo verbo, apenas definindo um URI para esse
em algum ponto da Web. Um exemplo de URI é:
<http://dbpedia.org/class/yago/Idea105833840>.
RDF não permite a definição de relacionamentos entre propriedades e recursos, e para
suprir esta necessidade, surgiu o RDF-S (HANNEL, 2008). RDF-S (Resource Description
26
Framework Schema) é um conjunto de classes e propriedades utilizadas para complementar o
RDF com elementos básicos para a descrição de ontologias (PEREIRA, 2018). A Figura 9
demonstra um exemplo de diagrama RDF.
Figura 9 Exemplo de um diagrama RDF
Fonte: Adaptado de Horrocks (2008)
RIF (Rule Interchange Format) são recomendações da W3C que tem o objetivo de
facilitar a integração de regras de forma consistente com as tecnologias para web semântica,
especificamente OWL e RDF. Já SPARQL, fornece linguagem e protocolos para consultar e
manipular o conteúdo de grafos RDF na web ou em repositórios RDF. SPARQL é baseado na
sintaxe do SQL, com o objetivo de facilitar a consulta de dados e prover um padrão para
consultas na web semântica (PEREIRA, 2018).
Web Ontology Language (OWL) é uma linguagem da Web semântica projetada para
representar um conhecimento rico e complexo sobre coisas, grupos de coisas e relações entre
coisas (OWL WORKING GROUP, 2012; PEREIRA, 2018; RIGO, 2008). A W3C afirma que
a semântica formal de OWL especifica como derivar suas consequências lógicas, isto é, fatos
não literalmente presentes na ontologia, mas envolvidos pela semântica. Essas implicações
podem ser baseadas em um único documento ou vários documentos distribuídos que foram
combinados usando mecanismos OWL definidos (W3C, 2015).
Para compreendermos melhor o conceito de ontologias e o motivo da pilha de
tecnologias proposta por Berners-Lee (2009) incluí-lo, devemos detalhar alguns pontos
27
existentes na literatura. Segundo Hofweber (2017), a maior disciplina da ontologia pode ser
vista como tendo quatro partes: (i) o estudo do compromisso ontológico, ou seja, o que nós ou
outros estamos comprometidos com; (ii) o estudo do que existe; (iii) o estudo das
características mais gerais do que existe, e como as coisas estão relacionadas umas com as
outras das formas metafísicas mais gerais; (iv) o estudo da meta-ontologia, isto é, dizendo que
tarefa é que a disciplina da ontologia deve visar realizar, se houver, como as questões que
pretende responder devem ser entendidas e com qual metodologia elas podem ser
respondidas.
O conceito de ontologia surgiu inicialmente na filosofia e, segundo Smith (2002), a
ontologia como um ramo da filosofia é a ciência do que é, dos tipos e estruturas de objetos,
propriedades, eventos, processos e relações em todas as áreas da realidade. A "Ontologia" é
frequentemente usada pelos filósofos como sinônimo de "metafísica" (literalmente: "o que
vem após a Física") (GOLDBERG JÚNIOR, 2016).
De acordo com Gruber (2009), o termo foi adotado por pesquisadores da Inteligência
Artificial (IA), que reconheceram a aplicabilidade do trabalho a partir da lógica matemática
(MCCARTHY, 1980) e argumentaram que pesquisadores de IA poderiam criar novas
ontologias como modelos computacionais.
Na computação, uma ontologia pode ser definida como um conjunto de conceitos
fundamentais e suas relações, uma taxonomia e um conjunto de regras para inferência que
capta como as pessoas entendem (ou interpretam) o domínio em questão e permite a
representação de tal entendimento de maneira formal, compreensível por humanos e
computadores (BERNERS-LEE; HENDLER; LASSILA, 2001; MIZOGUCHI, 2004)
Para Gruber (2009), uma ontologia especifica um vocabulário para fazer asserções,
que podem ser entradas ou saídas de agentes de conhecimento (como um programa de
software). Tal vocabulário poderia ser utilizado por diversas aplicações. Guarino (1997),
também destaca que uma ontologia pode ser modelada para a reutilização e compartilhamento
do conhecimento. Na ontologia, a intuição básica é que dois conceitos são mais semelhantes
se estiverem mais próximos um do outro considerando relações taxonômicas (LOFI, 2015).
Almeida e Bax (2003) sintetizam os tipos de ontologias propostos por diversos
autores, podendo as ontologias serem classificadas por sua função, grau de formalismo de seu
vocabulário, à sua aplicação, e à estrutura e conteúdo da conceptualização. O Quadro 3
contempla as abordagens sintetizadas pelos autores.
28
Quadro 3 Classificação de Ontologias
Fonte: Adaptado de Almeida e Bax (2003)
Algumas classificações se repetem em diferentes abordagens, sendo que cada autor
aborda uma classificação de forma diferente, voltada para abordagem em questão. As
classificações que se repetem são as de ontologias de domínio ontologias de tarefa.
Com a utilização das tecnologias como RIF, RDF, SPARQL e OWL abordadas
anteriormente, e do conceito de ontologia, é possível vislumbrar uma web semântica e muito
mais conectada, permitindo que computadores possam identificar as ligações em diferentes
páginas web mesmo sem uma complexa implementação de inteligência artificial, por
exemplo, tornando a vida dos usuários mais fácil e a web mais conectada.
2.4. WordNet
A WordNet é uma base de dados léxica online compreensível por computadores,
organizada como uma taxonomia de conceitos. Ela liga substantivos, verbos, adjetivos e
Abordagem Classificação Descrição
Ontologias de domínioReutilizáveis no domínio, fornecem vocubulário sobre conceitos, seus
relacionamentos, sobre atividades e regras que os governam.
Ontologias de tarefaFornecem um vocabulário sistematizado de termos, especificando tarefas
que podem ou não estar no mesmo domínio.
Ontologias GeraisIncluem um vocabulário relacionado a coisas, eventos, tempo, espaço,
casualidade, comportamento, funções, etc.
Ontologias altamente informais Expressa livremente em linguagem natural.
Ontologias semi-informais Expressa em linguagem natural de forma restrita e estruturada.
Ontologias semiformais Expressa em um uma linguagem artificial definida formalmente.
Ontologia rigorosamente formal Os termos são definidos com semântica formal, teoremas e provas.
Ontologias de autoria neutraUm aplicativo é escrito em uma única língua e depois convertido para uso
em diversos sistemas reutil izando-se as informações.
Ontologias como especificaçãoCria-se uma ontologia para um domínio, a qual é usada para documentação
e manutenção no desenvolvimento de softwares.
Ontologias de acesso comum à informaçãoQuando o vocabulário é inacessível, a ontologa torna a informação
inteligível, proporcionando conhecimento compartilhado dos termos.
Ontologias de alto nível
Descrevem conceitos gerais relacionados a todos os elementos da ontologia
(espaço, tempo, matéria, objeto, evento, ação, etc.) os quais são
independentes do problema ou domínio.
Ontologias de domínioDescrevem o vocaburário relacionado a um domínio, como, por exemplo,
medicina ou automóveis.
Ontologias de tarefaDescrevem uma tarefa ou atividade, como, por exemplo, diagnósticos ou
compras, mediante inserção de termos especializados na ontologia.
Ontologias terminológicasEspecificam termos que serão usados para representar o conhecimento em
um domínio (por exemplo, os léxicos).
Ontologias de informaçãoEspecificam a estrutura de registros de bacos de dado (por exemplo, os
esquemas de bancos de dados).
Ontologias de modelagem do conhecimento
Especificam conceitualizações do conhecimento, têm uma estrutura interna
semanticamente rica e são refinadas para uso no domínio do conhecimento
que descrevem.
Ontologias de aplicaçãoContêm as definições necessárias para modelar o conhecimento em uma
aplicação.
Ontologias de domínioExpressam conceitualizações que são específicas para um determinado
domínio do conhecimento.
Ontologias genéricasSimilares às ontologias de domínio, mas os conceitos que as definem são
considerados genéricos e comuns a vários campos.
Ontologias de representaçãoExplicam as conceitualizações que estão por trás dos formalismos de
representação conhecimento.
Quanto à função
Mizoguchi,
Vanwelkenhuysen &
Ikeda (1995)
Quanto ao grau de
formalismo
Uschold &
Gruninger (1996)
Quanto à aplicação
Jasper & Uschold
(1999)
Quanto à estrutura
Haav & Lubi (2001)
Quanto ao conteúdo
Van-Heijist,
Schreiber &
Wielinga (2002)
29
advérbios da língua inglesa a conjuntos de sinônimos que são ligados através de relações
semânticas que determinam as definições de palavras (MILLER, 1995; PIMENTA JÚNIOR,
2017). WordNet foi criada em 1990 por George Miller e colegas (MILLER, 1995; MILLER et
al., 1990). A rede é formada por dois tipos de vértices: palavras e conceitos. As palavras
podem ser interligadas entre si através de uma variedade de relacionamentos, como sinonímia
(similar) e antonímia (oposto) (FERRER-I-CANCHO, 2005).
A WordNet é baseada em teorias psicolinguísticas para definir significado de palavras
e modelos, não apenas associações de significados de palavras, mas também associações de
significado e significado (FERRER-I-CANCHO, 2005). Tenta se concentrar nos significados
da palavra em vez de formas de palavras, embora a morfologia de inflexão também seja
considerada. A WordNet consiste em três bancos de dados, um para substantivos, um para
verbos e um terceiro para adjetivos e advérbios (LIN; SANDKUHL, 2008). A Figura 10
demonstra o resultado de uma busca na WordNet pela palavra “client”.
Figura 10 Resultado de busca na WordNet pela palavra "client"
Fonte: http://wordnetweb.princeton.edu/perl/webwn
Na WordNet as palavras são agrupadas em conjuntos de sinônimos chamados de
synsets, estes synsets possuem curtas definições e guardam as várias relações semânticas
destes conjuntos de sinônimos. Os synsets são interligados por meio de relações conceituais-
semânticas e léxicas de maneira hierárquica. Os conceitos são relacionados a outros conceitos
mais altos ou baixos na hierarquia através de diferentes tipos de relacionamentos em que os
mais comuns são os de generalização/especialização (Hypernym/Hyponym) e todo/parte de
(Meronym/Holonym). Dessa forma, qualquer palavra pode ser definida em termos de outras
palavras a ela relacionadas na hierarquia (PIMENTA JÚNIOR, 2017).
Segundo (MILLER, 1995), a WordNet inclui as seguintes relações semânticas:
• (i) Synonymy (Sinonímia) é a relação básica da WordNet e faz uso de conjuntos
de sinônimos (synsets) para representar os sentidos da palavra. É uma relação
simétrica entre formas de palavras.
30
• (ii) Antonymy (Antonímia) é também uma relação semântica simétrica entre
formas de palavras, especialmente importante na organização dos significados
de adjetivos e advérbios.
• (iii) Hyponymy (Hiponímia) e seu inverso, hypernymy (hiperonímia) são
relações transitivas entre os synsets. Como geralmente há apenas um
hiperônimo, essa relação semântica organiza os significados dos substantivos
em uma estrutura hierárquica.
• (iv) Meronymy (meronímia) e seu inverso, holonymy (Holonímia), são relações
semânticas complexas. O WordNet distingue componentes, partes substantivas
e partes de membros.
• (v) Troponymy (Toponímia) é para verbos o que hiponímia é para substantivos,
embora as hierarquias resultantes sejam muito menos profundas.
• As relações de comprometimento entre verbos também são codificadas na
WordNet.
O Quadro 4 apresenta exemplos das relações semânticas
Relação Descrição Exemplo
Sinonímia
Relação entre palavras que
apresentam significados iguais ou
semelhantes.
Distante é sinônimo de afastado
Antonímia Relação entre palavras que
apresentam significados contrários Economizar é antônimo de gastar
Hiperonímia
Uma palavra com um sentido mais
abrangente que engloba o sentido
do hipônimo
Flor é hiperônimo de rosa
Hiponímia Uma palavra hierarquicamente
inferior, com sentido mais restrito. Leão é hipônimo de animal
Meronímia Um merônimo denota uma parte
constituinte ou um membro de algo Teclas infere o todo teclado
Toponímia Estudo dos nomes geográficos
Espanha a toponímia é árabe, latim,
castelhana, catalã, basca, galega ou
sem classificação
... Via conceitos.com:
https://conceitos.com/toponimia/ Quadro 4 Exemplos das relações semânticas
31
Fonte: Elaborado pela autora
Atualmente, já existem frameworks computacionais como o Sematch e YAGO que
fazem uso da WordNet para fornecer uma utilização simples e completa. YAGO será
abordado com maior detalhamento no item 2.5.
2.5. YAGO
Sigla para o termo “Yet Another Great Ontology” e trata-se de um projeto de Max
Planck Institute for Informatics e da Telecom ParisTech University. Pode ser definida como
uma ontologia que combina alta cobertura com alta qualidade, utilizando WordNet e
Wikipedia6. Esta última, possui páginas de categoria que permitem verificar, por exemplo, que
Zidane está na categoria de jogadores de futebol franceses. A partir disto, é possível
identificar candidatos para entidades (ex.: Zidane) e para relações (ex.: IsA, em português “é
um”). Em uma ontologia, os conceitos precisam estar organizados em uma taxonomia, e a
Wikipedia deixa a desejar nesse sentido. Por exemplo, Zidane está na categoria chamada
“Futebol na França”, mas Zidane é um jogador de futebol e não um futebol. Em paralelo, a
WordNet fornece uma hierarquia limpa e cuidadosamente elaborada para milhares de
conceitos, e por este motivo, YAGO combina WordNet e Wikipedia para obter um melhor
resultado. A Figura 11 mostra uma representação gráfica de uma entidade e suas relações no
YAGO (SUCHANEK; KASNECI; WEIKUM, 2007).
6 https://www.wikipedia.org/
32
Figura 11 Representação gráfica de uma entidade e suas relações no YAGO
Fonte: https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/
Em 2017, YAGO tornou-se open source e encontra-se disponível no repositório de
códigos-fonte GitHub7. Em outubro de 2018, YAGO já tinha conhecimento de mais de 10
milhões de entidades e mais de 120 milhões de fatos sobre essas entidades. A precisão do
YAGO foi avaliada manualmente, atingindo 95%, ao passo que cada relação possui o seu
valor de confiança. YAGO combina a taxonomia limpa do WordNet com a riqueza do sistema
de categorias da Wikipedia, atribuindo entidades a mais de 350.000 classes. Extrai e combina
entidades e fatos de 10 Wikipedias em diferentes idiomas (MAX PLANCK INSTITUTE
FOR; INFORMATICS, 2018)
A precisão de YAGO confirma que este é um excelente framework para ser utilizado
dentre as demais ontologias existentes, e mostra que a combinação de diferentes métodos na
ontologia é positiva, já que permite que um elemento complemente o outro, como é o caso da
Wikipedia e WordNet. Outro framework utilizado como ontologia é a DBpedia, que inclusive
mapeia entidades do tipo YAGO, conforme será detalhado no item 2.6.
2.6. DBpedia
Bases de conhecimento estão desempenhando um papel cada vez mais importante no
aprimoramento da inteligência de pesquisa na web e no suporte à integração de informações.
A maioria das bases de conhecimento atinge hoje apenas domínios específicos, é criada por
7 https://github.com/ Acesso em 06/11/2018.
33
grupos relativamente pequenos e é muito custoso para manter atualizada quando os domínios
mudam. Ao mesmo tempo, a Wikipedia se tornou uma das fontes centrais de conhecimento no
mundo todo, mantida por milhares de colaboradores (BIZER et al., 2007; DBPEDIA, 2018).
A DBpedia, além de ser um projeto, é uma base de conhecimento que extrai
conhecimento da Wikipedia e torna amplamente disponível através de padrões da Web
Semântica estabelecidos e melhores práticas de Linked Data. Faz sentido privilegiar o acesso
ao conteúdo da Wikipedia, pois esta é atualmente o 7º website mais popular, a enciclopédia
mais usada e um dos melhores exemplos de conteúdo criado de maneira colaborativa
(DBPEDIA, 2018; LEHMANN et al., 2015).
A versão inglesa da DBpedia descreve 4,58 milhões de "coisas", das quais 4,22
milhões são classificadas em uma ontologia consistente, incluindo 1.445.000 pessoas,
735.000 lugares, 411.000 obras criativas (incluindo 123.000 álbuns de música, 87.000 filmes
e 19.000 videogames), 241.000 organizações (incluindo 58.000 empresas e 49.000
instituições de ensino), 251.000 espécies e 6.000 doenças (BIZER et al., 2007; DBPEDIA,
2018).
A DBpedia também fornece versões em outros idiomas, sendo que o conjunto
completo de dados DBpedia possui 38 milhões de rótulos e resumos em 125 idiomas
diferentes, 25,2 milhões de links para imagens e 29,8 milhões de links para páginas externas
da web; 80,9 milhões de links para as categorias da Wikipedia e 41,2 milhões de links para as
categorias da YAGO. A DBpedia está conectada a outros Linked Datasets por cerca de 50
milhões de links RDF (DBPEDIA, 2018).
Cada um dos recursos descritos na DBpedia é identificado por uma referência de URI
no formato http://DBpedia.org/resource/Name, onde “Name” é retirado da URL do artigo de
origem da Wikipedia, que tem o formato http://en.Wikipedia.org/wiki/Name, de forma que
cada recurso é vinculado diretamente a um artigo da Wikipedia em inglês, trazendo benefícios
como: cobertura de uma ampla gama de tópicos enciclopédicos, definição pelo consenso da
comunidade, existência de políticas claras em vigor para a sua gestão, e uma extensa
definição textual do conceito está disponível em website conhecido (a página da Wikipedia)
(BIZER et al., 2007).
A DBpedia também mapeia entidades YAGO, é possível identificar por URI recursos
na DBpedia do tipo YAGO, como por exemplo
http://DBpedia.org/class/yago/Dancer109989502. Posteriormente esta URI da DBpedia pode
ser utilizada para execução de algoritmos de similaridade comparando entidades YAGO. A
34
Figura 12 demonstra a visualização da uma entidade YAGO “Dancer” na DBpedia. Tal
visualização pode ser obtida navegando no browser pela URI.
Figura 12 Trecho da visualização da entidade YAGO "Dancer"
Fonte: http://DBpedia.org/class/yago/Dancer109989502
É possível identificar que as ontologias YAGO, DBpedia e WordNet fornecem
embasamento para a identificação de conceitos e contribuem para uma web mais semântica,
que vem se desenvolvendo e crescendo com a colaboração de diversos engenheiros de dados
de diferentes instituições do mundo.
2.7. Medidas de similaridade semântica entre termos
Similaridade é um conceito complexo que vem sendo amplamente discutido nas
comunidades linguística, filosófica, e da teoria da informação (ISLAM; INKPEN, 2008).
Similaridade de texto é definida especificando o quanto um texto é próximo do outro. Isso
pode ser medido por algumas informações estilísticas, como o tamanho da sentença, a
variação da palavra e assim por diante. Existem muitas técnicas de similaridade, como syntax-
based (lexical-based), semantic-based, e hybrid-based (MIHANY et al., 2016).
A técnica lexical-based (em português, similaridade léxica) está relacionada apenas à
sintaxe. Trata-se do que é escrito ou da sequência de caracteres e quanto essas palavras são
semelhantes entre si, independentemente do seu significado. As medidas de similaridade
léxicas são divididas em duas categorias principais: similaridade baseada em caracteres e
similaridade baseada em termos. Há muitos algoritmos que são usados na similaridade léxica,
35
como Longest Common SubString (LCS), Damerau- Levenshtein, Jaro, Jaro-Winkler e outros
(MIHANY et al., 2016).
A técnica semantic-based (em português, similaridade semântica) mede como as
palavras são semelhantes entre si, comparando o significado por trás de cada um. Por
exemplo, as palavras em inglês gift e present lexicamente não são similares, entretanto são
semelhantes semanticamente. Neste contexto, conforme os autores (LOFI, 2015; MIHANY et
al., 2016), ontologias podem ser utilizadas para fins de similaridade, por oferecerem estruturas
organizadas e representação clara do conhecimento, conectando conceituação com ponteiros
semânticos. Segundo (PIMENTA JÚNIOR, 2017), utilizam-se as medidas de similaridade
para detectar o nível de relacionamento entre os conceitos das palavras ou termos que tenham
características em comum. Cada uma destas técnicas pode resultar em métricas diferentes que
precisarão ser avaliadas.
36
3. METODOLOGIA
O presente trabalho é uma pesquisa qualitativa explicativa, dado que na pesquisa
qualitativa preocupa-se com o aprofundamento da compressão de um determinado tema,
diferindo da pesquisa quantitativa. Esta é uma pesquisa qualitativa explicativa porque busca
conhecer e compreender como a utilização de ontologia e da web semântica pode contribuir
na integração de sistemas computacionais.
3.1. Instrumentos e infraestrutura
Para realização da pesquisa, os instrumentos utilizados foram ferramentas que
permitem a comparação de duas palavras através de diferentes métodos, sendo estas:
WordNet, DBpedia, Sematch e NTLK.
NTLK, sigla para Natural Language Toolkit, é uma plataforma para construção de
programas em Python para trabalhar com dados de linguagem humana, fornecendo interfaces
fáceis de usar para mais de cinquenta recursos corpora e léxicos como a WordNet, juntamente
com um conjunto de bibliotecas de processamento de texto para classificação, análise e
raciocínio semântico, dentre outras funcionalidades (NLTK PROJECT, 2018).
Sematch é um framework integrado para desenvolver e avaliar métricas de
similaridade semântica para conceitos, palavras, entidades e suas aplicações. Com Sematch é
possível obter o resultado de métricas de similaridade semântica, como Path, Wu & Palmer,
Li, Resnik, Lin, Jiang & Conrad e WPath (SEMATCH, 2018; ZHU; IGLESIAS, 2015).
Quanto aos dados utilizados, foram definidos dois datasets disponíveis na internet, e
outros dois datasets elaborados pela autora. O primeiro dataset selecionado foi o Purchase
Order Data 2012-20158 (CA), que trata-se de arquivo do tipo CSV (comma separated values,
em português: valores separados por vírgula) com dados de compras de valor superior a
$5,000.00 (cinco mil dólares) extraídos do sistema eProcurement do Governo do Estado da
Califórnia, nos Estados Unidos, entre os anos fiscais de 2012 e 2015.
O segundo dataset selecionado foi Purchase Orders in FY 20159 (DC), formatado em
um arquivo CSV, que possui dados de compras de valor superior à $2,500 (dois mil e
quinhentos dólares), extraídos do sistema PASS (Procurement Automated Support System) do
Governo do Distrito de Columbia, nos Estados Unidos, no ano fiscal de 2015.
8 Disponível em: https://data.ca.gov/dataset/purchase-order-data. Acesso em 03/11/2018. 9 Disponível em: http://opendata.dc.gov/datasets/a3db68903a65496998ca388cb82ba926_46. Acesso em
03/11/2018.
37
Além dos datasets dos governos, foram elaborados dois datasets pela autora para
calibração do algoritmo, representados pelos nomes A e B no Quadro 5.
Dataset Colunas
A CAT;CLIENT;NM;actor
B DOG;CUSTOMER;identity
DC PO_NUMBER,AGENCY_NAME,NIGP_DESCRIPTION,PO_TOTAL_AMOUNT,
ORDER_DATE,SUPPLIER,FISCAL_YEAR,OBJECTID
CA
Creation Date;Purchase Date;Fiscal Year;LPA Number;Purchase Order Number;Requisition
Number;Acquisition Type;Sub-Acquisition Type;Acquisition Method;Sub-Acquisition
Method;Department Name;Supplier Code;Supplier Name;Supplier Qualifications;Supplier Zip
Code;CalCard;Item Name;Item Description;Quantity;Unit Price;Total Price;Classification
Codes;Normalized UNSPSC;Commodity Title;Class;Class Title;Family;Family
Title;Segment;Segment Title;Location;REMOVE AMERISOURCE
Quadro 5 Colunas dos datasets utilizados
Fonte: Elaborado pela autora
A escolha destes datasets com dados dos sistemas de compras dos governos, deu-se
pela semelhança das informações dos datasets com informações comumente encontradas em
um sistema ERP no âmbito empresarial. Além disto, são dados do Governo dos Estados
Unidos e por este motivo os nomes das colunas presentes nos arquivos estão em inglês,
permitindo maior abrangência na utilização de ontologias.
3.2. Procedimentos da pesquisa
Os procedimentos da pesquisa do presente trabalho se iniciam no estudo sobre um
agente comumente integrado com outros sistemas no mundo corporativo, o ERP, e o estudo
sobre as tecnologias e conceitos da web semântica e similaridade semântica. O principal
objetivo do presente trabalho é combinar técnicas de similaridade textual e o uso ontologias
na integração de schemas de dados. Além disso, esse trabalho de pesquisa visa identificar
algoritmos de similaridade para comparação de palavras e conceitos em schemas de dados,
comparar ontologias e diferentes algoritmos de similaridade no contexto de integração de
schemas de dados, desenvolver um algoritmo que combine diferentes técnicas de
similaridade, de modo que possa contribuir no suporte à integração de schemas de dados.
Após a pesquisa teórica, foram realizadas provas de conceitos (proofs of concept -
POCs) com as ferramentas Sematch, WordNet, DBpedia e NTLK, a fim de validar a utilização
elencar algoritmos de similaridade textual para utilização nesta pesquisa, visando o seu uso na
comparação de schemas de dados.
38
Após selecionados os datasets, iniciou-se o desenvolvimento do algoritmo para
combinar as diferentes técnicas de similaridade. O objetivo da utilização de datasets de
purchase orders é simular a utilização dos métodos de similaridade na situação da integração
dos datasets DC e CA, com base no rótulo das colunas dos datasets, desconsiderando os
dados presentes nas linhas. Por este motivo, a primeira etapa do algoritmo, após a importação
dos datasets, é a remoção das linhas dos datasets para utilização somente das colunas,
conforme item 1 na Figura 13.
Figura 13 Fluxograma do algoritmo
Fonte: Elaborado pela autora
Em seguida, é realizada a verificação de siglas (item 2 da Figura 13), onde é verificado
se o nome da coluna corresponde a uma das siglas previamente cadastradas pela autora em um
arquivo externo. As siglas foram obtidas dos portais California Open Data10 e Pennsylvania
Department of General Services11, podendo ser verificadas no Anexo A.
No passo seguinte, é realizada a normalização dos nomes das colunas (item 3 na
Figura 13), onde todos os caracteres são alterados para o formato minúsculo (lower case), e os
espaços em branco são substituídos pelo caractere underline, devido ao fato das consultas à
WordNet assumirem esse caractere como separador em palavras compostas.
10 Disponível em: https://data.ca.gov/dataset/purchase-order-data/resource/c88a1809-4265-4b64-823e-
309061632e42. Acesso em 04/11/2018. 11 Disponível em:
https://www.dgs.pa.gov/Documents/Procurement%20Forms/Training/TrainingResources/References/Glossary%
20of%20Procurement%20Acronyms.pdf. Acesso em 04/11/2018.
39
Uma vez concluída a normalização das colunas, é iniciada a validação de sinônimos
(item 4 na Figura 13). Utilizando o framework NTLK, é buscado o synset na WordNet para a
coluna a ser comparada, ou seja, a busca por sinônimos. Caso a coluna a ser comparada com a
primeira coluna esteja presente no synset, então elas são sinônimas. Por exemplo, durante a
comparação de “coluna_a” com “coluna_b”, se coluna_b estiver presente no synset de
coluna_a, estas colunas são aceitas como sinônimas. É atribuído pelo algoritmo o peso um ao
resultado de aceito na validação de sinônimos, e quando não são, é atribuído o peso zero.
Depois de concluída a verificação de sinônimos, é averiguada a similaridade das
colunas usando WordNet (item 5 na Figura 13), por meio dos algoritmos de Li, Lin, Wu &
Palmer, Resnik, Jiang & Conrad e WPATH. Cada algoritmo também retornará um peso como
resultado para a comparação. Caso o nome da coluna não seja encontrado na WordNet, é
atribuído o peso zero.
Na sequência, são buscados os conceitos na DBpedia que correspondem às colunas a
serem comparadas (item 6 na Figura 13). Para verificar a similaridade de conceitos na
DBpedia é necessário informar a URI do conceito ser comparado e, por este motivo, primeiro
é informado o nome das colunas e buscado na DBpedia se há algum conceito compatível com
o nome da coluna. Se o conceito for encontrado na DBpedia, então os conceitos são
comparados (item 7 na Figura 13) utilizando os algoritmos de Li, Lin, Wu & Palmer, Resnik,
Jiang & Conrad, WPATH e PATH. Cada algoritmo retornará um peso como resultado para
comparação. Caso não seja encontrado conceito na DBpedia correspondente ao nome coluna,
é atribuído o peso zero como resultado (item 8 na Figura 13).
Um processo semelhante é realizado para a verificação de similaridade YAGO. Para
comparação, é necessário comparar duas entidades YAGO e, por este motivo, é necessário
primeiro buscar a entidade YAGO correspondente às colunas a serem comparadas (item 9 na
Figura 13). Esta busca das entidades é realizada utilizando framework Sematch. Caso sejam
encontradas entidades correspondentes, utiliza-se novamente o framework para verificar a
similaridade das entidades entre si (item 10 na Figura 13), retornando um peso para a
similaridade das entidades YAGO. Caso não sejam encontradas entidades YAGO
correspondentes às colunas, a similaridade YAGO não é validada e é atribuído peso zero.
Por fim, é gerado um arquivo de saída no formato CSV contendo todos os resultados
do algoritmo. O algoritmo realiza as validações acima comparando uma coluna de um CSV,
dito origem, e outro CSV, dito destino.
Para validação do algoritmo, foram realizados os experimentos que estão resumidos no
Quadro 6, sendo que os resultados e discussões estão detalhados no Capítulo 4 deste trabalho.
40
Nº Experimento Descrição
1 client x customer Experimento realizando a comparação de duas palavras com
significados semelhantes
2 actor x dog Experimento realizando a comparação de duas palavras que
possuem conceitos na DBpedia e são diferentes semanticamente
3 Colunas do dataset A x Colunas do dataset
B
Experimento realizando a comparação de todas as colunas do
dataset A com todas as colunas do dataset B
4 Colunas do dataset DC x Colunas do dataset
CA
Experimento realizando a comparação de todas as colunas do
dataset DC com todas as colunas do dataset CA
Quadro 6 Experimentos realizados
Fonte: Elaborado pela autora
41
4. RESULTADOS E DISCUSSÕES
Os resultados obtidos a partir da execução e avaliação das comparações, conforme
metodologia apresentada na Capítulo 3, para o Experimento 1, utilizando as palavras “client”
e “customer”, são apresentadas na Figura 14.
Figura 14 Resultado Experimento 1 – client x customer
O gráfico da Figura 14 não exibe valores da DBpedia, devido ao fato dos resultados da
DBpedia serem zerados neste experimento, uma vez que não foi encontrada entidade na
DBpedia para ambos conceitos comparados. Os resultados deste cenário (melhor caso)
mostram que a comparação utilizando YAGO teve o pior resultado, enquanto os algoritmos
utilizando WordNet e sinônimos apresentaram os melhores resultados e de forma correta.
Figura 15 Resultados Experimento 2 – actor x dog
1,00
1,00
1,00
1,00
1,00
1,00
0,45
0,00 0,20 0,40 0,60 0,80 1,00 1,20
Synonym
Wordnet Li
Wordnet Lin
Wordnet Wu & palmer
Wordnet Jiang & Conrad
Wordnet wpath
Yago wpath
Resultados
Alg
ori
tmo
s
0,000,000,000,00
0,080,09
0,100,10
0,180,19
0,300,30
0,450,71
0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80
Synonym
Dbpedia Resnik
Wordnet Jiang & Conrad
Dbpedia wpath
Dbpedia Wu & palmer
Wordnet Lin
Wordnet Li
Resultados
Alg
ori
tmo
s
42
A Figura 15 demonstra os resultados do Experimento 2, comparando as palavras
“actor” e “dog”, que possuem significados distintos. Foi possível verificar que a comparação
na DBpedia utilizando os algoritmos Jiang & Conrad, Resnik, Lin e a verificação de
sinônimos resultaram em valor zero. Este resultado pode ser considerado positivo, tendo em
vista que as palavras “actor” e “dog” são semanticamente distintas. As demais comparações
na DBpedia e YAGO tiveram resultados intermediários, enquanto a maioria dos resultados da
WordNet tiveram resultados maiores que os resultados da DBpedia. O resultado da WordNet
utilizando Wu & Palmer foi o mais elevado, com valor 0,71.
Na Tabela 1 são listados os resultados das validações dos datasets A e B elaborados
pela autora, utilizando WordNet e Sinônimos. Os resultados apresentados em negrito são os
resultados de valor mais elevado. Como os datasets A e B possuem apenas duas palavras que
são sinônimas, é esperado que apenas uma linha possua resultado de sinônimo e as demais
sejam zeradas. Com relação às comparações utilizando WordNet, foram obtidos resultados
bastante variáveis entre um algoritmo e outro, como Wu & Palmer e Jiang & Conrad, por
exemplo, evidenciando a necessidade da utilização conjunta destes algoritmos, garantindo
maior precisão.
Tabela 1 Resultado Experimento 3 – Colunas do dataset A x Colunas do dataset B
Word
1
Word
2 Synonym WordNet Li WordNet Lin
WordNet Wu &
Palmer
WordNet Jiang
& Conrad
WordNet
wpath
cat dog 0,000 0,449 0,877 0,857 0,310 0,594
cat customer 0,000 0,301 0,266 0,600 0,075 0,219
cat identity 0,000 0,051 0,151 0,300 0,053 0,092
client dog 0,000 0,367 0,428 0,737 0,084 0,332
client customer 1,000 1,000 1,000 1,000 1,000 1,000
client identity 0,000 0,000 0,000 0,182 0,054 0,100
name dog 0,000 0,301 0,272 0,632 0,074 0,219
name customer 0,000 0,301 0,297 0,600 0,083 0,219
name identity 0,000 0,206 0,364 0,462 0,086 0,220
actor dog 0,000 0,449 0,296 0,706 0,083 0,296
actor customer 0,000 0,449 0,325 0,667 0,094 0,296
actor identity 0,000 0,000 0,000 0,200 0,058 0,111
Os resultados das validações dos datasets A e B elaborados pela autora, utilizando
DBpedia e YAGO estão sintetizados na Tabela 2. Em comparação com Tabela 1, nota-se que
houve uma maior quantidade de resultados zerados durante as validações utilizando DBpedia,
enquanto as mesmas palavras comparadas na WordNet. Devido ao fato da comparação de
43
similaridade na DBpedia ser realizada através de entidades DBpedia, é comum que não sejam
encontradas entidades na DBpedia correspondentes às palavras que estão sendo comparadas.
Tabela 2 Experimento 3 – Colunas do dataset A x Colunas do dataset B
Word
1
Word
2
DBpedia
Li
DBpedia
Lin
DBpedia
Wu &
palmer
DBpedia
Resnik
DBpedia
Jiang &
Conrad
DBpedia
wpath
DBpedia
path
Yago
wpath
cat dog 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,158
cat customer 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,150
cat identity 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,066
client dog 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,168
client customer 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,452
client identity 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,076
name dog 0,161 0,000 0,250 0,000 0,000 0,142 0,142 0,080
name customer 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,094
name identity 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,104
actor dog 0,088 0,000 0,181 0,000 0,000 0,100 0,100 0,186
actor customer 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,257
actor identity 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,087
Apenas 12 das 248 comparações no Experimento 4 foram verificadas com sucesso,
correlacionando as colunas do dataset DC com as colunas do dataset CA. A Tabela 3
demonstra os resultados da WordNet e sinônimos das 12 comparações com resultados. As
demais comparações, tiveram resultado zerado.
Tabela 3 Resultados do Experimento 4
Word
1
Word
2 Synonym WordNet Li WordNet Lin
WordNet Wu
& palmer
WordNet
Jiang &
Conrad
WordNet
wpath
supplier fiscal_year 0,000 0,000 0,000 0,143 0,049 0,077
fiscal_year fiscal_year 1,000 0,999 1,000 1,000 1,000 1,000
supplier quantity 0,000 0,000 0,000 0,200 0,078 0,111
supplier class 0,000 0,000 0,000 0,167 0,061 0,091
supplier family 0,000 0,367 0,264 0,632 0,071 0,252
supplier segment 0,000 0,168 0,152 0,429 0,065 0,143
supplier location 0,000 0,206 0,212 0,462 0,094 0,160
fiscal_year quantity 0,000 0,375 0,411 0,600 0,115 0,313
fiscal_year class 0,000 0,108 0,071 0,333 0,061 0,125
fiscal_year family 0,000 0,108 0,071 0,333 0,061 0,125
fiscal_year segment 0,000 0,000 0,000 0,167 0,052 0,091
fiscal_year location 0,000 0,073 0,065 0,286 0,069 0,103
44
Da mesma forma que os resultados do Experimento 3, os resultados do Experimento 4
para DBpedia foram limitados, conforme Tabela 4. As comparações YAGO tiveram
desempenho semelhante às comparações WordNet utilizando o algoritmo wpath.
Tabela 4 Resultados do Experimento 4
Word
1
Word
2
DBpedia
Li
DBpedia
Lin
DBpedia
Wu &
palmer
DBpedia
Resnik
DBpedia
Jiang &
Conrad
DBpedia
wpath
DBpedia
path
Yago
wpath
supplier fiscal_year 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,077
fiscal_year fiscal_year 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,000
supplier quantity 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,086
supplier class 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,082
supplier family 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,102
supplier segment 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,136
supplier location 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,104
fiscal_year quantity 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,170
fiscal_year class 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,111
fiscal_year family 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,106
fiscal_year segment 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,091
fiscal_year location 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,092
Observando-se repetidos resultados zerados para os algoritmos DBpedia nos
experimentos 1 e 2, consta-se que palavras compostas e outros fatores podem estar
impactando para a identificação de entidades na DBpedia e consequentemente a comparação
destas entidades. Dentre as dificuldades encontradas no presente trabalho, destaca-se a
normalização de palavras compostas para validação nas ontologias e a busca de entidades na
DBpedia com palavras compostas e limitações, inclusive, para palavras simples.
Considerando os resultados dos experimentos, a utilização da WordNet na validação
da similaridade Semântica foi a melhor abordagem encontrada, uma vez que foi capaz de
validar a similaridade da maioria das palavras. A partir destes resultados, o usuário final pode
verificar com maior facilidade as colunas em um schemas de origem que de fato são
interligadas com schemas de destino.
45
5. CONSIDERAÇÕES FINAIS
O presente trabalho apresentou um algoritmo para a utilização de WordNet e DBpedia,
duas grandes ontologias que são aliadas da validação de similaridade semântica. Tal
algoritmo, realiza normalização dos dados, e valida sinônimos e similaridade de cada possível
combinação de colunas vindas de um CSV. Nos casos em que não foi possível obter
resultados de similaridade devido à não-identificação, nas ontologias, das palavras
comparadas, o algoritmo não identifica a similaridade. As principais contribuições deste
método estão na redução do tempo de uma análise manual na integração de schemas e na
utilização como base para criação de softwares contemplando o uso de ontologias.
Foram realizados experimentos com a finalidade de avaliar o desempenho da
comparação semântica utilizando diferentes ontologias e diferentes métodos de análise
semântica. Nessa avaliação, foram utilizados dados de ordens de compras reais, pertencentes
aos governos da Califórnia e do Distrito de Colúmbia, nos Estados Unidos, e também foram
utilizados dados de datasets elaborados pela autora. Ao todo, foram submetidas 260
comparações de colunas ao algoritmo. Os resultados mostram que a os métodos utilizando
WordNet são mais satisfatórios que os demais resultados. O trabalho apresenta limitações na
normalização dos dados antes de serem submetidos às validações semânticas, especialmente
em relação a palavras compostas.
Os resultados deste presente trabalho podem ser utilizados como base na
implementação de um software para o suporte à integração de schemas em ambientes
heterogêneos, reduzindo o trabalho manual na identificação de quais dados no schema de
origem correspondem a quais dados no schema de destino. Para trabalhos futuros, pode-se
aprimorar o processo de normalização dos dados e também o processo de comparação de
similaridade fazendo com que o algoritmo seja capaz de lidar com algumas exceções de
palavras e ainda assim consiga calcular a similaridade dos termos. Além disso, pode-se
desenvolver uma interface gráfica para importação dos schemas e apresentação dos
resultados.
46
BIBLIOGRAFIA
ALMEIDA, M. B.; BAX, M. P. Uma visão geral sobre ontologias: pesquisa sobre definições,
tipos, aplicações, métodos de avaliação e de construção. Ciência da Informação, v. 32, n. 3,
p. 7–20, 2003.
AZEVEDO, C.; SERDEIRA, P. Os ERP’s (Enterprise Resource Planning) como Soluções
Integradas para a Indústria da Hotelaria e Turismo. Atas da Conferência da Associação
Portuguesa de Sistemas de Informação, v. 1, n. 1, 2016.
BADR, N. M.; ELABD, E.; ABDELKADER, H. M. A Semantic Based Framework for
Facilitating Integration in ERP Systems. Proceedings of the 10th International Conference
on Informatics and Systems - INFOS ’16, p. 35–42, 2016.
BALASUBRAMANIAN, K. et al. System Integration using Model-Driven Engineering.
Disponível em: <https://www.igi-global.com/chapter/system-integration-using-model-
driven/8246>. Acesso em: 14 maio. 2018.
BERNERS-LEE, T. Linked Data. Disponível em:
<https://www.w3.org/DesignIssues/LinkedData.html>. Acesso em: 20 maio. 2018.
BERNERS-LEE, T. Semantic Web and Linked Data. Disponível em:
<http://www.w3.org/2009/Talks/0120-campus-party-tbl>. Acesso em: 22 maio. 2018.
BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The Semantic Web. n. May, p. 1–4, 2001.
BIZER, C. et al. DBpedia: A Nucleus for a Web of Open Data. ISWC/ASWC, 2007.
DA ROCHA, R. P. Fabrico/Ciência: um Ambiente Linked Data para o Mapeamento da
Ciência. 2012.
DAL MORO, T.; DORNELES, C. F.; REBONATTO, M. T. Web services WS- * versus Web
Services REST. v. 11, p. 36–51, 2011.
DAVENPORT, T. H. Putting the Enterprise into the Enterprise System. Harvard Business
Review, 1998.
DBPEDIA. Learn About DBpedia.
DE ALMEIDA, M. G. Integração de Sistemas de Informação: Uma Proposta
Metodológica. [s.l.] Universidade Federal do Paraná, 2010.
DE OLIVEIRA, L. S. Um estudo sobre os principais fatores na implantação de sistemas
erp. [s.l.] Universidade Tecnológica Federal do Paraná, 2006.
DE SOUZA, C. A. Sistemas integrados de gestão empresarial : estudos de caso de
implementação de sistemas ERP. [s.l.] Faculdade de Economia, Administração e
Contabilidade da USP, 2000.
DE SOUZA JUNIOR, A. M. S.; DA SILVA, D. DE O. Cultura Organizacional: O fator
chave para o sucesso da implantação de um sistema ERP. [s.l: s.n.].
47
DINIZ, M. S. S. Alinhamento de erp ao negócio. [s.l.] Universidade FUMEC, 2012.
EVANGELISTA, J. L. S. Fatores críticos de sucesso na implantação de sistemas no setor
público: um estudo de caso do sistema SIGA ADM módulo protocolo no Instituto
Federal do Sertão Pernambucano. [s.l: s.n.].
FERRER-I-CANCHO, R. The structure of syntactic dependency networks : Insights from
recent advances in network theory. 2005.
GERHARDT, T. E.; SILVEIRA, D. T. Métodos de pesquisa. [s.l: s.n.].
GOLDBERG JÚNIOR, V. H. Utilização de Ontologias para Certificação de Boas Práticas
em Modelagem de Processos de Negócio. [s.l.] Universidade Federal do Rio Grande do Sul,
2016.
GRUBER, T. Ontology. Disponível em: <http://tomgruber.org/writing/ontology-definition-
2007.htm>.
GUARINO, N. Understanding, building and using ontologies. International Journal of
Human-Computer Studies, v. 46, n. 2–3, p. 293–310, 1997.
HANNEL, K. Q. Qualificação de Pesquisadores por Área da Ciência da Computação
com Base em uma Ontologia de Perfil. [s.l.] Universidade Federal do Rio Grande do Sul,
2008.
HOFWEBER, T. Logic and Ontology. In: The Stanford Encyclopedia of Philosophy. [s.l:
s.n.].
HORROCKS, I. Ontologies and the Semantic Web. COMMUNICATIONS OF THE ACM,
v. 51, 2008.
ISLAM, A.; INKPEN, D. Semantic text similarity using corpus-based word similarity and
string similarity. ACM Transactions on Knowledge Discovery from Data, v. 2, n. 2, p. 1–
25, 2008.
ISOTANI, SEIJI; BITTENCOURT, I. I. Dados Abertos Conectados. Disponível em:
<http://ceweb.br/livros/dados-abertos-conectados/>. Acesso em: 1 jan. 2017.
LATINI, F. H. Identificação de fatores críticos de sucesso na adoção de BPM pós-
implantação de ERP: estudo de casos múltiplos. [s.l.] Pontifícia Universidade Católica de
Minas Gerais, 2015.
LAUDON, K.; LAUDON, J. Sistemas de Informação Gerenciais. [s.l.] Pearson Prentice
Hall, 2010.
LECH, P. Implementation of an ERP system : A case study of a full-scope SAP project. v. 14,
n. 1, 2016.
LEE, C. K. M. et al. Using ERP Systems to Transform Business Processes : A Case Study at a
Precession Engineering Company. v. 1, n. 1, p. 19–24, 2009.
48
LEE, J.; SIAU, K.; HONG, S. Enterprise integration with ERP and EAI. Communications of
the ACM, v. 46, n. 2, p. 54–60, 2003.
LEHMANN, J. et al. DBpedia: A large-scale, multilingual knowledge base extracted from
wikipedia. Semantic Web, v. 6, n. 2, p. 167–195, 2015.
LIN, F.; SANDKUHL, K. A Survey of Exploiting WordNet in Ontology Matching. v. 276, p.
341–350, 2008.
LOFI, C. Measuring Semantic Similarity and Relatedness with Distributional and
Knowledge-based Approaches. Information and Media Technologies, v. 10, n. 3, p. 493–
501, 2015.
MAX PLANCK INSTITUTE FOR; INFORMATICS. YAGO: Overview.
MCCARTHY, J. Circumscription - A Form of Non-Monotonic Reasoning. Disponível em:
<http://www-formal.stanford.edu/jmc/circumscription/circumscription.html>.
MENDES, J. C.; CARVALHO, J. Á.; MACHADO, C. F. Resistência à adopção de
tecnologias de informação e estratégias para a sua superação: Estudo de um caso de
implementação de um sistema. 2016.
MIHANY, F. A. et al. An Automated System for Measuring Similarity between Software
Requirements. Proceedings of the 2nd Africa and Middle East Conference on Software
Engineering - AMECSE ’16, p. 46–51, 2016.
MILLER, G. A. et al. Introduction to WordNet : An On-line Lexical Database. 1990.
MILLER, G. A. WordNet : A Lexical Database for English. Communications of the ACM,
v. 38, n. 11, p. 39–41, 1995.
MIZOGUCHI, R. Tutorial on Ontological Engineering: Part 03: Advanced Course of
Ontological Engineering. New Generation Computing, 2004.
MOCKFORD, K. Web Services Architecture. BT Technology Journal, v. 22, n. 1, p. 19–26,
2004.
MOHAMED, N. et al. Information System Integration : A Review of Literature and a Case
Analysis. Mathematics and Computers in Contemporary Science, n. March, p. 68–77,
2013.
NLTK PROJECT. NLTK 3.3. Disponível em: <https://www.nltk.org/>. Acesso em: 22 out.
2018.
OLIVEIRA, L. S. DE; HATAKEYAMA, K. Um estudo sobre a implantação de sistemas
ERP: pesquisa realizada em grandes empresas industriais. Production, v. 22, n. 3, p. 596–
611, 2012.
OWL WORKING GROUP. Web Ontology Language (OWL). Disponível em:
<https://www.w3.org/OWL/>.
PEREIRA, M. Representação Semântica de Perfil Dinâmico de Usuários em
49
Comunidades de Prática. [s.l.] Universidade Federal do Rio Grande do Sul, 2018.
PIMENTA JÚNIOR, A. F. Uma abordagem baseada em similaridade semântica para
promover baixo acoplamento de esquema de dados entre assinantes e publicadores em
soluções PUB/SUB. [s.l.] Universidade Federal do Estado do Rio de Janeiro, 2017.
RIGO, S. J. I. Integração de Recursos da Web Semântica e Mineração de Uso para
Personalização de Sites. [s.l.] Universidade Federal do Rio Grande do Sul, 2008.
SEMATCH. Sematch: Introduction. Disponível em: <http://gsi-upm.github.io/sematch/>.
Acesso em: 22 out. 2018.
SIMÕES, P. J. Implementação de Sistemas de Informação de Gestão: O Caso de Estudo
de uma Unidade Hoteleira de Turismo Rural. [s.l.] Instituto Superior de Contabilidade e
Administração de Coimbra, 2017.
SMITH, B. Ontology and Information Systems. Science, n. 1964, p. 1–97, 2002.
SOMMERVILLE, I. Ingeniería del software, 2005. Disponível em:
<http://danielr.obolog.es/ingenieria-software-
355416%5Cnhttp://fondoeditorial.uneg.edu.ve/citeg/numeros/c02/c02_art10.pdf>
SUCHANEK, F. M.; KASNECI, G.; WEIKUM, G. YAGO: A Core of Semantic Knowledge
Unifying WordNet and Wikipedia. 2007.
SUPRAPTO, W.; TARIGAN, Z. J. H.; BASANA, S. R. The influence of ERP system to the
company performance seen through innovation process, information quality, and information
sharing as the intervening variables. Proceedings of the 2017 International Conference on
Education and Multimedia Technology - ICEMT ’17, p. 87–91, 2017.
TELÖKEN, R. Gerenciamento de Configuração de Dispositivos de Rede através de
NETCONF e Web Services. [s.l.] Universidade Federal do Rio Grande do Sul, 2006.
VECCHIA, A. F. D. Sistemas ERP: A Gestão Do Processo De Imp. [s.l.] Universidade
Federal de Santa Maria, 2011.
VIEIRA, M. C. Contribuição dos sistemas de gestão empresarial ERP para a tomada de
decisão: estudos de casos múltiplos em organizações brasileiras. [s.l.] Universidade
FUMEC, 2009.
W3C. Linked Data. Disponível em: <https://www.w3.org/TR/2013/NOTE-ld-glossary-
20130627/#linked-data>. Acesso em: 20 maio. 2018.
W3C. Vocabularies. Disponível em:
<https://www.w3.org/standards/semanticweb/ontology>.
WAHLBERG, O. et al. Trends, topics and underresearched areas in CRM research.
International Journal of Public Information Systems, v. 3, p. 191–208, 2009.
ZAVALIK, C. Integração de Sistemas de Informação através de Web Services. [s.l.]
Universidade Federal do Rio Grande do Sul, 2004.
ZHU, G.; IGLESIAS, C. A. Sematch: Semantic Entity Search from Knowledge Graph.
SumPre 2015 - 1st International Workshop on Summarizing and Presenting Entities
50
and Ontologies Co-located with the 12th Extended Semantic Web Conference, 2015.
ZWICKER, R.; DE SOUZA, C. A. Sistemas ERP: Conceituação, Ciclo de Vida e Estudos de
Casos Comparados. p. 169–184, 2003.
51
ANEXOS
52
ANEXO A – CSV de Siglas e Acrônimos
NM:Name
PO:Purchase Order
FY:Fiscal Year
ID:Identification
SB:Small Business
SABRC:State Agengy Buy Recycled Compaign
PCRC:Post Consumer Recycled Content
TRC:Total Recycled Content
LPA:Leveraged Procurement Agreement
MISC:Miscellaneous
SCPRS:State Contract And Procurement Registration
System
ADA:Americans with Disabilities Act
AG:Attorney General
AORO:Agency Open Record Officer
ASQ:American Society for Quality
BAFO:Best and Final Offer
BCPGB:Board of Commissioners of Public Grounds and
Buildings
BEA:Bureau of Engineering Architecture
BOP:Bureau of Procurement
BSBO:Bureau of Small Business Opportunities
COPPAR:Community of Practice Procurement
Architectural Review
CPO:Chief Procurement Officer
CRP:Contractor Responsibility Program
CRPS:Contractor Responsibility Program System
CS:Commodity Specialist
DCED:Department of Community & Economic
Development
DCIO:Deputy Chief Information Officer
DCNR:Department of Conservation & Natural Resources
DGS:Department of General Services
DEP:Department of Environmental Protection
DHS:Department of Human Services
DMVA:Department of Military & Veterans Affairs
DOC:Department of Corrections
EIN:Employer ID Number
EISSP:Enterprise IT Standard Selection Process
EPO:Emergency Purchase Order
EPEAT:Electronic IT Standard Selection Process
ERP:Enterprise Resource Planning
FAA:Federal Aviation Administration
FHWA:Federal Highway Administration
FMP:Fair Market Price
FIN:Federal Identification Number
FOB:Freight on Board
FYE:Fiscal Year End
GR:Goods Receipt
GSA:General Services Administration
HIPAA:Health Insurance Portability and Accountability
Act
HTML:Hyper Text Markup Language
IAA:Interagency Agreement
IES:Integrated Enterprise System
IFB:Invitation for Bid
IG:Inspector General
IGA:Intergovernmental Agreement
IT:Information Technology
ITQ:Invitation to Qualify
LAC:Live Auction Cockpit
LEED:Leadership in Energy and Environmental Design
L&I:Department of Labor & Industry
LLC:Limited Liability Company
LLP:Limited Liability Partnership
MBE:Minority Business Enterprise
MDM:Master Data Management – Used to upload data
into the MSCC catalog
MOU:Memorandum of Understanding
MM:Material Master
MPL:Minimum Participation Levels
MRP:Material Requirements Planning
MSCC:Material Service Contract Catalog
NHTSA:National Highway Transportation Safety
Administration
NMSDC:National Minority Supplier Development
Council
OA:Office of Administration
OIT:Office for Information Technology
OB:Office of the Budget
OCC:Office of Chief Counsel
OEM:Original Equipment Manufacturer
OGC:Office of General Counsel
OSS:Online Service System – Service used by IES to
report system issues
PA:Purchasing Agent
PCCD:PA Commission on Crime & Delinquency
PDP:Plan Driven Procurement
POWL:Personal Object Work List
PR:Purchase Requisition
PUC:Public Utility Commission
QA:Quality Assurance
QPL:Qualified Products List
RFI:Request for Information
RFP:Request for Proposal
RFQ:Request for Quotation
RTKL:Right to Know Law
SBA:Small Business Administration
SBPI:Small Business Procurement Initiative
SCSC:State Civil Service Commission
SDB:Small Diverse Business
SDVBE:Service Disabled Veteran-Owned Business
Enterprise
SDVOSB:Service-Disabled Veteran-Owned Small
Business
SERS:State Employees Retirement System
SOW:Statement of Work
SRM:Supplier Relationship Management
SSN:Social Security Number
TAR:Technical Architecture Review Board
TCO:Total Cost of Ownership
UAT:User Acceptance Testing
UNSPSC:United Nations Standard Products and Services
Codes
UCP:Unified Certification Program
VBE:Veteran Business Enterprise
WBE:Women Business Enterprise
53
ANEXO B – Representação de Amostra do Dataset Purchase Order Data
CA – Colunas 1 a 15
Cre
atio
n D
ate
Pu
rcha
se D
ate
Fisc
al Y
ear
LPA
Nu
mb
er
Pu
rcha
se O
rde
r
Nu
mb
er
Re
qu
isit
ion
Nu
mb
er
Acq
uis
itio
n T
ype
Sub
-Acq
uis
itio
n
Typ
eA
cqu
isit
ion
Me
tho
dSu
b-A
cqu
isit
ion
Me
tho
dD
ep
artm
en
t N
ame
Sup
plie
r
Co
de
Sup
plie
r N
ame
Sup
plie
r
Qu
alif
icat
ion
s
Sup
plie
r
Zip
Co
de
8/2
7/2
01
32
01
3-2
01
47
-12
-70
-26
REQ
00
11
11
8R
EQ0
01
11
18
IT G
oo
ds
WSC
A/C
oo
pC
on
sum
er
Aff
air
s, D
ep
art
me
nt
of
17
40
27
2P
itn
ey
Bo
we
s
1/2
9/2
01
42
01
3-2
01
4R
EQ0
01
19
32
REQ
00
11
93
2N
ON
-IT
Go
od
sIn
form
al
Co
mp
eti
tive
Co
nsu
me
r A
ffa
irs,
De
pa
rtm
en
t o
f1
76
00
85
Ro
de
a A
uto
Te
ch
01
/11
/13
20
13
-20
14
REQ
00
11
47
6R
EQ0
01
14
76
IT S
erv
ice
sIn
form
al
Co
mp
eti
tive
Co
nsu
me
r A
ffa
irs,
De
pa
rtm
en
t o
f1
72
24
Smil
e B
usi
ne
ss P
rod
uct
s,
Inc
95
84
1
6/1
3/2
01
40
5/0
6/1
42
01
3-2
01
44
50
02
36
64
2N
ON
-IT
Go
od
sIn
form
al
Co
mp
eti
tive
Co
rre
ctio
na
l H
ea
lth
Ca
re S
erv
ice
s1
75
44
62
ASH
AN
IN
CC
A-M
B C
A-S
B9
14
36
12
/03
/14
12
/03
/14
20
13
-20
14
1-1
0-7
5-6
0A
45
00
22
10
28
NO
N-I
T G
oo
ds
Sta
tew
ide
Co
ntr
act
Co
rre
ctio
ns
an
d R
eh
ab
ilit
ati
on
,
De
pa
rtm
en
t o
f1
08
76
60
Tech
no
logy
In
tegr
ati
on
Gro
up
95
81
4
09
/10
/14
01
/10
/14
20
14
-20
15
45
00
25
34
27
NO
N-I
T G
oo
ds
Info
rma
l C
om
pe
titi
veC
orr
ect
ion
al
He
alt
h C
are
Se
rvic
es
17
38
77
7W
ALG
REE
NS
SPEC
IALT
Y
PH
AR
MA
CY
LLC
97
00
8
10
/10
/14
20
14
-20
15
1-1
4-7
5-6
0A
REQ
00
13
91
1R
EQ0
01
39
11
NO
N-I
T G
oo
ds
Sta
tew
ide
Co
ntr
act
Co
nsu
me
r A
ffa
irs,
De
pa
rtm
en
t o
f1
08
76
60
Tech
no
logy
In
tegr
ati
on
Gro
up
95
81
4
4/2
4/2
01
44
/14
/20
14
20
13
-20
14
12
-64
00
6.0
1N
ON
-IT
Serv
ice
sP
ers
on
al
Serv
ice
s
Serv
ice
s a
re s
pe
cifi
call
y
exe
mp
t b
y st
atu
teSt
ate
Ho
spit
als
, De
pa
rtm
en
t o
f1
06
92
80
Da
vid
Ga
lla
rdo
93
27
4
06
/02
/15
20
14
-20
15
1-1
4-7
5-6
0A
REQ
00
14
51
5R
EQ0
01
45
15
NO
N-I
T G
oo
ds
Sta
tew
ide
Co
ntr
act
Co
nsu
me
r A
ffa
irs,
De
pa
rtm
en
t o
f1
08
76
60
Tech
no
logy
In
tegr
ati
on
Gro
up
95
81
4
8/1
4/2
01
37
/26
/20
13
20
13
-20
14
45
00
20
03
08
NO
N-I
T G
oo
ds
Info
rma
l C
om
pe
titi
veW
ate
r R
eso
urc
es,
De
pa
rtm
en
t o
f1
01
42
34
CLA
RK
E SA
LES
91
32
2
6/2
6/2
01
32
01
2-2
01
3R
EQ0
01
06
31
REQ
00
10
63
1IT
Go
od
sSB
/DV
BE
Op
tio
nC
on
sum
er
Aff
air
s, D
ep
art
me
nt
of
48
12
Futu
re D
ata
Sys
tem
sC
A-M
B C
A-S
B9
18
03
10
/18
/20
12
20
12
-20
13
REQ
00
08
87
6IT
Go
od
sN
CB
Oth
er
Co
nsu
me
r A
ffa
irs,
De
pa
rtm
en
t o
f1
50
31
44
De
arb
orn
Gro
up
Tech
no
logy
48
33
1
10
/06
/15
08
/06
/15
20
14
-20
15
45
00
28
56
29
NO
N-I
T G
oo
ds
Form
al
Co
mp
eti
tive
Co
rre
ctio
na
l H
ea
lth
Ca
re S
erv
ice
s3
88
19
Live
rmo
re S
cie
nti
fic,
In
c.
CA
-DV
BE
CA
-
MB
CA
-SB
CD
VB
E
93
06
5
09
/06
/15
09
/06
/15
20
14
-20
15
14
-28
0-1
26
3IT
Go
od
sSB
/DV
BE
Op
tio
nW
ate
r R
eso
urc
es
Co
ntr
ol
Bo
ard
,
Sta
te1
01
72
16
GR
AN
ITE
DA
TA S
OLU
TIO
NS
95
61
0
03
/07
/12
20
12
-20
13
SBP
01
33
7R
EQ0
00
89
12
REQ
00
08
91
2N
ON
-IT
Go
od
sW
SCA
/Co
op
Co
nsu
me
r A
ffa
irs,
De
pa
rtm
en
t o
f1
75
82
89
VW
R I
nte
rna
tio
na
l
03
/07
/12
20
12
-20
13
SBP
01
33
7R
EQ0
00
89
12
REQ
00
08
91
2N
ON
-IT
Go
od
sW
SCA
/Co
op
Co
nsu
me
r A
ffa
irs,
De
pa
rtm
en
t o
f1
75
82
89
VW
R I
nte
rna
tio
na
l
03
/07
/12
20
12
-20
13
SBP
01
33
7R
EQ0
00
89
12
REQ
00
08
91
2N
ON
-IT
Go
od
sW
SCA
/Co
op
Co
nsu
me
r A
ffa
irs,
De
pa
rtm
en
t o
f1
75
82
89
VW
R I
nte
rna
tio
na
l
05
/09
/12
8/3
1/2
01
22
01
2-2
01
34
50
01
49
55
8N
ON
-IT
Go
od
sFo
rma
l C
om
pe
titi
veC
orr
ect
ion
s a
nd
Re
ha
bil
ita
tio
n,
De
pa
rtm
en
t o
f4
81
99
Fre
sno
Pro
du
ce I
nc.
CA
-SB
93
70
6
10
/18
/20
12
10
/18
/20
12
20
12
-20
13
45
00
15
61
92
NO
N-I
T G
oo
ds
Info
rma
l C
om
pe
titi
veC
orr
ect
ion
s a
nd
Re
ha
bil
ita
tio
n,
De
pa
rtm
en
t o
f1
32
75
40
PET
ER G
IAM
MA
NC
OC
A-M
B C
A-S
B9
13
60
10
/17
/20
12
10
/17
/20
12
20
12
-20
13
45
00
15
61
24
NO
N-I
T G
oo
ds
Fair
an
d R
ea
son
ab
leC
orr
ect
ion
al
He
alt
h C
are
Se
rvic
es
45
80
3O
SHA
Re
vie
w I
nc
CA
-MB
CA
-SB
95
82
7
10
/30
/20
12
10
/24
/20
12
20
12
-20
13
S25
56
05
6N
ON
-IT
Go
od
sIn
form
al
Co
mp
eti
tive
Pa
rks
& R
ecr
ea
tio
n, D
ep
art
me
nt
of
17
46
70
7A
gco
Ha
y LL
C
11
/14
/20
12
11
/14
/20
12
20
12
-20
13
45
00
15
92
28
NO
N-I
T G
oo
ds
Info
rma
l C
om
pe
titi
veC
orr
ect
ion
s a
nd
Re
ha
bil
ita
tio
n,
De
pa
rtm
en
t o
f1
06
59
02
Pri
son
In
du
stry
Au
tho
rity
95
69
6
11
/27
/20
12
11
/27
/20
12
20
12
-20
13
45
00
16
06
29
NO
N-I
T G
oo
ds
Sta
te P
rogr
am
sC
orr
ect
ion
s a
nd
Re
ha
bil
ita
tio
n,
De
pa
rtm
en
t o
f1
00
83
61
3B
IN
DU
STR
IES
INC
73
52
9
11
/30
/20
12
6/1
5/2
01
22
01
2-2
01
31
1O
AL0
7N
ON
-IT
Go
od
sN
CB
Ad
min
istr
ati
ve L
aw
, Off
ice
of
10
01
49
3Le
xis
Ne
xis
95
83
3
11
/25
/20
13
11
/22
/20
13
20
13
-20
14
DSC
13
05
7N
ON
-IT
Go
od
sFa
ir a
nd
Re
aso
na
ble
De
lta
Ste
wa
rdsh
ip C
ou
nci
l1
73
80
91
Ca
lifo
rnia
Ch
am
be
r o
f
Co
mm
erc
e9
58
34
5/1
4/2
01
45
/14
/20
14
20
13
-20
14
W0
00
08
28
NO
N-I
T G
oo
ds
Fair
an
d R
ea
son
ab
leV
ete
ran
s A
ffa
irs,
De
pa
rtm
en
t o
f4
77
67
A&
M U
nif
orm
s, I
nc.
CA
-MB
CA
-SB
91
78
9
5/2
5/2
01
32
01
2-2
01
31
-11
-70
-04
GR
EQ0
01
03
74
REQ
00
10
37
4IT
Go
od
sSt
ate
wid
e C
on
tra
ctC
on
sum
er
Aff
air
s, D
ep
art
me
nt
of
10
17
21
6G
RA
NIT
E D
ATA
SO
LUTI
ON
S9
56
10
6/2
4/2
01
32
01
2-2
01
3R
EQ0
01
06
33
REQ
00
10
63
3IT
Go
od
sSe
rvic
es
are
sp
eci
fica
lly
exe
mp
t b
y p
oli
cyC
on
sum
er
Aff
air
s, D
ep
art
me
nt
of
16
13
86
0Ik
on
Off
ice
So
luti
on
s,
Inc.
, A R
ico
h C
om
pa
ny
95
67
0
6/2
3/2
01
30
1/0
7/1
32
01
2-2
01
35
-08
-89
-15
45
00
18
74
56
NO
N-I
T G
oo
ds
Sta
tew
ide
Co
ntr
act
Co
rre
ctio
ns
an
d R
eh
ab
ilit
ati
on
,
De
pa
rtm
en
t o
f1
00
07
09
US
FOO
DSE
RV
ICE
54
ANEXO C – Representação de Amostra do Dataset Purchase Order Data
CA – Colunas 16 a 31
CalC
ard
Item
Nam
eIt
em D
escr
ipti
onQ
uant
ity
Uni
t Pr
ice
Tota
l Pri
ceCl
assi
fica
tion
Cod
esN
orm
aliz
ed U
NSP
SCCo
mm
odit
y
Titl
eCl
ass
Clas
s
Titl
eFa
mily
Fam
ily T
itle
Segm
ent
Segm
ent
Titl
eLo
cati
on
NO
USB
USB
1$1
.00
$1.0
0
NO
Tire
Dis
po
sal
Tire
Dis
po
sal
2$2
.00
$4.0
0 76
1215
0476
1215
04
NO
Lab
or
Lab
or
45$1
50.0
0 $6
75.0
0
9584
1
(38.
6622
63, -
121.
3461
36)
NO
9143
6
(34.
1516
42, -
118.
4905
1)
NO
Ton
er
Ton
er
1$6
,080
.26
$6,0
80.2
6 44
1031
2744
1031
27
9581
4
(38.
5804
27, -
121.
4943
96)
NO
9700
8
(45.
4605
18, -
122.
8064
09)
NO
HP
35A
BLA
CK T
ON
ERH
P 35
A B
LACK
TO
NER
30$4
5.40
$1
,362
.00
4410
3127
4410
3127
9581
4
(38.
5804
27, -
121.
4943
96)
NO
Ra
dia
tio
n O
nco
logy
Ra
dia
tio
n O
nco
logy
1$4
00,0
00.0
0 $4
00,0
00.0
0 85
1216
1585
1216
15
9327
4
(36.
1934
81, -
119.
3583
79)
NO
Bla
ck T
on
er
Cart
rid
ge
for
CLJ
4700
Bla
ck T
on
er
Cart
rid
ge f
or
CLJ
4700
16$1
27.0
6 $2
,032
.96
4410
3127
4410
3127
9581
4
(38.
5804
27, -
121.
4943
96)
NO
1" s
s 90
* e
lbo
w ,
thre
ad
ed
1" s
s 90
* e
lbo
w ,
thre
ad
ed
4$2
1.65
$8
6.60
40
1728
4017
28
9132
2
(34.
3792
63, -
118.
5473
01)
NO
Soft
wa
re, A
rtic
ula
te
Sto
ryli
ne
Soft
wa
re, A
rtic
ula
te S
tory
lin
e3
$1,4
39.0
0 $4
,317
.00
9180
3
(34.
0735
77, -
118.
1459
47)
NO
Du
al
LIN
2.0
/ J
2602
(2
Cha
nn
els
)D
ua
l LI
N 2
.0 /
J26
02 (
2 Ch
an
ne
ls)
2$4
95.0
0 $9
90.0
0
4833
1
(42.
5068
86, -
83.4
0780
4)
NO
9306
5
(34.
2706
27, -
118.
7728
31)
NO
MA
GEN
TA T
ON
ERM
AG
ENTA
TO
NER
4$3
14.9
9 $1
,259
.96
4410
3127
4410
3127
9561
0
(38.
6950
7, -
121.
2711
44)
NO
6299
3-05
6: T
UB
E
NO
RPR
ENE
A60
G
1/4X
3/8
50'
6299
3-05
6: T
UB
E N
OR
PREN
E A
60G
1/4X
3/8
50'
1$2
4.73
$2
4.73
NO
6300
8-99
0: T
UB
E TY
GN
R36
03 1
/2X1
1/16
100
'
6300
8-99
0: T
UB
E TY
GN
R36
03 1
/2X1
1/16
100'
1$2
03.1
0 $2
03.1
0
NO
6301
3-40
4: T
UB
ING
180
VA
C 1/
4X5/
8 50
FT
PK
6301
3-40
4: T
UB
ING
180
VA
C 1/
4X5/
8 50
FT P
K1
$151
.56
$151
.56
NO
JALA
PEN
OJA
LAPE
NO
40$0
.60
$24.
00
5040
5625
5040
5625
Jala
pe
no
pe
pp
ers
5040
5600
Pep
pe
rs50
4000
00
Fre
sh
vege
tab
le
s
5000
0000
Foo
d B
eve
rage
an
d
Tob
acc
o P
rod
uct
s
9370
6
(36.
6750
79, -
119.
8653
93)
NO
pro
du
cere
d a
pp
les,
ba
na
na
,1
$12,
587.
05
$12,
587.
05
5030
1541
5030
1541
Ida
re
d a
pp
les
5030
1500
Ap
ple
s50
3000
00Fr
esh
fru
its
5000
0000
Foo
d B
eve
rage
an
d
Tob
acc
o P
rod
uct
s
9136
0
(34.
2103
92, -
118.
8743
13)
NO
ma
gazi
ne
ma
gazi
ne
1$1
99.0
0 $1
99.0
0 55
1015
0655
1015
06M
aga
zin
es
5510
1500
Prin
ted
pu
bli
cat
ion
s
5510
0000
Prin
ted
me
dia
5500
0000
Pub
lish
ed
Pro
du
cts
9582
7
(38.
5630
97, -
121.
3285
11)
NO
ha
yB
ale
's o
f ri
ce s
tra
w10
00$4
.95
$4,9
50.0
0 10
1215
0510
1215
05H
ay
1012
1500
Live
sto
c
k fe
ed
1012
0000
An
ima
l
fee
d10
0000
00
Live
Pla
nt
an
d A
nim
al
Ma
teri
al
an
d
Acc
ess
ori
es
an
d
Sup
pli
es
NO
COFF
EEIN
STA
NT
COFF
EE A
ND
BU
LK14
6865
$1.0
0 $1
4,68
6.50
50
2017
0650
2017
06Co
ffe
e50
2017
00Co
ffe
e
an
d t
ea
5020
0000
Be
vera
ges
5000
0000
Foo
d B
eve
rage
an
d
Tob
acc
o P
rod
uct
s
9569
6
(38.
43, -
122.
02)
NO
furn
itu
refu
rnit
ure
1$2
14,7
88.0
0 $2
14,7
88.0
0 56
1015
3256
1015
32Fu
rnit
ure
se
t56
1015
00Fu
rnit
ur
e56
1000
00
Acc
om
mo
d
ati
on
furn
itu
re
5600
0000
Furn
itu
re a
nd
Furn
ish
ings
7352
9
(34.
3614
58, -
97.9
7174
8)
NO
Lib
rary
Su
bsc
rip
tio
ns
Lib
rary
Su
bsc
rip
tio
ns
1$5
,000
.00
$5,0
00.0
0 55
1015
2455
1015
24R
efe
ren
ce
bo
oks
5510
1500
Prin
ted
pu
bli
cat
ion
s
5510
0000
Prin
ted
me
dia
5500
0000
Pub
lish
ed
Pro
du
cts
9583
3
(38.
6157
23, -
121.
5056
2)
YES
2014
Em
plo
yme
nt
No
tice
Po
ste
rsLa
min
ate
d w
ith
Pro
tect
-En
glis
h1
$113
.98
$113
.98
5512
1736
5512
1736
9583
4
(38.
6417
43, -
121.
5166
46)
NO
un
ifo
rms
un
ifo
rms
1$3
,593
.00
$3,5
93.0
0 53
1027
0853
1027
08N
urs
es
un
ifo
rms
5310
2700
Un
ifo
rm
s53
1000
00Cl
oth
ing
5300
0000
Ap
pa
rel
an
d L
ugg
age
an
d P
ers
on
al
Care
Pro
du
cts
9178
9
(34.
0196
68, -
117.
8560
08)
NO
18,0
00 P
age
Ye
llo
w
Ton
er
Cart
rid
ge18
,000
Pa
ge Y
ell
ow
To
ne
r Ca
rtri
dge
1$2
30.2
9 $2
30.2
9
9561
0
(38.
6950
7, -
121.
2711
44)
NO
Ima
ge S
oft
wa
re,
CDQ
UER
YIm
age
ing
Soft
wa
re, C
DQ
UER
Y1
$210
.00
$210
.00
9567
0
(38.
6031
82, -
121.
2789
12)
NO
foo
dfi
re f
oo
d f
or
cam
p i
nm
ate
s1
$15,
000.
00
$15,
000.
00
5040
1824
5040
1824
Gre
en
be
an
s50
4018
00B
ea
ns
5040
0000
Fre
sh
vege
tab
le
s
5000
0000
Foo
d B
eve
rage
an
d
Tob
acc
o P
rod
uct
s
55
ANEXO D – Representação de Amostra do Dataset Purchase Order Data
DC
PO_N
UM
BER
AG
ENCY
_NA
ME
NIG
P_D
ESCR
IPTI
ON
PO_T
OTA
L_A
MO
UN
TO
RD
ER_D
ATE
SUPP
LIER
FISC
AL_
YEA
RO
BJE
CTID
PO50
5925
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H20
8534
7:SO
FTW
AR
E, M
ICR
OCO
MPU
TER
, IN
TEG
RA
TED
, IB
M
COM
PATI
BLE
, LA
TEST
REL
EASE
OR
VER
SIO
N L
ISTE
D15
902.
6420
14-1
0-01
T00:
00:0
0.00
0ZIn
tern
ati
on
al
Bu
sin
ess
Ma
chin
e20
1520
7083
PO50
5636
OFF
ICE
OF
CHIE
F TE
CHN
OLO
GY
OFF
ICER
9204
520:
MA
INTE
NA
NCE
AN
D L
ICEN
SE A
GR
EEM
ENT
SER
VIC
ES, M
ICR
OCO
MPU
TER
SO
FTW
AR
E11
6032
.73
2014
-10-
01T0
0:00
:00.
000Z
MYT
HIC
S IN
C.20
1520
7084
PO50
5883
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H91
0600
0:Pl
um
bin
g M
ain
ten
an
ce a
nd
Re
pa
ir (
Incl
ud
es
Toil
ets
, etc
.)12
3020
14-1
0-01
T00:
00:0
0.00
0ZFR
Y PL
UM
BIN
G &
HEA
TIN
G20
1520
7085
PO50
5642
DEP
AR
TMEN
T O
F EN
ERG
Y A
ND
ENV
IRO
NM
ENT
9150
300:
Ad
vert
isin
g/Pu
bli
c R
ela
tio
ns
1125
020
14-1
0-01
T00:
00:0
0.00
0ZIN
FIN
ITY
RA
DIO
DB
A/W
LZL
RA
DIO
2015
2070
86
PO50
5905
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H91
0395
7:JA
NIT
OR
IAL/
CUST
OD
IAL
SER
VIC
ES28
644
2014
-10-
01T0
0:00
:00.
000Z
Cle
an
Te
am
Ja
nit
ori
al
Serv
ice
2015
2070
87
PO50
5820
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H91
0596
0:PE
ST C
ON
TRO
L SE
RV
ICES
(IN
CL. T
ERM
ITE
504
2014
-10-
01T0
0:00
:00.
000Z
PEST
SER
VIC
ES C
O.
2015
2070
88
PO50
5784
STA
TE S
UPE
RIN
TEN
DEN
T O
F ED
UCA
TIO
N
(OSS
E)91
8380
0:Ed
uca
tio
n a
nd
Tra
inin
g Co
nsu
ltin
g16
2052
520
14-1
0-01
T00:
00:0
0.00
0ZU
RB
AN
PO
LICY
DEV
ELO
PMEN
T, L
LC20
1520
7089
PO48
8793
-V3
DEP
AR
TMEN
T O
N D
ISA
BIL
ITY
SER
VIC
ES
9529
265:
RES
IDEN
TIA
L CA
RE
AN
D T
REA
TMEN
T (L
ON
G
TER
M)
TO B
E PR
OV
IDED
IN
A C
OM
MU
NIT
Y CA
RE
HO
ME,
RES
IDEN
TIA
L TR
EATM
ENT
FACI
LITY
OR
NU
RSI
NG
HO
ME
2600
2.6
2014
-10-
01T0
0:00
:00.
000Z
Up
pe
r Pi
ne
lla
s A
ss.
for
Re
tard
2015
2070
90
PO50
5817
OFF
ICE
OF
CHIE
F TE
CHN
OLO
GY
OFF
ICER
2046
460:
RA
CKS,
FO
R N
ETW
OR
K CO
MPO
NEN
TS16
38.0
820
14-1
0-01
T00:
00:0
0.00
0ZM
VS,
In
c.20
1520
7091
PO50
5792
MET
RO
POLI
TAN
PO
LICE
DEP
AR
TMEN
T92
0453
3:M
AIN
TEN
AN
CE, M
ICR
OCO
MPU
TER
SO
FTW
AR
E20
490.
7520
14-1
0-01
T00:
00:0
0.00
0ZIN
TER
GR
APH
COR
POR
ATI
ON
2015
2070
92
PO50
5584
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H96
2580
0:Pr
ofe
ssio
na
l Se
rvic
es
(No
t O
the
rwis
e
Cla
ssif
ied
)17
0020
14-1
0-01
T00:
00:0
0.00
0ZN
AM
I W
ASH
ING
TON
,
DC
2015
2070
93
PO50
5889
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H95
8960
0:W
ast
e M
an
age
me
nt
Serv
ice
s41
2.5
2014
-10-
01T0
0:00
:00.
000Z
STER
ICYC
LE I
NC
2015
2070
94
PO50
5716
BO
AR
D O
F EL
ECTI
ON
S91
5710
0:N
ew
spa
pe
r a
nd
Pu
bli
cati
on
Ad
vert
isin
g29
142
2014
-10-
01T0
0:00
:00.
000Z
THE
WA
SHIN
GTO
N
POST
2015
2070
95
PO50
5905
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H91
0395
7:JA
NIT
OR
IAL/
CUST
OD
IAL
SER
VIC
ES56
95.9
2014
-10-
01T0
0:00
:00.
000Z
Cle
an
Te
am
Ja
nit
ori
al
Serv
ice
2015
2070
96
PO49
8063
-V2
STA
TE S
UPE
RIN
TEN
DEN
T O
F ED
UCA
TIO
N
(OSS
E)
9625
800:
Pro
fess
ion
al
Serv
ice
s (N
ot
Oth
erw
ise
Cla
ssif
ied
)60
000
2014
-10-
01T0
0:00
:00.
000Z
Coa
sta
l H
ea
lth
care
Serv
ice
s, I
2015
2070
97
PO50
5703
DEP
T. O
F CO
NSU
MER
AN
D R
EGU
LATO
RY
AFF
AIR
S
9610
200:
Ad
min
istr
ati
ve S
erv
ice
s, A
ll K
ind
s (
Incl
.
Cle
rica
l, S
ecr
eta
ria
l Se
rvic
es,
etc
.)50
000
2014
-10-
01T0
0:00
:00.
000Z
OST
, In
c.20
1520
7098
PO50
5585
MET
RO
POLI
TAN
PO
LICE
DEP
AR
TMEN
T92
0453
1:M
AIN
TEN
AN
CE A
ND
SU
PPO
RT,
SO
FTW
AR
E,
MA
INFR
AM
E60
258.
2420
14-1
0-01
T00:
00:0
0.00
0ZH
EWLE
TT P
ACK
AR
D
COM
PAN
Y20
1520
7099
PO50
5788
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H64
0606
6:PL
ATE
S A
ND
BO
WLS
, RIG
ID P
LAST
IC, W
HIT
E
OPA
GU
E, F
DA
APP
RO
VED
102.
4620
14-1
0-01
T00:
00:0
0.00
0ZD
istr
ict
Sup
ply
In
c.20
1520
7100
PO50
5934
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H93
6395
2:M
AIN
TEN
AN
CE, R
EPA
IR, P
AR
TS A
ND
ACC
ESSO
RIE
S
FOR
PO
RTA
BLE
AN
D S
TATI
ON
AR
Y G
ENER
ATO
RS
2500
020
14-1
0-01
T00:
00:0
0.00
0ZR
SC E
LECT
RIC
AL
&
MEC
HA
NIC
AL
CO20
1520
7101
PO50
5641
DEP
AR
TMEN
T O
F EN
ERG
Y A
ND
ENV
IRO
NM
ENT
9150
300:
Ad
vert
isin
g/Pu
bli
c R
ela
tio
ns
1300
020
14-1
0-01
T00:
00:0
0.00
0ZW
JLA
-TV
2015
2071
02
PO50
5806
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H91
8380
0:Ed
uca
tio
n a
nd
Tra
inin
g Co
nsu
ltin
g24
9.96
2014
-10-
01T0
0:00
:00.
000Z
CON
SUM
ER A
CTIO
N
NET
WO
RK
2015
2071
03
PO50
5264
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H88
5660
0:Fl
uo
rid
e a
nd
Oth
er
Dri
nki
ng
Wa
ter
Ad
dit
ive
s43
62.5
2014
-10-
01T0
0:00
:00.
000Z
NES
TLE
WA
TER
S
AM
ERIC
A I
NC.
2015
2071
04
PO50
5466
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H94
1550
0:H
VA
C Sy
ste
ms
Ma
inte
na
nce
an
d R
ep
air
, Po
we
r
Pla
nt
450
2014
-10-
01T0
0:00
:00.
000Z
RSC
ELE
CTR
ICA
L &
MEC
HA
NIC
AL
CO20
1520
7105
PO50
5827
PUB
LIC
SER
VIC
E CO
MM
ISSI
ON
9625
800:
Pro
fess
ion
al
Serv
ice
s (N
ot
Oth
erw
ise
Cla
ssif
ied
)16
845.
520
14-1
0-01
T00:
00:0
0.00
0ZLe
gal
Pla
cem
en
ts, I
nc.
2015
2071
06
PO50
5806
DEP
AR
TMEN
T O
F B
EHA
VIO
RA
L H
EALT
H91
8380
0:Ed
uca
tio
n a
nd
Tra
inin
g Co
nsu
ltin
g87
0120
14-1
0-01
T00:
00:0
0.00
0ZCO
NSU
MER
ACT
ION
NET
WO
RK
2015
2071
07