1
Data Integration in a
Bandwidth-Rich World
Ian Foster and Robert L. Grossman
Universidade Federal FluminenseDoutorado em Computação – Engenharia de RedesDaniela Quitete de Campos Vianna
2
Introdução
Avanços nas tecnologias de redes
Sistemas computacionais cada vez mais velozes
Crescimento do conhecimento
Obtenção de grandes quantidades de dados
Computação em Grid?
E-Science?
3
Computação em Grid
• Objetivo: tornar a computação de alto desempenho acessível a usuários que não possuem recursos disponíveis localmente.
• Desafios:– Heterogeneidade;– Múltiplos domínios administrativos;– Escalabilidade;– Natureza dinâmica do ambiente;– Compartilhamento de dados e de recursos;– Transparência.
4
e-Science
• Diversos tipos de pesquisa que envolvem aplicações científicas de grande escala .
• Classes de Problemas:– modelagens e simulações sociais, climáticas e de
oceanos;– bio-informática;– bio-medicina;– física de alta energia;– entre outros.
5
Integração de Dados
• Paradigma Tradicional x Paradigma Atual
• Foco– middlewares para permitir que organizações
distribuídas acessem e compartilhem dados, redes e outros recursos de uma maneira controlada e segura.
6
Integração de Dados
• Dados distribuídos possuem diferentes:– formatos;– qualidade;– mecanismos e políticas de acesso...
• É preciso definir soluções e padrões para:– acesso e descoberta de dados;– exploração e análise de dados;– gerenciamento de recursos e segurança.
7
Acesso e Descoberta de Dados
• Descoberta de dados: middlewares que examinem metadados;– web services;– XML e bancos de dados relacionais;– Serviços de acesso a dados e integração em Grids;– LDAP (Lightweight Directory Access Protocol).
• Mecanismos de acesso– OPeNDAP (Open source project for a Network Data Access
Protocol);– SRB (Storage Resource Broker);– DSTP (DataSpace Transfer Protocol);– GridFTP;– OGSA-DAI (OGSA-based Data Access and Integration).
8
Exploração e Análise de Dados
• Necessidade de serviços que identifiquem a relevância dos dados obtidos;– estatística;– exploração visual dos dados...
• Existência de ferramentas que gravam, organizam e obtêm novos dados a partir de dados já explorados.
9
Gerenciamento de Recursos e Segurança
• Acesso seguro a dados distribuídos;
• Controle no acesso aos recursos envolvidos na integração dos dados;
• Técnicas de replicação e distribuição de dados através da rede;
• Identificação da localização de dados mais próxima ao ponto de solicitação.
10
Exemplo 1 (iGrid 2002)• Integração (on the fly) de dados;
• Taxas de transferência maiores que 2.4Gbps.
• DataSpace Data Web: movimentação de dados através do Atânctico;
• Versão paralela do SABUL: transporte de Dados;
• DSTP: gerenciamento de chaves, metadados e dados.
11
Sloan Digital Sky Survey (SDSS)
• Estudo de imagens digitais - até 2007 terá mapeado ¼ do espaço;
• 250 milhões de objetos detectados
• 10 TB de imagens
• 2 TB catálogos
12
Sloan Digital Sky Survey (SDSS)
13
Gerenciamento de Dados no Globus
• Componente que fornecem interfaces de acesso uniformes para vários tipos de dados– GridFTP;– OGSA-DAI;– Metadata Catalog Service (MCS).
14
Gerenciamento de Dados no Globus
• Componentes para movimentação e transferência de dados– Globus-url-copy;– Reliable File Transfer (RFT) Service;– UberFTP: cliente GridFTP;– GSI-SCP/SFTP: ferramenta OpenSSH que
suporta autenticação no Grid.
15
Gerenciamento de Dados no Globus
• Componentes para otimização do acesso aos dados– Replica Location Service (RLS);– NeST;– DataCutter.
16
Conclusão
• Avanços nas tecnologias de redes proporcionando o compartilhamento de recursos e dados;
• Necessidade de middlewares para integração de dados.