A linked open data architecture for contemporaryhistorical archives
Alexandre Rademaker1 Suemi Higuchi2
Dario Augusto B. Oliveira2
IBM Research and FGV/EMAp
FGV/CPDOC
September 25, 2013
Getulio Vargas Foundation (FGV)
Brazilian higher education andresearch institution founded inDecember 20, 1944. It offers regularcourses of Economics, BusinessAdministration, Law, Social Sciencesand Applied Mathematics. Itsoriginal goal was to train people forthe country’s public- andprivate-sector management. It isconsidered by Foreign Policymagazine to be a top-5 policymakerthink-tank worldwide.
http://portal.fgv.br
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 2 / 22
CPDOC - Center of Brazilian Contemporary History
I A major center for teaching and researching in the Social Sciencesand Contemporary History located in Rio de Janeiro. It holds:
I Personal Archives (Acessus) ≈ 200 archives, up to 1,8M docs or5.2M pages (700K digitalized), among text (handwritten andprinted), letters, memos, diaries, images and videos.
I Oral History Program (PHO) A huge set of testimonies (in audioand video) consisting of more than 2K interviews, which correspondto up to 6K hours of recordings. 90% in digital format. Only 10% istranscribed. Limit access, not online.
I Brazilian Historical Biographic Dictionary (DHBB) 7,5K entries,6,5K are of biographical and 1K related to institutions, events andconcepts of interest for the Brazilian history after 1930. Carefullyrevised entries by researchers. Few metadata.
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 3 / 22
Currently Architecture
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 4 / 22
Currently Relational DB
89 tables/classes and 660 columns/properties.
TIPO_ARQUIVO
PK CD_TIPO_ARQUIVO
NM_TIPO_ARQUIVO
PO_Pasta
PK IDPasta
TipoDescricaoDataCriacaoUltimaModificacao
FK1 IDUsuario
ENTREVISTADO
PK CD_ENTREVISTADO
NM_ENTREVISTADONM_SOBRENOME_ENTREVISTADONM_NACIONALIDADE_ENTREVISTADOCD_EST_CIVIL_ENTREVISTADONM_PROFISS_ENTREVISTADOCD_CPF_ENTREVISTADOCD_RG_ENTREVISTADOCD_ORG_EMISS_ENTREVISTADONM_LOGR_RESID_ENTREVISTADONM_BAIR_RESID_ENTREVISTADONM_CID_RESID_ENTREVISTADOSG_UF_RESID_ENTREVISTADONM_PAIS_RESID_ENTREVISTADOCD_CEP_RESID_ENTREVISTADOCD_TEL_RESID_ENTREVISTADOCD_CELULAR_RESID_ENTREVISTADOCD_EMAIL_RESID_ENTREVISTADONM_LOGR_COMERC_ENTREVISTADONM_BAIR_COMERC_ENTREVISTADONM_CID_COMERC_ENTREVISTADOSG_UF_COMERC_ENTREVISTADONM_PAIS_COMERC_ENTREVISTADOCD_CEP_COMERC_ENTREVISTADOCD_TEL_COMERC_ENTREVISTADOCD_CELULAR_COMERC_ENTREVISTADOCD_EMAIL_COMERC_ENTREVISTADONM_CONTATO_ENTREVISTADODS_QLFCAO_CONTATO_ENTREVISTADOCD_TEL_CONTATO_ENTREVISTADOCD_CELULAR_CONTATO_ENTREVISTADOCD_EMAIL_CONTATO_ENTREVISTADODT_NASC_ENTREVISTADO
FK2 NM_LOC_NASC_ENTREVISTADODT_FALEC_ENTREVISTADO
FK1 NM_LOCAL_FALEC_ENTREVISTADODS_ATIVIDADEDS_FORMACAODS_OBSERVACAONM_COMPLETO_ENTREVISTADO_PESQ
DH_VERBETE
PK CD_VRB
CD_TP_VRBIN_SIT_EDICAO_VRBNM_VRBNM_PESQ_VRBCD_VRB_ORIGINALDS_LEAD_VRBDS_OBS_VRBDT_ATU_VRBCD_LOGIN_USUSISDS_CONTEUDOcd_vtiNM_CONHECIDO_VRBIN_PUBLICADO
FK1 CD_UNIDADE_DOCUMENTAL
CONDICAO_ACESSO_ENTREVISTA
PK CD_CONDICAO_ACESSO_ENTREVISTA
FK2 CD_ENTREVISTAFK1 CD_CONDICAO_ACESSO
IN_LIBERADO
AC_RESPONSABILIDADE
PK CD_RES
DS_RESDT_ATU_RESCD_LOGIN_USUSIS
AC_MANUSCRITO
CD_MANCD_CLASSIFICACAO_MANNR_DOCUMENTOS_MANIN_DOCUMENTO_TIPO_MANNR_DOCUMENTOS_TIPO_MANDS_PERIODO_PRODUCAO_MANNR_ANO_PRODUCAO_DE_MANNR_ANO_PRODUCAO_ATE_MANCD_PDACD_MICROFILME_MANDS_RESUMO_MANDS_NOTAS_MANDT_ATU_MANCD_LOGIN_USUSIS
FK1 CD_UNIDADE_DOCUMENTAL_MANUSCRITO
AC_INSTITUICAO
PK CD_INS
U1 DS_INSDT_ATU_INSCD_LOGIN_USUSIS
AC_ARQUIVO_UNIDADE_DOCUMENTAL
PK,FK2 CD_UNIDADE_DOCUMENTALPK,FK1 CD_ARQUIVO
NR_SEQUENCIA
TIPO_SUMARIO
PK CD_TIPO_SUMARIO
DS_TIPO_SUMARIO
PALAVRA_NAO_CAPITALIZAVEL
PALAVRA
AC_TITULACAO
PK SG_TIT
DS_TITNR_ORDEM
AC_DOADOR_FUNDO
PK CD_DOADORPK,FK1 SG_FUN
AC_DESCRITOR_UNIDADE_DOCUMENTAL
PK,FK1 CD_UNIDADE_DOCUMENTALPK CD_DEL
AC_COLECAO_UNIDADE_DOCUMENTAL
PK CD_COLECAOPK,FK1 CD_UNIDADE_DOCUMENTAL
NR_SEQUENCIA
PARAMETRO_CONSULTA
NM_PARAMETROCD_NOTREE_PARAMETRODS_CONTEUDO_PARAMETROIN_REL_VISIVEL_PARAMETROIN_USU_COMUM_PARAMETRODS_EXPLICACAO_PARAMETRO
INSTITUICAO
PK CD_INSTITUICAO
U1 NM_RAZ_SOC_INSTITUICAONM_LOGR_INSTITUICAONM_BAIR_INSTITUICAONM_CID_INSTITUICAOSG_UF_INSTITUICAONM_PAIS_INSTITUICAOCD_CEP_INSTITUICAOCD_TEL_INSTITUICAOCD_FAX_INSTITUICAOCD_EMAIL_INSTITUICAO
DH_CARGO
PK CD_CARGO
DS_CARGODS_ABREV_CARGOCD_CARGO_TPDT_ATU_CARGOCD_LOGIN_USUSIS
AC_EXEMPLAR_PERIODICO
PK,FK2 CD_UNIDADE_DOCUMENTAL_EXEMPLAR
CD_EPRCD_PRICD_VOLUME_EPRCD_NUMERO_EPRDS_DATA_PUBLICACAO_EPRNR_ANO_PUBLICACAO_DE_EPRNR_ANO_PUBLICACAO_ATE_EPRDS_NOTAS_EPRDT_ATU_EPRCD_LOGIN_USUSIS
FK1 CD_UNIDADE_DOCUMENTAL_PERIODICO
AC_DOADOR
PK CD_DOADOR
NM_DOADORNM_CONJUGE_DOADS_PRINCIPAIS_ATIVIDADES_DOADS_NOTAS_DOAIN_CONSELHO_DOADORESDT_ATU_DOACD_LOGIN_USUSISCD_SERVICOCD_EXT_SERVCLIIN_FALECIDODIA_FALECIMENTOMES_FALECIMENTOANO_FALECIMENTO
AC_AUTORIDADE
PK CD_AUT
NM_AUTDT_ATU_AUTCD_LOGIN_USUSIS
AC_ARTIGO_PERIODICO
PK,FK2 CD_UNIDADE_DOCUMENTAL_ARTIGO
CD_APRCD_EPRDS_TITULO_APRCD_PAGINACAO_APRDS_NOTAS_APRDT_ATU_APRCD_LOGIN_USUSIS
FK1 CD_UNIDADE_DOCUMENTAL_EXEMPLAR
TIPO_SUPORTE
PK CD_TIPO_SUPORTE
NM_TIPO_SUPORTE
SISTEMA
PK CD_SISTEMA
NM_SISTEMA
PO_SolicitacaoLog
PK IDLog
TipoLogDataLogIDSolicitacaoDescricaoDataAberturaDataEncerramentoStatusResultadoOmitirUsuarioIDUsuarioExternoIDUsuarioResponsavelIDUDIDArquivoIDAnotacaoUDIDAnotacaoArquivo
PO_PastaArquivo
IDPastaIDUDIDArquivoIDPastaUnidadeDeDescricaoDataInclusao
AC_TITULAR_AREA
PK CD_TITARE
FK4 CD_TFUFK3 SG_TITFK1 CD_AACFK2 CD_INS
NM_LOCAL_TITARENR_ANO_FORMATURA_TITARE
AC_SERIE
PK CD_SER
FK1 SG_FUNDS_SERSG_SIGLA_SERDS_NOTAS_SERDT_LIBERACAO_SERDT_ATU_SERCD_LOGIN_USUSISIN_LIBERADA_CONSULTA
AC_LIVRO
PK CD_UNIDADE_DOCUMENTAL_LIVRO
CD_LIVCD_CLASSIFICACAO_LIVDS_TITULO_LIVNM_EDICAO_LIVNR_ANO_PUBLICACAO_DE_LIVNR_ANO_PUBLICACAO_ATE_LIVNM_LOCAL_PUBLICACAO_LIVNM_EDITOR_LIVNM_NUMERO_PAGINAS_LIVDS_VOLUME_LIVIN_ILUSTRACAO_LIVNM_COLECAO_SERIE_LIVDS_NOTAS_LIVDS_INFO_PATRIMONIAL_LIVDT_ATU_LIVCD_LOGIN_USUSIS
AC_CONDICAO_ACESSO
PK CD_CONDICAO_ACESSO
DS_CONDICAO_ACESSOSG_CONDICAO_ACESSO
UF
PK UF_SIGLA
UF_NOME
SITUACAO_ENTREVISTA
PK CD_SIT_ENTREVISTA
DS_SIT_ENTREVISTA
PO_AnotacaoArquivo
PK IDAnotacaoArquivo
IDArquivoDescricaoDataCriacaoUltimaModificacao
ARQUIVO_DIGITAL_DESCRITOR
PK,FK1 CD_ARQUIVO_DIGITALPK CD_DEL
AC_CONDICAO_ACESSO_FUNDO
PK CD_CONDICAO_ACESSO_FUNDO
FK1 CD_CONDICAO_ACESSOFK2 SG_FUNFK3 CD_TIPO_UNIDADE_DOCUMENTAL
DT_CONDICAO_ACESSO
AC_AUTORIDADE_NAO_ELEITA
PK CD_AUT_NAO_ELEITA
NM_AUT_NAO_ELEITAFK1 CD_AUT
DT_ATU_AUT_NAO_ELEITACD_LOGIN_USUSIS
USUARIO
PK CD_USUARIO
DS_LOGINFK1 CD_PERFIL_ACESSO
SUPORTE
PK CD_SUPORTE
FK1 CD_SESSAO_GRAVACAOFK3 CD_TIPO_SUPORTE
DS_SUPORTEFK2 CD_TECNICO
NR_QUANTIDADE_SUPORTE
PO_PastaUnidadeDeDescricao
PK IDPastaUnidadeDeDescricao
FK1 IDPastaIDUnidadeDeDescricaoOrigemDataInclusaoInCopia
PERFIL_ACESSO
PK,FK1 CD_PERFIL_ACESSO
NM_PERFIL_ACESSOCD_SISTEMA
ENTREVISTADOR
PK CD_ENTREVISTADOR
U1 NM_ENTREVISTADORNM_LOGR_ENTREVISTADORNM_BAIR_ENTREVISTADORNM_CID_ENTREVISTADORSG_UF_ENTREVISTADORNM_PAIS_ENTREVISTADORCD_CEP_ENTREVISTADORCD_TEL_ENTREVISTADORCD_CELULAR_ENTREVISTADORCD_EMAIL_ENTREVISTADOR
FK1 CD_INSTITUICAODS_FORMAC_ENTREVISTADORDS_OBS_ENTREVISTADOR
DH_CARGO_FUNCAO
PK CD_CARGO_FUNC
CD_CARGODS_CARGO_FUNC
BASEBUSCA
PK c4
c1c2c3c5c6c7c8c9c10c11c12c13c14c15
AC_UNIDADE_DOCUMENTAL
PK CD_UNIDADE_DOCUMENTAL
FK2 CD_TIPO_UNIDADE_DOCUMENTALCD_SER
FK1 CD_SSE
AC_AREA_ACADEMICA
PK CD_AAC
DS_AACDT_ATU_AACCD_LOGIN_USUSIS
PO_AnotacaoUD
PK IDAnotacaoUD
IDUDDescricaoDataCriacaoUltimaModificacao
AC_ATIVIDADE
PK CD_ATI
DS_ATIDT_ATU_ATICD_LOGIN_USUSIS
PO_UsuarioPerfil
FK1 IDPerfilFK2 IDUsuario
PERFIL_HISTORAL_CATALOGO
PK,FK1 CD_PESQUISAPK DT_PESQUISA_PHC
CD_ENTREVISTA
DH_CARGO_TIPO
PK CD_CARGO_TP
DS_CARGO_TP
AC_TITULAR_ATIVIDADE
PK CD_TITATI
FK3 CD_TFUFK1 CD_ATIFK2 CD_INS
NR_MES_INICIO_TITATINR_ANO_INICIO_TITATINR_MES_FIM_TITATINR_ANO_FIM_TITATI
AC_SUB_SERIE
PK CD_SSE
FK1 CD_SERDS_SSESG_SIGLA_SSEDT_ATU_SSECD_LOGIN_USUSIS
AC_DESCRITOR_ELEITO
PK CD_DEL
U1 DS_DELDT_ATU_DELCD_LOGIN_USUSISIN_EXCLUSIVO_ACCESSUSIN_EXCLUSIVO_ESTUDOS_HISTORICOSIN_EXCLUSIVO_ABHOIN_EXCLUSIVO_PRODUCAO_INTELECTUALDS_CONCEITUACAO_TERMO
AC_AUTORIDADE_UNIDADE_DOCUMENTAL
PK CD_AUTORIDADE_UNIDADE_DOCUMENTAL
FK3 CD_UNIDADE_DOCUMENTALFK1 CD_AUTFK2 CD_RES
TECNICO
PK CD_TECNICO
U1 NM_TECNICO
PROJETO
PK CD_PROJETO
U1 NM_TIT_PROJETODT_INIC_PROJETODT_FIM_PROJETODS_RESULTADO
FK2 CD_INSTITUICAO_CONVENIODS_COND_CONTRATO
FK1 CD_INSTITUICAO_FINANCDS_OBSERVACAO
LOCALIDADE
PK CD_LOCALIDADE
NM_CID_LOCALIDADESG_UF_LOCALIDADENM_PAIS_LOCALIDADE
DH_VERBETE_SUBTIPO
CD_VTIDS_VTIDS_SUB_VTI
DH_VERBETE_BIO_CARGO
PK CD_VBC
NR_DATA_ININR_DATA_FIMCD_VRBCD_CARGOSG_UFSG_PAISCD_CARGO_FUNCCD_INSCD_CID
AC_UNIDADE_DOCUMENTAL_FUNDO
PK,FK1 SG_FUNPK,FK2 CD_UNIDADE_DOCUMENTAL
AC_PERIODICO
PK,FK1 CD_UNIDADE_DOCUMENTAL_PERIODICO
CD_PRICD_CLASSIFICACAO_PRIDS_TITULO_PRINM_EDITOR_PRINM_LOCAL_PUBLICACAO_PRINM_PERIODICIDADE_PRINM_IDIOMA_PRIDS_NOTAS_PRIDT_ATU_PRICD_LOGIN_USUSIS
AC_FUNDO
PK SG_FUN
NM_FUNDT_DOACAO_FUNQT_VOLUME_ESTIMADO_FUNDS_LOCALIZACAO_FISICA_FUNDS_LOCALIZACAO_DIGITAL_FUNDS_CODIGO_MICROFILME_FUNDS_EQUIPE_FUNDS_HISTORICO_ACERVO_FUNDS_CONTEUDO_FUNDS_NOTAS_FUNDT_ATU_FUNCD_LOGIN_USUSISDT_ABERTURA_CONSULTA_FUN
AC_ARQUIVO
PK CD_ARQUIVO
NM_ARQUIVODS_CAMINHO_ARQUIVODS_CAMINHO_ARQUIVO_ICONDS_TEXTO_ARQUIVO
FK1 CD_TIPO_ARQUIVO
PO_Perfil
PK IDPerfil
NomeFK1 CodigoSistema
PERFIL_PESQUISA_DESCRITOR
PK,FK1 CD_PESQUISAPK CD_DNE
ENTREVISTA_ENTREVISTADO
PK,FK1 CD_ENTREVISTAPK,FK2 CD_ENTREVISTADO
DH_CIDADE
CD_CIDDS_CIDDT_ATU_CIDCD_LOGIN_USUSISCD_RBR
AC_USUARIO_FUNDO
PK,FK3 CD_USU_FUN
CD_USERID_USUFK4 CD_USUARIOFK1 SG_FUNFK2 CD_TIPO_UNIDADE_DOCUMENTAL
AC_DOADOR_ENDERECO
PK CD_DOADORPK CD_TIPO_ENDERECO
NM_LOGRADOURONR_NUMERONM_COMPLEMENTONM_BAIRRONM_CIDADE
FK2 UF_SIGLAFK1 PA_SIGLA
NR_CEPDT_ATU_DOECD_LOGIN_USUSIS
AC_AUDIOVISUAL
PK,FK1 CD_UNIDADE_DOCUMENTAL_AUDIOVISUAL
CD_AVICD_TDACD_CLASSIFICACAO_AVICD_PREFIXO_TITULO_AVIDS_TITULO_AVIDS_PERIODO_PRODUCAO_AVINR_ANO_PRODUCAO_DE_AVINR_ANO_PRODUCAO_ATE_AVICD_PDANR_DOCUMENTOS_AVIDS_FISICA_AVIDS_NOTAS_AVIDS_RESUMO_AVIDT_ATU_AVICD_LOGIN_USUSIS
TECNICO_ENTREVISTA
PK CD_TECNICO_ENTREVISTA
FK1 CD_ENTREVISTAFK3 CD_TECNICOFK2 CD_FUNCAO
PO_AreaAcademica
PK IDAreaAcademica
Nome
PERFIL_PESQUISA_ENTREVISTADO
PK,FK2 CD_PESQUISAPK,FK1 CD_ENTREVISTADO
LOCALIDADE_ENTREVISTA
PK,FK1 CD_ENTREVISTAPK,FK2 CD_LOCALIDADE
DOADOR
PK CD_DOADOR
U1 NM_DOADORDS_DOADOR
AC_CAPITULO_LIVRO
PK CD_UNIDADE_DOCUMENTAL_CAPITULO
CD_CLICD_LIVDS_TITULO_CLICD_PAGINACAO_CLIDS_NOTAS_CLIDT_ATU_CLICD_LOGIN_USUSIS
FK1 CD_UNIDADE_DOCUMENTAL_LIVRO
PO_Usuario
PK IDUsuario
TipoNomeEmailLoginFGVSenhaDataNascimentoSexo
FK2 IDGrauInstrucaoFK1 IDAreaAcademica
CidadeIDUFIDPaisFlagSpanDataCriacaoStatusGuidDataBloqueioFlagSpanArquivologiaFlagSpanCienciasSociaisFlagSpanHistoriaFlagSpanNewsletterCPDOC
PO_Solicitacao
PK IDSolicitacao
DescricaoDataAberturaDataEncerramentoStatusResultadoOmitirUsuario
FK1 IDUsuarioExternoFK2 IDUsuarioResponsavel
IDUDIDArquivoIDAnotacaoUDIDAnotacaoArquivo
PO_GrauInstrucao
PK IDGrauInstrucao
Nome
ENTREVISTA_ENTREVISTADOR
PK,FK1 CD_ENTREVISTAPK,FK2 CD_ENTREVISTADOR
AC_TIPO_ARQUIVO
PK CD_TIPO_ARQUIVO
NM_TIPO_ARQUIVO
AC_ARQUIVO_COLECAO
PK,FK1 CD_ARQUIVOPK,FK2 CD_COLECAO
NR_SEQUENCIA
PO_Mensagem
PK IDMensagem
TextoDataCriacao
FK1 IDSolicitacaoIDUsuario
PERFIL_PESQUISA_USUARIO
PK CD_PESQUISA
CD_USUARIODT_PESQUISA_PPUCD_TIPO_CONSULTACD_TIPO_PESQ_DEL LOG_OPERACAO
PK Codigo
OperacaoTabelaDadosData
ENTREVISTA_PROJETO
PK,FK1 CD_ENTREVISTAPK,FK2 CD_PROJETO
ENTREVISTA
PK CD_ENTREVISTA
DS_OBJ_ENTREVISTAU1 NM_TIT_ENTREVISTA
IN_TIP_ENTREVISTACD_DOADORDT_DOACAO_ENTREVISTADT_LIBERACAO_ENTREVISTADS_OBSERVACAOIN_ARQ_DOC_ENTREVISTACD_SIT_ENTREVISTADS_REF_BIBLIOGRAFICADS_OBSERVACAO_FINALQT_DISQ_TRANSC_ENTREVISTANM_ARQ_TRANSC_ENTREVISTACD_DOC_TRANSC_ENTREVISTANU_PAGS_TRANSC_ENTREVISTADS_RESTRICOES_ACESSODS_JUSTIFICATIVANU_DISQ_TRANSC_ENTREVISTANM_PASTA_TRANSC_ENTREVISTAIN_FICHA_TRANSC_ENTREVISTAIN_FL_ROSTO_TRANSC_ENTREVISTAIN_PROC_ENTREVISTANU_DISQ_AUDIO_ENTREVISTANM_PASTA_AUDIO_ENTREVISTAIN_FICHA_AUDIO_ENTREVISTAIN_FL_ROSTO_AUDIO_ENTREVISTANU_DISQ_AVISUAL_ENTREVISTANM_PASTA_AVISUAL_ENTREVISTAIN_FICHA_AVISUAL_ENTREVISTAIN_FL_ROSTO_AVISUAL_ENTREVISTADT_PREENCH_REL_ENTREVISTADS_CONTATO_ENTREVISTADS_LOC_ENTREVISTADS_ANDAMENTO_ENTREVISTADS_MUDANCA_ENTREVISTADS_INTERRUPCAO_ENTREVISTADS_PESSOA_PRESENTEDS_COMENT_CESSAO_ENTREVISTADS_OUTRAS_OBSERVACOESDT_ASSINATURA_CPDOC_ENTREVISTACD_ASSINADO_CPDOC_ENTREVISTADS_HERDEIRO_CPDOC_ENTREVISTADS_RESTRICAO_CPDOC_ENTREVISTADS_ENCAM_CPDOC_ENTREVISTADS_COND_USO_CPDOC_ENTREVISTADS_OBS_GRAVACAODS_RESUMO_FICHA_TECNM_TIT_ENTREVISTA_PESQDS_TEXTO_PUBLICACAO_CITACAODS_SUMARIOCD_TRANSC_ENTREVISTA
FK1 CD_UNIDADE_DOCUMENTALIN_COBERTURA
DH_GOVERNO
PK CD_GOV
DS_GOVNR_DATA_INIC_GOVNR_DATA_FIM_GOVDT_ATU_GOVCD_LOGIN_USUSIS
AC_TITULAR_FUNDO
PK CD_TFU
NM_TFUFK1 SG_FUN
NR_NASCIMENTO_DIA_TFUNR_NASCIMENTO_MES_TFUNR_NASCIMENTO_ANO_TFUNM_PAI_TFUNM_MAE_TFUNM_CONJUGE_TFUNR_FALECIMENTO_DIA_TFUNR_FALECIMENTO_MES_TFUNR_FALECIMENTO_ANO_TFUDS_OUTRAS_ATIVIDADES_TFUDS_NOTAS_TFUDT_ATU_TFUCD_LOGIN_USUSIS
FK2 CD_LOCALIDADE_NASCIMENTOFK3 CD_LOCALIDADE_FALECIMENTO
AC_LOCALIDADE
PK CD_LOCALIDADE
NM_LOCALIDADEFK1 CD_LOCALIDADE_PAIFK2 CD_TIPO_LOCALIDADE
TECNICO_PROJETO
PK,FK1 CD_PROJETOPK,FK2 CD_TECNICO
AJUDA
PK CD_AJUDA
DS_TEXTO_AJUDAFK1 CD_FUNCIONALIDADE
AC_TIPO_LOCALIDADE
PK CD_TIPO_LOCALIDADE
NM_TIPO_LOCALIDADE
AC_DESCRITOR_NAO_ELEITO
PK CD_DNE
U1 DS_DNECD_DELDT_ATU_DNECD_LOGIN_USUSISIN_DNE_DEL
AC_ARQUIVO_FUNDO
PK,FK1 CD_ARQUIVOPK,FK2 SG_FUN
NR_SEQUENCIA
TEMA_ENTREVISTA
PK,FK1 CD_ENTREVISTAPK CD_DEL
SESSAO_GRAVACAO
PK CD_SESSAO_GRAVACAO
FK1 CD_ENTREVISTANU_SESS_GRAVDT_SESS_GRAVQT_HR_SESS_GRAVQT_MIN_SESS_GRAVDS_LOCALDS_OBSERVACOES
FUNCAO
PK CD_FUNCAO
NM_FUNCAO
ENTREVISTA_SUMARIO
PK CD_ENTREVISTA_SUMARIO
FK1 CD_ENTREVISTADS_SUMARIO
FK2 CD_TIPO_SUMARIO
DH_VERBETE_IMPORTADO
FK1 CD_VRBNomeConteudoInAntigo
CONDICAO_ACESSO
PK CD_CONDICAO_ACESSO
DS_CONDICAO_ACESSODS_CONDICAO_ACESSO_EXIBICAO
AC_TIPO_UNIDADE_DOCUMENTAL
PK CD_TIPO_UNIDADE_DOCUMENTAL
NM_TIPO_UNIDADE_DOCUMENTALSG_TIPO_UNIDADE_DOCUMENTAL
FK1 CD_TIPO_UNIDADE_DOCUMENTAL_PAINR_SEQUENCIA_EXIBICAO
PERMISSAO
PK CD_PERMISSAO
FK2 CD_PERFIL_ACESSOFK1 CD_FUNCIONALIDADE
IN_ACESSOIN_INCLUSAOIN_ALTERACAOIN_EXCLUSAO
PAIS
PK PA_SIGLA
PA_NOMEPA_NOME_INGLES
FUNCIONALIDADE
PK CD_FUNCIONALIDADE
NM_FUNCIONALIDADESG_FUNCIONALIDADE
FK1 CD_SISTEMA
ARQUIVO_DIGITAL
PK CD_ARQUIVO_DIGITAL
DS_CAMINHO_ARQUIVOFK3 CD_TIPO_ARQUIVO
IN_LIBERADO_CONSULTADS_METADADOSDS_LEGENDA
FK1 CD_ENTREVISTADS_URL_ARQUIVO
FK2 CD_SESSAO_GRAVACAO
AC_PRECISAO_DATA
PK CD_PDA
DS_PDA
AC_LOCALIDADE_UNIDADE_DOCUMENTAL
PK,FK2 CD_UNIDADE_DOCUMENTALPK,FK1 CD_LOCALIDADE
AC_COLECAO
PK CD_COLECAO
NM_COLECAO
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 5 / 22
Problems
I Currently architecture is hard and costly to maintain and improvegiven the relational model nature and systems;
I innovative initiatives are usually postponed;
I The data is available online but on the “deep web”;
I CPDOC’s do not adopt any standard data model or vocab: (1) inhibitinteroperability with other open resources; and (2) hardly useful forpeople outside CPDOC.
I data files (audio, videos and images) scattered in different file servers,DB only stores metadata and file paths (loose coupling).
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 6 / 22
Some inconsistencies
“verbete” is a dictionary entry. “bio cargo” is a position (“cargo”) that the
described person had during a specific time during which he/she carried on a
particular assignment (“funcao”). Controled lists but no standards! Double
relation between “bio cargo” and “cargo”.
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 7 / 22
Inconsistencies are not always straightforward to fix
DELETE {
?bioc cpdoc:dbo_DH_VERBETE_BIO_CARGO_CD_CARGO ?cargo
}
INSERT {
graph <http://cpdoc.fgv.br/sys/update1/> {
?bioc cpdoc:dbo_DH_VERBETE_BIO_CARGO_CD_CARGO_FUNC _:funcao .
_:funcao rdf:type cpdoc:dbo_DH_CARGO_FUNCAO ;
cpdoc:dbo_DH_CARGO_FUNCAO_CD_CARGO ?cargo .
}
}
WHERE {
?bioc cpdoc:dbo_DH_VERBETE_BIO_CARGO_CD_CARGO ?cargo .
filter not exists {
?bioc cpdoc:dbo_DH_VERBETE_BIO_CARGO_CD_CARGO_FUNC ?cf .
?cf cpdoc:dbo_DH_CARGO_FUNCAO_CD_CARGO ?cargo .
}
}
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 8 / 22
. . . when we recognize the battleagainst chaos, mess, and unmasteredcomplexity as one of computingscience’s major callings, we mustadmit that “Beauty is our Business”.(Edsger W. Dijkstra)
Some beautiful arguments using mathematical induction. http: // goo. gl/ KQ9j7Q .
The Long Run Project
I Joint project between CPDOC and EMAp (Mathematical School);
I Enrich the structure (semantics) of CPDOC data;
I Open and expose CPDOC’s data and architecture making it moremaintainable and dynamic;
I Uniform and integrated data treatment (standards and interlinksbetween collections).
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 10 / 22
Motivations
I Open Linked Data Initiative Principals;
I Distributed open source development model/tools (collaborative datamaintenance and creation);
I From data owner to data curator;
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 11 / 22
The migration process(1) D2RQ was extracted RDF from relational; (2) enrichment of data semantics
(next slides); (3) DHBB entries to simple markdown files with YAML headers; (4)
PHO and Accessus collections are moved to DRMS (standards vocab, access
control, faced search, long-term preservation, OAI-PMH support etc.
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 12 / 22
The desired architecture
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 13 / 22
Improving semantics1-1 with original relational DB. The connection of technician and interview is
parameterized by different roles, the donator, interviewer and interviewed of an
interview are modeled each one in a specific table. In this case interviewed,
interviewer, donator and technician are all people (“ad hoc” modeling).
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 14 / 22
Improving semantics
prov centric but uses skos, dc, foaf, bio and geo, frbr etc. some classes can be
subclasses of standard classes, Interview, some classes can be replaced by
standard classes, localidade.
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 15 / 22
Conclusions
I Challenge 1: convince CPDOC researchers to make the transition todata owners to curators.
I Challenge 2: adapt researchers to new technologies (VC, text editors,scripts?, distributed workflow etc)
I Model refinements (corrections, transformations by alignments) canbe not straightforward.
I Still a lot to be done. For instance...
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 16 / 22
Other Research Opportunities
I Natural language processing: processing the DHBB entries todiscover relations between entries and with other linked data andresources. DHBB for NLP and vice versa!
I Ontology alignmnent algorithms for (semi-)automated the modeltransformations.
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 17 / 22
Natural Language ProcessingI Manually discovered ≈ 50 links to dbpedia (Presidents of Brazil,
presidents of the Senate, political parties etc.)I NLP and text mining of DHBB entries: (1) proper names; (2) word
sense disambiguation using the openWordnet-PT (lexical resource);and (3) named entity recognition and creation of links betweenDHBB entries.
I 133,036 proper names identified (some few mistakes). Potenciallyentities (people, locations, organizations etc)
I Use grammars, lexical resources, formal ontologies, and logical toolsto reason about knowledge obtained from processing text inPortuguese (Computational Semantics: KB, KR, and ATP);
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 18 / 22
Natural Language Processing
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 19 / 22
Audio and Transcriptions
Sinal processing to (semi-) automatic produce transcriptions, alignmentwith already available transcriptions and audio segmentation(interviewer/inverviwed);
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 20 / 22
Faces recognition and identification
Image processing techniques to face recognition in photos collections.
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 21 / 22
Obrigado!
S: (v) thank, give thanks (express gratitude or show appreciation to)
(=>
(and
(instance ?THANK Thanking)
(agent ?THANK ?AGENT)
(patient ?THANK ?THING)
(destination ?THANK ?PERSON))
(and
(instance ?PERSON Human)
(or
(holdsDuring
(WhenFn ?THANK)
(wants ?AGENT ?THING))
(holdsDuring
(WhenFn ?THANK)
(desires ?AGENT ?THING)))))
SUMO Ontology, http://www.ontologyportal.org
A. Rademaker, S. Higuchi, D. Oliveira (IBM Research and FGV/EMAp, FGV/CPDOC) September 25, 2013 22 / 22