Post on 05-Jun-2015
transcript
Copyright © OpenText Corporation. All rights reserved.
Open Text Capture Center
Classificação e Extração Automática de Dados de Documento
Marcelo CarreraSales Executive
April 12, 2023
Copyright © Open Text Corporation. All rights reserved.
Slide 1
Tecnologias de Documento da Open Text
3
Tecnologias de Documento da Open Text
Antigo CGK, Computer Gesellschaft Konstanz
Processando Documentos desde 1972
Incomparável: Pacote completo de tecnologia
Líder mundial em tecnologia de reconhecimento
Atendimento Global
Desde 2009 como parte da Open Text CDT: Captaris Document Technologies e ODT: OCÉ Document Technologies
4
Alguns de Nossos ClientesOEM Clientes Diretos
o
Beneficios, Escopo e Casos de Uso
OCC – Beneficio
Copyright © Open Text Corporation. All rights reserved.
QMelhorar a Qualidade da Informação Melhorar o compartilhamento de informação Aproveitar um conjunto comum de regras de negócio Reduzir erros
$Reduzir Custos Operacionais Automatizar tarefas manuais Implantar uma plataforma única de entrada de documentos Reduzir preenchimento/armazenamento de papel
Acelerar os Processos de NegócioDiminuir o tempo de um cicloReduzir o processamento de exceçãoMelhorar o relacionamento com clientesAumentar produtividade da equipe
Conformidade (“Compliance”) Garantir conformidade / auditabilidade Melhorar visibilidade dos processos de negócio Ter evidências para o caso de um litigio
§§
Produtos
Slide 7
Nota Fiscal
Requerimento
Verificação
Solicitação
OpenTextEnterprise Scan
Invoice Capture Center OpenText Capture Center
Aplicações Alvo
Content Server
TCP, IDM, VRD, C360, P360, …
SharePoint
Copyright © Open Text Corporation. All rights reserved.
Casos de Uso
Slide 8
Gera Dinheiro
Economiza Dinheiro
Documento Eletrônico
Qualificado
Permite Workflow
Digital
Captura de Dados /
Documento
Reduzir EntradaManual Permite
automação de
Processos
Digitalização de Correspondência
Digitalizar Documentos em Arquivos Eletrônicos
Conversão de Documentos de Processos Antigo
Gerenciamento de Transações e Processos
Centro de Serviços
Captura Ad-Hoc
Copyright © Open Text Corporation. All rights reserved.
Caso de Uso: Digitalização de Correspondência
LA D I G I T
P A P E L
Tempo Decorrido
Distribuição Interna
Trabalho Produtivo
Análise de Documento
Digitalização
Preparação
Entrega de Correspondência
Distribuição Interna
Copia
Trabalho Produtivo
EntregaTransporte Interno
Seleção
Entrega de Correspondência
Copyright © Open Text Corporation. All rights reserved.
Funcionalidades e Características
Visão Geral dos Componentes do OCC
IM EX
Fax, Email,FTP site,
Pasta de RedeSharePoint
Cliente do Enterprise Scan
Aplicações de Negócio
Arquivo
ConfiguraçãoMonitoramento
Expedição
ValidaçãoReconhecimento
Open Text Capture Center
Copyright © Open Text Corporation. All rights reserved.
Reconhecimento: Diferente Tipos de Documentos
Documentos Estruturados> Formulários
Documentos Semi-Estruturados
> Correspondência B2B
DocumentosDesestruturados
> Correspondência C2B
Os dados estão em grupos lógicos mas as suas posições são desconhecidas
Os dados podem estar em qualquer lugar do documento
Dados em posições fixas
Copyright © Open Text Corporation. All rights reserved.
Passos no Reconhecimento de Documentos
Slide 13
Interpretação: Reforçar os dados extraídos dentro do contexto da informação
21012010332.29 USDX-44277K441258-3
Data: Jan 21. 2010Valor: 332,29 $Nr do Pedido: X-44277Fornecedor: Mueller & Friends
Classificação: Identificação do tipo de documento„Nota Fiscal”
„Notas de Entrega“
„Pedidos“
„Outros“
Extração: Buscar informação básica no documentoData: Jan 21. 2010Valor: 332,29 $Nr do Pedido: X-44277Fornecedor: Mueller & FriendsInvoice
…
Separação: Dividir um lote de imagens em documentos individuais (várias páginas)
Copyright © Open Text Corporation. All rights reserved.
Importação
Importação Direta a partir do Enterprise Scan Estrutura de documento e pasta mantidos ES de meta dados mapeados para o index de dados do OCC
Entrada de Documento (hot spot) por File system E-Mail FTP site SharePoint
Tipos de Documentos Documentos Bitmap: TIFF, GIF, JPG, … Petro e Branco, escala de cinza, colorido Documentos PDF
Copyright © Open Text Corporation. All rights reserved.
Reconhecimento: Separação de Documento
Documento 1 Documento 2 Documento 3
Coleta de páginas individuais em documentos Fronteiras do documento podem ser definidas por bordas
Código de Barra
Patch Code
Número Fixo de Páginas
Conteúdo e regras
Copyright © Open Text Corporation. All rights reserved.
16
Reconhecimento: Classificação de Documento
Pedido
Requerimento
Verificação
Solicitação
Classifique cada documento de acordo com a sua categoria
Métodos
Baseado em Regras, ex. certas frases ou objetos em alguma posição
Adaptativa: aprendizado baseado em amostras
Pontos de identificação: por números, códigos de barras
Uma combinação dos tipos acima
Reconhecimento: Motores de Extração
Copyright © Open Text Corporation. All rights reserved.
Baseado em Regras
Classificação & Extração
Adaptativa
Auto-rotação
Desentortar /Limpar Imagem
Remoção de Linhas
Filtro de Cor
Adaptive Binarization
…
Processamento de Imagens
Código de Barras 1D
Código de Barras 2D
Patch Code
Check Box
Mark Sense
Padrão de Reconhecimento
Impressora
Escrita a mão
OCR Fonte.g. MICR
Core OCR
Reconhecimento de Formulários
Reconhecimento de formas livres
Classificação(ACT)
Extração(ART)
Bando de dados base (SnapMatch)
Motor de Reconhecimento (RecoStar) Leitor de Documento(DOKuStar)
Extração de Formas Livres
Normalizar
“10/24/10”
Format (US)Day = 24Month = OctYear = 2010
24.10.2010
Decompõe a “string” em subunidades e reformata conforme exigido
Vericar
Compara com regras de negócio e verifica se faz sentido
Período valido
?
24.10.2010
yes no
ExportaEntrada Manual
Analisar
Date
Word
Number
Busca identicações que fazem sentido com as regras
Transforma pixels em caracteres por meio do reconhecimento ótico de caracteres
OCR
CLERK: 12DATE SHIPPEDORDER DATE10/30/0210/24/02COVER CODEPA
3
Extrair
Order_Date = “10/24/10”
Encontra a data correta entre todas as alternaticas possiveis
Copyright © Open Text Corporation. All rights reserved.
Efeito de Longo Prazo das Técnicas de Forma Livre
Abordagem de OCC
Reconhecimento de forma livre
Tecnologia Adaptativa
(=aprendizado)
Combinando forma livre e adaptativa
Reconhecimento baseado
(template) na forma
Aumento da taxa de reconhecimento durante tempo de produção
Copyright © Open Text Corporation. All rights reserved.
Opção de Nota Fiscal
O Capture Center utiliza uma base de conhecimento interna de notas fiscais
As regras de extração forma desenvolvidas e testadas com base em amostras de notas fiscais de mais de 4000 fornecedores diferentes.
Exemplos de idiomas de mais de 25 paises incluindo o Brasil
Taxa de reconhecimento de mais de 95% no nível de campos, com valores médios entre 70% a 90%
Refinamento continuo baseado na experiência de campos
Copyright © Open Text Corporation. All rights reserved.
Extração de Dados de Nota Fiscal
Fornecedor
Número da Nota
Linha de Itens
Valor Liquido
Valor Total
Data da Nota
Número do Pedido
Moeda
Nota da Entrega
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal
DadosID do fornecedor como no dado mestre
Nome do vendedor
Como o dado é extraído?
Pesquisa de base de dados SnapMatch
Utiliza o dado mestre de fornecedor incluindo informações auxiliares (nome da empresa, número de FAX e telefone, endereço, …)
Uso
Necessário para a postagem
Campos mandatórios para formulários de nota fiscal
Configuração
Script para download para base de fornecedores
Número Tel / Fax
Nome
Endereço
Conta do banco
Dados mestre (extraido do ERP)
Outro…
ID do fornecedorNome do fornecedor
Fornecedor
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal (continuação)
DadosLiquido, bruto, valor e moeda (padrão)
Percentagem de imposto(s), valor(s), frete, … (opcional)
Como os dados são extraídos?
Uso de base de conhecimento de nota fiscal
Pesquisa por itens (uma nota fiscal é cheia de valores)
Relacionamento lógicos e geométricos entre valores são utilizados para remover as ambiguidades
Uso
Necessário para a postagem
Campos mandatórios para formulários de nota fiscal
Configuração
Configuração de idioma
Valor(es)
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal (continuação)
DataData de emissão
Número de referência do fornecedor
Como os dados são extraídos?
Uso de base de conhecimento de nota fiscal
Pesquisa por itens (uma nota fiscal é cheia de valores)
Normalmente a data e o número da nota fiscal estão próximos
Uso
Necessário para a postagem
Campos mandatórios para formulários de nota fiscal
Configuração
Configuração de idioma
Intervalo de datas aceitas por script
Data é numero da nota fiscal
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal (continuação)
DadoNúmero do pedido de compras
Como os dados são extraídos?
Uso de base de conhecimento de nota fiscal
Pesquisa por itens chave
Uso de sintaxe pre-definida (450…) ou fazendo download dos pedidos de compras em aberto
Uso
Necessário para a postagem e para conferência de itens por linha
Campos mandatórios para formulários de nota fiscal
Configuração
Sintaxe utilizada pela empresa para números de pedidos
Configuração de idioma
Número do Pedido de Compras
Copyright © Open Text Corporation. All rights reserved.
Amostra de Dados de Nota Fiscal (continuação)
DataNúmero do pedido, número de ordem da
linha, quantidade, unidade, preço unitário, preço total, percentagem de imposto e valor, descrição, número da nota de entrega.
Como os dados são extraídos?
Análise de layout e conteúdo
Uso opcional de cabeçalhos de coluna
Variando a ordem de linhas
Uso
Os dados precisam estar de acordo com o pedido e os bens entregues
Uso: Opcionalmente
Configuração
Configuração de idioma
Itens de Linha
Copyright © Open Text Corporation. All rights reserved.
OCR – Estado da Arte
Impresso
Texto OCR
Escrita Manual
Escrita Cursiva
Praticamente perfeito
Perfeito ou aceitável
Para produção
Apenas em ambientes restritos
Copyright © Open Text Corporation. All rights reserved.
Reconhecimento: Balanceamento de Carga
Fácil de Escalar Maior rendimento com clusters de servidores de reconhecimento Suporta todos os cenários de fail-over
Copyright © Open Text Corporation. All rights reserved.
Servidor de Reconhecimento 2
Nós Runtime
Servidor OCC
Servidor de Reconhecimento 1
Nós Runtime
Nós Runtime
Validação
Copyright © Open Text Corporation. All rights reserved.
Correção de
Separação de documento
Classificação de documento
Dados Extraidos
Desenho ergonômico
Destaque (Highlight) de dados extraidos
Pula campos corretos
Controle total por teclado
Entrada com clique único: Extração de dados semi-automatica com apontamento do dado
Entrada com um só clique
Copyright © Open Text Corporation. All rights reserved.
Validação de Desenho de Máscara
Slide 31Copyright © Open Text Corporation. All rights reserved.
Exportação
Content Server (LiveLink) Pasta dependente da classe do
documento Configuração de nome de arquivo Meta dados por categoria Disparo de Workflow
SharePoint Biblioteca depentende da classe do
documento Configuração do nome do arquivo Atributos da biblioteca Atributos do caminho da informação
File System Pasta e nome do arquivos
selecionáveis Dado em XML ou CSV
Exportação customizada
Indexação e
renderização
de PDF
Copyright © Open Text Corporation. All rights reserved.
Configuração
Importação de esquema de dados das categorias do Content Server ou das bibliotecas do SharePoint
Fácil definição de tipos de campos
Comece com KFI (key from image) e depois automatize passo a passo Entrada de dados semiautomática Aprendizado adaptativo Operadores de extração pré-definidos Operadores de extração definidos pelo
usuário
Design Studio para definição de
campos para formulários e para
sem formulários
Processos simplificados para desenvolvimento,
teste e implementação Teste com grandes volume de dados Teste de regração Copyright © Open Text Corporation. All rights reserved.
Monitoramento e Relatórios
Ferramenta de monitoramento para controlar fase de produção Saúde das fontes de entrada e dos respectivos destinos Saúde de todos os servidores de reconhecimento Lista de todos os clientes de validação ativos Sumário de todos os “batches” ativos Drill down em perfis individuias e “batches”.
Mudança de estado de “batches” e recursos de processamento
Relatório de histórico de “batches” Passos de processamento Quando, o que e o tempo que levou Monitoramento da performance
Slide 34Copyright © Open Text Corporation. All rights reserved.
Interface para criação de Scripts e Programação
Escreva scripts em C#
Programe com .net (DLLs)
Pontos de entrada durante o reconhecimento Antes do reconhecimento, ex. Predefinição de metadados Depois da classificação, ex. Para substituir decisão de classificação
automática Depois do reconhecimento, e.g. Para validar dados ou combinar diversos
campos de dados
Durante a validação Baseados em eventos disparados pelo usuário como entrada de dados e
mudança de valor
Exportação customizada
Conector de entradaSlide 35Copyright © Open Text Corporation. All rights reserved.
Slide 36
Obrigado
Marcelo CarreraSales Executive
Av. Ibirapuera, 2332, Torre II, Cj. 132Tel: +55 11 5054-8373Mobile: +55 11 98536-7739Email: mcarrera@opentext.com