Configurar Extração PDF (OCR)

Objeto utilizado para configurar a extração de dados de um arquivo PDF

Visão Geral

O objeto Configurar Extração PDF (OCR) é responsável por configurar os parâmetros utilizados para realizar a extração de texto em arquivos PDF através de OCR (Optical Character Recognition).

Esse objeto define o provedor de OCR, o idioma utilizado na leitura e o arquivo modelo que será utilizado como referência para a extração.

A configuração é utilizada posteriormente por objetos responsáveis por executar a leitura do conteúdo do PDF, permitindo que o robô identifique textos presentes em documentos digitalizados ou PDFs que não possuem texto estruturado.

Esse recurso é utilizado principalmente em processos de automação que envolvem:

Leitura de documentos digitalizados
Processamento de notas fiscais em PDF
Extração de informações de contratos, boletos ou comprovantes

Funcionamento

O objeto realiza a configuração inicial do mecanismo de OCR aplicado a arquivos PDF.

Durante a execução do robô, o processo ocorre da seguinte forma:

O usuário configura o objeto Configurar Extração PDF (OCR).
Define o provedor de OCR que realizará o reconhecimento de texto.
Define o idioma predominante do documento.
Informa o arquivo modelo que servirá como base para o processo de extração.
Os objetos responsáveis pela leitura do PDF utilizam essa configuração para executar o OCR no documento.

Essa configuração permite melhorar a precisão da leitura, principalmente quando os documentos possuem layout fixo ou estrutura repetitiva.

Quando usar

Quando for necessário extrair texto de arquivos PDF que são imagens ou digitalizações.
Quando documentos PDF não possuem texto selecionável.
Em processos de leitura automática de notas fiscais, contratos ou comprovantes em PDF.

Quando não usar

Quando o PDF já possui texto estruturado e selecionável, permitindo extração direta sem OCR.

Configuração

CAMPO

DESCRITIVO

Título

Nome do objeto dentro do fluxo do robô. Permite identificar facilmente a etapa no processo de automação.

Nome Identificador do Objeto

Identificador único utilizado para referenciar essa configuração em outros objetos do robô.

Provedor OCR

Define o mecanismo responsável pelo reconhecimento de texto no PDF. Exemplo: Tesseract.

Idioma

Define o idioma predominante do conteúdo presente no PDF. Essa configuração melhora a precisão da leitura do OCR.

Arquivo Modelo

Caminho completo do arquivo PDF utilizado como modelo para a configuração de extração. Deve ser informado o caminho completo do arquivo.

Exemplos

Exemplo simples

Configurar OCR para leitura de um PDF digitalizado.

Fluxo:

Adicionar o objeto Configurar Extração PDF (OCR).
Definir:
- Provedor OCR
- Idioma
Informar o Arquivo Modelo contendo o layout do documento.
Utilizar essa configuração nos objetos responsáveis pela leitura do PDF.

Exemplo aplicado

Automação para processamento de Notas Fiscais em PDF digitalizadas.

Fluxo possível:

Receber o arquivo PDF da nota fiscal.
Utilizar Configurar Extração PDF (OCR) definindo:
- Provedor OCR
- Idioma do documento
- Arquivo modelo da nota fiscal.
Executar a leitura do documento utilizando os objetos de extração.
Capturar dados como:
- CNPJ
- Valor da nota
- Data de emissão
Armazenar ou enviar os dados para outro sistema.

Retornos

Erros comuns e como evitar

Erro

Como evitar

Caminho do arquivo inválido

Garantir que o caminho completo do arquivo modelo esteja correto

Baixa precisão na leitura

Verificar se o idioma configurado corresponde ao idioma do documento

Documento não reconhecido corretamente

Utilizar um arquivo modelo com boa qualidade de digitalização

Boas práticas

Utilize um arquivo modelo representativo do layout real dos documentos.
Certifique-se de que o PDF modelo possui boa qualidade de imagem.
Configure corretamente o idioma do documento para melhorar a precisão do OCR.
Utilize nomes claros no Título e Nome Identificador do Objeto para facilitar a manutenção do robô.

PreviousPDF NextExtrair Dados PDF (OCR)

Last updated 22 days ago

Was this helpful?

hashtagVisão Geral

hashtagFuncionamento

hashtagQuando usar

hashtagQuando não usar

hashtagConfiguração

hashtagExemplos

hashtagExemplo simples

hashtagExemplo aplicado

hashtagRetornos

hashtagErros comuns e como evitar

hashtagBoas práticas