file-pdfConfigurar Extração PDF (OCR)

Objeto utilizado para configurar a extração de dados de um arquivo PDF

Visão Geral

O objeto Configurar Extração PDF (OCR) é responsável por configurar os parâmetros utilizados para realizar a extração de texto em arquivos PDF através de OCR (Optical Character Recognition).

Esse objeto define o provedor de OCR, o idioma utilizado na leitura e o arquivo modelo que será utilizado como referência para a extração.

A configuração é utilizada posteriormente por objetos responsáveis por executar a leitura do conteúdo do PDF, permitindo que o robô identifique textos presentes em documentos digitalizados ou PDFs que não possuem texto estruturado.

Esse recurso é utilizado principalmente em processos de automação que envolvem:

  • Leitura de documentos digitalizados

  • Processamento de notas fiscais em PDF

  • Extração de informações de contratos, boletos ou comprovantes


Funcionamento

O objeto realiza a configuração inicial do mecanismo de OCR aplicado a arquivos PDF.

Durante a execução do robô, o processo ocorre da seguinte forma:

  1. O usuário configura o objeto Configurar Extração PDF (OCR).

  2. Define o provedor de OCR que realizará o reconhecimento de texto.

  3. Define o idioma predominante do documento.

  4. Informa o arquivo modelo que servirá como base para o processo de extração.

  5. Os objetos responsáveis pela leitura do PDF utilizam essa configuração para executar o OCR no documento.

Essa configuração permite melhorar a precisão da leitura, principalmente quando os documentos possuem layout fixo ou estrutura repetitiva.

Quando usar

  • Quando for necessário extrair texto de arquivos PDF que são imagens ou digitalizações.

  • Quando documentos PDF não possuem texto selecionável.

  • Em processos de leitura automática de notas fiscais, contratos ou comprovantes em PDF.

Quando não usar

  • Quando o PDF já possui texto estruturado e selecionável, permitindo extração direta sem OCR.


Configuração

CAMPO
DESCRITIVO

Título

Nome do objeto dentro do fluxo do robô. Permite identificar facilmente a etapa no processo de automação.

Nome Identificador do Objeto

Identificador único utilizado para referenciar essa configuração em outros objetos do robô.

Provedor OCR

Define o mecanismo responsável pelo reconhecimento de texto no PDF. Exemplo: Tesseract.

Idioma

Define o idioma predominante do conteúdo presente no PDF. Essa configuração melhora a precisão da leitura do OCR.

Arquivo Modelo

Caminho completo do arquivo PDF utilizado como modelo para a configuração de extração. Deve ser informado o caminho completo do arquivo.


Exemplos

Exemplo simples

Configurar OCR para leitura de um PDF digitalizado.

Fluxo:

  1. Adicionar o objeto Configurar Extração PDF (OCR).

  2. Definir:

    • Provedor OCR

    • Idioma

  3. Informar o Arquivo Modelo contendo o layout do documento.

  4. Utilizar essa configuração nos objetos responsáveis pela leitura do PDF.

Exemplo aplicado

Automação para processamento de Notas Fiscais em PDF digitalizadas.

Fluxo possível:

  1. Receber o arquivo PDF da nota fiscal.

  2. Utilizar Configurar Extração PDF (OCR) definindo:

    • Provedor OCR

    • Idioma do documento

    • Arquivo modelo da nota fiscal.

  3. Executar a leitura do documento utilizando os objetos de extração.

  4. Capturar dados como:

    • CNPJ

    • Valor da nota

    • Data de emissão

  5. Armazenar ou enviar os dados para outro sistema.


Retornos


Erros comuns e como evitar

Erro
Como evitar

Caminho do arquivo inválido

Garantir que o caminho completo do arquivo modelo esteja correto

Baixa precisão na leitura

Verificar se o idioma configurado corresponde ao idioma do documento

Documento não reconhecido corretamente

Utilizar um arquivo modelo com boa qualidade de digitalização


Boas práticas

  • Utilize um arquivo modelo representativo do layout real dos documentos.

  • Certifique-se de que o PDF modelo possui boa qualidade de imagem.

  • Configure corretamente o idioma do documento para melhorar a precisão do OCR.

  • Utilize nomes claros no Título e Nome Identificador do Objeto para facilitar a manutenção do robô.

Last updated

Was this helpful?