Configurar Extração PDF (OCR)
Objeto utilizado para configurar a extração de dados de um arquivo PDF
Visão Geral
O objeto Configurar Extração PDF (OCR) é responsável por configurar os parâmetros utilizados para realizar a extração de texto em arquivos PDF através de OCR (Optical Character Recognition).
Esse objeto define o provedor de OCR, o idioma utilizado na leitura e o arquivo modelo que será utilizado como referência para a extração.
A configuração é utilizada posteriormente por objetos responsáveis por executar a leitura do conteúdo do PDF, permitindo que o robô identifique textos presentes em documentos digitalizados ou PDFs que não possuem texto estruturado.
Esse recurso é utilizado principalmente em processos de automação que envolvem:
Leitura de documentos digitalizados
Processamento de notas fiscais em PDF
Extração de informações de contratos, boletos ou comprovantes
Funcionamento
O objeto realiza a configuração inicial do mecanismo de OCR aplicado a arquivos PDF.
Durante a execução do robô, o processo ocorre da seguinte forma:
O usuário configura o objeto Configurar Extração PDF (OCR).
Define o provedor de OCR que realizará o reconhecimento de texto.
Define o idioma predominante do documento.
Informa o arquivo modelo que servirá como base para o processo de extração.
Os objetos responsáveis pela leitura do PDF utilizam essa configuração para executar o OCR no documento.
Essa configuração permite melhorar a precisão da leitura, principalmente quando os documentos possuem layout fixo ou estrutura repetitiva.
Quando usar
Quando for necessário extrair texto de arquivos PDF que são imagens ou digitalizações.
Quando documentos PDF não possuem texto selecionável.
Em processos de leitura automática de notas fiscais, contratos ou comprovantes em PDF.
Quando não usar
Quando o PDF já possui texto estruturado e selecionável, permitindo extração direta sem OCR.
Configuração

Título
Nome do objeto dentro do fluxo do robô. Permite identificar facilmente a etapa no processo de automação.
Nome Identificador do Objeto
Identificador único utilizado para referenciar essa configuração em outros objetos do robô.
Provedor OCR
Define o mecanismo responsável pelo reconhecimento de texto no PDF. Exemplo: Tesseract.
Idioma
Define o idioma predominante do conteúdo presente no PDF. Essa configuração melhora a precisão da leitura do OCR.
Arquivo Modelo
Caminho completo do arquivo PDF utilizado como modelo para a configuração de extração. Deve ser informado o caminho completo do arquivo.
Exemplos
Exemplo simples
Configurar OCR para leitura de um PDF digitalizado.
Fluxo:
Adicionar o objeto Configurar Extração PDF (OCR).
Definir:
Provedor OCR
Idioma
Informar o Arquivo Modelo contendo o layout do documento.
Utilizar essa configuração nos objetos responsáveis pela leitura do PDF.
Exemplo aplicado
Automação para processamento de Notas Fiscais em PDF digitalizadas.
Fluxo possível:
Receber o arquivo PDF da nota fiscal.
Utilizar Configurar Extração PDF (OCR) definindo:
Provedor OCR
Idioma do documento
Arquivo modelo da nota fiscal.
Executar a leitura do documento utilizando os objetos de extração.
Capturar dados como:
CNPJ
Valor da nota
Data de emissão
Armazenar ou enviar os dados para outro sistema.
Retornos

Erros comuns e como evitar
Caminho do arquivo inválido
Garantir que o caminho completo do arquivo modelo esteja correto
Baixa precisão na leitura
Verificar se o idioma configurado corresponde ao idioma do documento
Documento não reconhecido corretamente
Utilizar um arquivo modelo com boa qualidade de digitalização
Boas práticas
Utilize um arquivo modelo representativo do layout real dos documentos.
Certifique-se de que o PDF modelo possui boa qualidade de imagem.
Configure corretamente o idioma do documento para melhorar a precisão do OCR.
Utilize nomes claros no Título e Nome Identificador do Objeto para facilitar a manutenção do robô.
Last updated
Was this helpful?

