file-pdfExtrair Dados PDF (OCR)

Objeto utilizado para extrair dados de um arquivo PDF

Visão Geral

O objeto Extrair Dados PDF (OCR) é responsável por realizar a extração de informações de arquivos PDF utilizando OCR, com base em uma configuração previamente definida no objeto Configurar Extração PDF (OCR).

Esse objeto utiliza a configuração criada anteriormente para identificar e processar o conteúdo do documento, permitindo que o robô capture informações presentes em PDFs digitalizados ou documentos que não possuem texto estruturado.

A extração ocorre a partir de um arquivo PDF informado no fluxo do robô, utilizando os parâmetros definidos na configuração de OCR.

Esse recurso é utilizado em automações que envolvem leitura e processamento de documentos como:

  • Notas fiscais

  • Boletos

  • Contratos

  • Comprovantes

  • Documentos digitalizados em PDF


Funcionamento

O objeto executa o processo de extração de dados de um PDF utilizando OCR, baseado em uma configuração previamente criada.

O fluxo de funcionamento ocorre da seguinte forma:

  1. O usuário cria uma configuração utilizando o objeto Configurar Extração PDF (OCR).

  2. No objeto Extrair Dados PDF (OCR), essa configuração é selecionada no campo Configuração.

  3. O usuário informa o arquivo PDF que será processado.

  4. Durante a execução do robô, o sistema aplica o OCR no documento.

  5. Os dados identificados são processados e disponibilizados para uso no fluxo do robô.

Essa abordagem permite reutilizar a mesma configuração de OCR para diferentes documentos que possuem estrutura semelhante.

Quando usar

  • Quando for necessário extrair dados de arquivos PDF digitalizados.

  • Quando o documento não possui texto selecionável.

  • Quando existir uma configuração de OCR previamente definida para o layout do documento.

Quando não usar

  • Quando o PDF possui texto estruturado, permitindo leitura direta sem OCR.

  • Quando não existe uma configuração de extração previamente criada.


Configuração

CAMPO
DESCRITIVO

Título

Nome do objeto dentro do fluxo do robô. Permite identificar a etapa no processo de automação.

Nome Identificador do Objeto

Identificador único utilizado para referenciar os dados extraídos em outras etapas do robô.

Configuração

Seleciona a configuração previamente criada através do objeto Configurar Extração PDF (OCR).

Importar Arquivo

Caminho do arquivo PDF que será processado pelo OCR para extração das informações.

Observação:

  • Os campos Configuração e Importar Arquivo são obrigatórios para execução do objeto.


Estrutura de Bloco

Não há estrutura de bloco específica documentada para este objeto.


Exemplos

Exemplo simples

Extrair dados de um PDF digitalizado.

Fluxo:

  1. Criar uma configuração utilizando Configurar Extração PDF (OCR).

  2. Adicionar o objeto Extrair Dados PDF (OCR).

  3. Selecionar a Configuração criada.

  4. Informar o arquivo PDF no campo Importar Arquivo.

  5. Executar o robô para realizar a extração das informações.

Exemplo aplicado

Automação para leitura de Notas Fiscais em PDF.

Fluxo possível:

  1. Criar uma configuração de OCR baseada em um modelo de nota fiscal.

  2. Receber um PDF de nota fiscal no robô.

  3. Utilizar o objeto Extrair Dados PDF (OCR) para processar o documento.

  4. Extrair dados como:

    • Número da nota

    • CNPJ

    • Valor total

    • Data de emissão

  5. Utilizar as informações extraídas para preenchimento de sistemas ou armazenamento em banco de dados.


Retornos


Erros comuns e como evitar

Erro
Como evitar

Configuração não selecionada

Garantir que uma configuração válida de OCR esteja definida no campo Configuração

Arquivo PDF inválido

Verificar se o caminho do arquivo informado está correto

Falha na extração de dados

Certificar-se de que o layout do documento corresponde ao modelo utilizado na configuração


Boas práticas

  • Criar configurações de OCR específicas para cada tipo de documento.

  • Utilizar arquivos de boa qualidade para melhorar a precisão do OCR.

  • Nomear corretamente os objetos para facilitar a manutenção do fluxo do robô.

  • Reutilizar a mesma configuração quando os documentos possuírem layout semelhante.

Last updated

Was this helpful?