file-linesExtrair Texto de Imagens

Extração de textos em imagens via OCR

Visão Geral

O objeto Extrair Texto de Imagem permite realizar a extração de textos presentes em imagens ou documentos utilizando tecnologia de OCR (Optical Character Recognition).

Esse objeto pode capturar o conteúdo textual de uma imagem a partir de:

  • Arquivo local

  • URL de imagem na internet

A extração é realizada através de um provedor de OCR, como Tesseract (gratuito) ou Google, permitindo converter o conteúdo visual em texto manipulável dentro do robô.

Esse recurso é amplamente utilizado para automatizar processos que envolvem leitura de documentos digitalizados, imagens com textos ou capturas de tela.


Funcionamento

O objeto executa um processo de reconhecimento óptico de caracteres (OCR) sobre uma imagem fornecida.

O funcionamento ocorre da seguinte forma:

  1. O usuário define o provedor de OCR que realizará o reconhecimento do texto.

  2. O idioma do conteúdo da imagem é informado para melhorar a precisão da leitura.

  3. É definida a forma de captura da imagem, podendo ser:

    • Arquivo

    • URL

  4. O caminho do arquivo ou link da imagem é informado.

  5. Durante a execução do robô, o objeto processa a imagem e retorna o texto identificado para ser utilizado em outros objetos do fluxo.

Quando usar

  • Quando for necessário capturar textos presentes em imagens.

  • Para extrair informações de documentos digitalizados.

  • Para ler dados de notas fiscais, recibos ou documentos escaneados.

  • Para capturar textos presentes em imagens hospedadas na internet.

Quando não usar

  • Quando o texto já estiver disponível em formato textual estruturado (ex.: HTML, banco de dados ou arquivos de texto).


Configuração

CAMPO
DESCRITIVO

Título

Nome do objeto dentro do fluxo do robô. Pode ser alterado para facilitar a identificação da etapa.

Nome Identificador do Objeto

Identificador único utilizado para referenciar o retorno do objeto em outras etapas do robô. Não deve conter espaços ou caracteres especiais.

Provedor OCR

Define o mecanismo responsável pela leitura do texto na imagem. As opções disponíveis são Tesseract (gratuito) ou Google.

Idioma

Define o idioma predominante do texto presente na imagem. Atualmente são suportados Português e Inglês.

Forma de Captura

Define a origem da imagem que será analisada pelo OCR. Pode ser Arquivo ou Link.

Arquivo / Url

Caminho do arquivo local ou URL da imagem que contém o texto a ser extraído. O campo exibido depende da opção selecionada em Forma de Captura.

Observação:

  • Caso o provedor Google seja selecionado e não haja chave de acesso configurada, o objeto só será executado se a empresa possuir créditos de OCR disponíveis.


Exemplos

Exemplo simples

Extrair texto de uma imagem hospedada na internet.

Fluxo:

  1. Configurar o objeto Extrair Texto de Imagem.

  2. Selecionar:

    • Provedor OCR

    • Idioma

    • Forma de captura Link

  3. Informar a URL da imagem.

  4. Utilizar o Nome Identificador do Objeto em outro objeto para acessar o texto extraído.

Exemplo aplicado

Automação para leitura de Nota Fiscal digitalizada.

Fluxo possível:

  1. Baixar ou receber a nota fiscal em formato de imagem.

  2. Utilizar o objeto Extrair Texto de Imagem com Forma de Captura = Arquivo.

  3. Executar o OCR para extrair os dados da imagem.

  4. Utilizar os textos retornados para:

    • Armazenar em banco de dados

    • Validar informações

    • Preencher sistemas automaticamente.


Retornos

O objeto retorna o texto identificado na imagem após o processamento OCR.

Esse valor pode ser utilizado em outros objetos do robô através do Nome Identificador do Objeto configurado.


Erros comuns e como evitar

Erro
Como evitar

Texto extraído com baixa precisão

Verificar se o idioma configurado corresponde ao idioma da imagem

Falha na execução com provedor Google

Garantir que a chave de acesso esteja configurada ou que existam créditos disponíveis

Nenhum texto retornado

Verificar se a imagem possui qualidade suficiente para OCR

Campo Arquivo/Url inválido

Confirmar se o caminho do arquivo ou URL está correto


Boas práticas

  • Utilize o idioma correto para aumentar a precisão do OCR.

  • Prefira Arquivo quando trabalhar com documentos detalhados como notas fiscais ou documentos escaneados.

  • Utilize Link para imagens simples ou textos curtos hospedados na internet.

  • Defina nomes claros no Título e Nome Identificador do Objeto para facilitar a manutenção do robô.

Last updated

Was this helpful?