O Tesseract é uma ferramenta de reconhecimento de texto de código aberto disponível gratuitamente, também conhecida como OCR (reconhecimento óptico de caracteres). É usado principalmente para identificar e extrair texto de imagens. Ele lerá o texto dos dados da imagem e gravará a saída em um novo arquivo .txt. O Tesseract também está trabalhando em Python, pois é usado principalmente para reconhecer caligrafia a partir de imagens. Ele está usando o modelo LSTR (Long short-term memory). O Tesseract está trabalhando sob a licença Apache 2.0.
Vamos elaborar o método para instalar o Tesseract no Windows neste blog.
Então vamos começar!
Como instalar o Tesseract no Windows?
O Tesseract é uma ferramenta de linha de comando usada para extração de texto de imagens. Para instalar o Tesseract no Windows, você precisa seguir as instruções abaixo.
Etapa 1: baixar o instalador do Tesseract
Em primeiro lugar, navegue até o link fornecido abaixo e baixe o instalador do Tesseract de acordo com a especificação do seu sistema:
https: // github.com / UB-Mannheim / tesserato / semana
Etapa 2: execute o instalador do Tesseract
Visite a ' Transferências ” onde o instalador do Tesseract é baixado. Para instalar o Tesseract no Windows, execute o instalador do Tesseract clicando duas vezes nele:
Etapa 3: selecione o idioma
Muitos idiomas são suportados pelo instalador do Tesseract. Para interagir com a IU do Instalador, escolha “ Inglês ” como seu idioma e clique em “ OK ”:
Etapa 4: instalar o Tesseract
Ao fazer isso, o assistente de configuração do Tesseract OCR aparecerá na tela. Para iniciar a instalação do Tesseract, pressione o botão “ Próximo ' botão:
Para aceitar o “ Contrato de Licença ', Clique no ' Eu concordo ' botão:
Selecione os ' Instalar para qualquer pessoa que use este computador ” e pressione o botão “ Próximo ' botão:
Se você deseja adicionar dados de script ou incluir outro idioma, marque suas respectivas caixas de seleção e clique no botão “ Próximo ' botão. Como não queremos nenhum script ou idioma de dados adicional, continuaremos com as opções padrão selecionadas:
Escolha o local de instalação e clique no botão “ Próximo ' botão:
Se você não deseja criar um atalho no menu Iniciar, marque o “ Não crie atalhos ” caixa de seleção e pressione o botão “ Instalar ' botão:
Depois disso, a instalação do Tesseract será iniciada. Aguarde até que a instalação seja concluída e pressione o botão “ Próximo ' botão:
Por último, clique no botão “ Terminar ' botão:
Etapa 5: definir a variável de ambiente
Após a instalação, você precisa definir a variável de ambiente do Tesseract. Para isso, primeiro visite o diretório onde você instalou o Tesseract e copie o caminho do arquivo “ Endereço ' bar:
Faça uma busca por “ variáveis ambientais ' no ' Comece ” menu e abra “ Edite as variáveis de ambiente do sistema ”:
Dentro das configurações, navegue até o “ Avançado ” menu de configuração e clique no botão “ variáveis ambientais ' botão:
Escolha o ' Caminho ” Variável de “ Variáveis do sistema ” painel e pressione o botão “ Editar ' botão:
Depois disso ' Editar variável de ambiente ” aparecerá na tela. Aperte o ' Novo ” e cole o caminho do diretório de instalação do Tesseract copiado aqui. Por último, clique no botão “ OK ' botão:
Etapa 6: verificar a instalação do Tesseract
Para verificar a instalação do Tesseract, abra o prompt de comando do Windows pesquisando “ Prompt de comando ' no ' Comece ' cardápio:
Confira a versão do Tesseract usando o comando fornecido:
> tesserato --versão
A saída abaixo indica que instalamos com sucesso a versão do Tesseract “ v5.2.0 ” no Windows:
Vamos seguir em frente para verificar como usar o Tesseract no Windows.
Como usar o Tesseract no Windows?
O Tesseract é usado para ler manuscritos ou extrair texto de imagens. Vamos ver como isso funciona:
Etapa 1: selecione a imagem
Selecione a imagem da qual você deseja extrair o texto. Como escolhemos “ 1.png ”:
Etapa 2: extrair texto da imagem
Uma vez que o CMD é aberto. Utilize o “ cd ” comando para alterar o diretório onde a imagem está armazenada. Em seguida, execute o ' tesserato ” e defina o nome do arquivo de imagem conforme especificamos “ 1.png ”. O ' Texto ” mostra o parâmetro que denota o nome do arquivo de saída:
> cd C:\Users\anuma\OneDrive\Pictures\Saved Pictures> tesserato 1 .png 'Texto'
Etapa 3: verificar a extração de texto
Para verificar a extração de texto, navegue até o diretório em que o arquivo de imagem existe. Você pode ver que o arquivo de saída “ Texto ” também é salvo aqui. Clique duas vezes no arquivo de saída para verificar se o tesseract extraiu o texto da imagem ou não:
Você pode ver que extraímos com sucesso o texto usando a ferramenta de linha de comando Tesseract:
Demonstramos a técnica para instalar e usar o Tesseract no Windows.
Conclusão
Para instalar o Tesseract no Windows, é necessário baixar o instalador do Tesseract. Para isso, acompanhe a primeira sessão deste artigo. Em seguida, defina a variável de ambiente Path para usar e acessar o Tesseract no prompt de comando do Windows. Em seguida, selecione o arquivo de imagem e use o “ Tesseract ” para reconhecer e extrair o texto da imagem. Aqui, você aprendeu a instalar e usar o “ Tesseract ” nas janelas.