Como instalar o Tesseract no Windows

Como Instalar O Tesseract No Windows



O Tesseract é uma ferramenta de reconhecimento de texto de código aberto disponível gratuitamente, também conhecida como OCR (reconhecimento óptico de caracteres). É usado principalmente para identificar e extrair texto de imagens. Ele lerá o texto dos dados da imagem e gravará a saída em um novo arquivo .txt. O Tesseract também está trabalhando em Python, pois é usado principalmente para reconhecer caligrafia a partir de imagens. Ele está usando o modelo LSTR (Long short-term memory). O Tesseract está trabalhando sob a licença Apache 2.0.

Vamos elaborar o método para instalar o Tesseract no Windows neste blog.







Então vamos começar!



Como instalar o Tesseract no Windows?

O Tesseract é uma ferramenta de linha de comando usada para extração de texto de imagens. Para instalar o Tesseract no Windows, você precisa seguir as instruções abaixo.



Etapa 1: baixar o instalador do Tesseract





Em primeiro lugar, navegue até o link fornecido abaixo e baixe o instalador do Tesseract de acordo com a especificação do seu sistema:

https: // github.com / UB-Mannheim / tesserato / semana



Etapa 2: execute o instalador do Tesseract

Visite a ' Transferências ” onde o instalador do Tesseract é baixado. Para instalar o Tesseract no Windows, execute o instalador do Tesseract clicando duas vezes nele:

Etapa 3: selecione o idioma

Muitos idiomas são suportados pelo instalador do Tesseract. Para interagir com a IU do Instalador, escolha “ Inglês ” como seu idioma e clique em “ OK ”:

Etapa 4: instalar o Tesseract

Ao fazer isso, o assistente de configuração do Tesseract OCR aparecerá na tela. Para iniciar a instalação do Tesseract, pressione o botão “ Próximo ' botão:

Para aceitar o “ Contrato de Licença ', Clique no ' Eu concordo ' botão:

Selecione os ' Instalar para qualquer pessoa que use este computador ” e pressione o botão “ Próximo ' botão:

Se você deseja adicionar dados de script ou incluir outro idioma, marque suas respectivas caixas de seleção e clique no botão “ Próximo ' botão. Como não queremos nenhum script ou idioma de dados adicional, continuaremos com as opções padrão selecionadas:

Escolha o local de instalação e clique no botão “ Próximo ' botão:

Se você não deseja criar um atalho no menu Iniciar, marque o “ Não crie atalhos ” caixa de seleção e pressione o botão “ Instalar ' botão:

Depois disso, a instalação do Tesseract será iniciada. Aguarde até que a instalação seja concluída e pressione o botão “ Próximo ' botão:

Por último, clique no botão “ Terminar ' botão:

Etapa 5: definir a variável de ambiente

Após a instalação, você precisa definir a variável de ambiente do Tesseract. Para isso, primeiro visite o diretório onde você instalou o Tesseract e copie o caminho do arquivo “ Endereço ' bar:

Faça uma busca por “ variáveis ​​ambientais ' no ' Comece ” menu e abra “ Edite as variáveis ​​de ambiente do sistema ”:

Dentro das configurações, navegue até o “ Avançado ” menu de configuração e clique no botão “ variáveis ​​ambientais ' botão:

Escolha o ' Caminho ” Variável de “ Variáveis ​​do sistema ” painel e pressione o botão “ Editar ' botão:

Depois disso ' Editar variável de ambiente ” aparecerá na tela. Aperte o ' Novo ” e cole o caminho do diretório de instalação do Tesseract copiado aqui. Por último, clique no botão “ OK ' botão:

Etapa 6: verificar a instalação do Tesseract

Para verificar a instalação do Tesseract, abra o prompt de comando do Windows pesquisando “ Prompt de comando ' no ' Comece ' cardápio:

Confira a versão do Tesseract usando o comando fornecido:

> tesserato --versão

A saída abaixo indica que instalamos com sucesso a versão do Tesseract “ v5.2.0 ” no Windows:

Vamos seguir em frente para verificar como usar o Tesseract no Windows.

Como usar o Tesseract no Windows?

O Tesseract é usado para ler manuscritos ou extrair texto de imagens. Vamos ver como isso funciona:

Etapa 1: selecione a imagem

Selecione a imagem da qual você deseja extrair o texto. Como escolhemos “ 1.png ”:

Etapa 2: extrair texto da imagem

Uma vez que o CMD é aberto. Utilize o “ cd ” comando para alterar o diretório onde a imagem está armazenada. Em seguida, execute o ' tesserato ” e defina o nome do arquivo de imagem conforme especificamos “ 1.png ”. O ' Texto ” mostra o parâmetro que denota o nome do arquivo de saída:

> cd C:\Users\anuma\OneDrive\Pictures\Saved Pictures
> tesserato 1 .png 'Texto'

Etapa 3: verificar a extração de texto

Para verificar a extração de texto, navegue até o diretório em que o arquivo de imagem existe. Você pode ver que o arquivo de saída “ Texto ” também é salvo aqui. Clique duas vezes no arquivo de saída para verificar se o tesseract extraiu o texto da imagem ou não:

Você pode ver que extraímos com sucesso o texto usando a ferramenta de linha de comando Tesseract:

Demonstramos a técnica para instalar e usar o Tesseract no Windows.

Conclusão

Para instalar o Tesseract no Windows, é necessário baixar o instalador do Tesseract. Para isso, acompanhe a primeira sessão deste artigo. Em seguida, defina a variável de ambiente Path para usar e acessar o Tesseract no prompt de comando do Windows. Em seguida, selecione o arquivo de imagem e use o “ Tesseract ” para reconhecer e extrair o texto da imagem. Aqui, você aprendeu a instalar e usar o “ Tesseract ” nas janelas.