Como usar tokenizadores em transformadores de rosto abraçado?

Como Usar Tokenizadores Em Transformadores De Rosto Abracado



O Processamento de Linguagem Natural (PNL) opera na forma bruta dos dados. Os modelos de aprendizado de máquina são treinados em dados complexos, mas não conseguem compreender os dados brutos. Esta forma bruta de dados deve ter algum valor numérico associado a ela. Este valor determina o valor e a importância da palavra nos dados e com base nisso são realizados os cálculos.

Este artigo fornece um guia passo a passo sobre o uso de Tokenizers em Hugging Face Transformers.

O que é um tokenizador?

Tokenizer é um conceito importante da PNL e seu principal objetivo é traduzir o texto bruto em números. Existem diversas técnicas e metodologias presentes para esse fim. Porém, é importante ressaltar que cada técnica atende a um propósito específico.
Como usar tokenizadores em transformadores de rosto abraçado?







Como usar tokenizadores em transformadores de rosto abraçado?

A biblioteca tokenizer deve ser instalada primeiro antes de usá-la e importar funções dela. Depois disso, treine um modelo usando AutoTokenizer e forneça a entrada para realizar a tokenização.



Hugging Face apresenta três categorias principais de tokenização que são fornecidas abaixo:



  • Tokenizer baseado em palavras
  • Tokenizer baseado em caracteres
  • Tokenizer baseado em subpalavras

Aqui está um guia passo a passo para usar Tokenizers em Transformers:





Etapa 1: instalar transformadores
Para instalar transformadores, use o comando pip no seguinte comando:

! pip instalar transformadores



Etapa 2: importar classes
De transformadores, importe gasoduto , e AutoModelForSequenceClassification biblioteca para realizar a classificação:

do pipeline de importação de transformadores, AutoModelForSequenceClassification

Etapa 3: importar modelo
O ' AutoModelForSequenceClassification ”É um método que pertence à Auto-Class para tokenização. O from_pretrained() O método é usado para retornar a classe de modelo correta com base no tipo de modelo.

Aqui fornecemos o nome do modelo no campo “ nome do modelo ' variável:

nome do modelo = 'distilbert-base-uncased-finetuned-sst-2-english'
modelo de pré_treinamento =AutoModelForSequenceClassification.from_pretrained ( nome do modelo )

Etapa 4: importar o AutoTokenizer
Forneça o seguinte comando para gerar tokens passando o “ nome do modelo ”como o argumento:

de transformadores importar AutoTokenizer

o token gerado =AutoTokenizer.from_pretrained ( nome do modelo )

Etapa 5: gerar token
Agora, vamos gerar tokens em uma frase “Adoro boa comida” usando o “ o token gerado ' variável:

palavras =gerar token ( 'Adoro boa comida' )
imprimir ( palavras )

A saída é dada da seguinte forma:

O código acima Google Co. é dado aqui.

Conclusão

Para usar Tokenizers no Hugging Face, instale a biblioteca usando o comando pip, treine um modelo usando AutoTokenizer e forneça a entrada para realizar a tokenização. Ao usar a tokenização, atribua pesos às palavras com base nos quais elas são sequenciadas para reter o significado da frase. Essa pontuação também determina seu valor para análise. Este artigo é um guia detalhado sobre como usar Tokenizers em Hugging Face Transformers.