Como usar tokenizadores em transformadores de rosto abraçado?

O Processamento de Linguagem Natural (PNL) opera na forma bruta dos dados. Os modelos de aprendizado de máquina são treinados em dados complexos, mas não conseguem compreender os dados brutos. Esta forma bruta de dados deve ter algum valor numérico associado a ela. Este valor determina o valor e a importância da palavra nos dados e com base nisso são realizados os cálculos.

Este artigo fornece um guia passo a passo sobre o uso de Tokenizers em Hugging Face Transformers.

O que é um tokenizador?

Tokenizer é um conceito importante da PNL e seu principal objetivo é traduzir o texto bruto em números. Existem diversas técnicas e metodologias presentes para esse fim. Porém, é importante ressaltar que cada técnica atende a um propósito específico.
Como usar tokenizadores em transformadores de rosto abraçado?

Como usar tokenizadores em transformadores de rosto abraçado?

A biblioteca tokenizer deve ser instalada primeiro antes de usá-la e importar funções dela. Depois disso, treine um modelo usando AutoTokenizer e forneça a entrada para realizar a tokenização.

Hugging Face apresenta três categorias principais de tokenização que são fornecidas abaixo:

Tokenizer baseado em palavras
Tokenizer baseado em caracteres
Tokenizer baseado em subpalavras

Aqui está um guia passo a passo para usar Tokenizers em Transformers:

Etapa 1: instalar transformadores
Para instalar transformadores, use o comando pip no seguinte comando:

! pip instalar transformadores

Etapa 2: importar classes
De transformadores, importe gasoduto , e AutoModelForSequenceClassification biblioteca para realizar a classificação:

do pipeline de importação de transformadores, AutoModelForSequenceClassification

Etapa 3: importar modelo
O ' AutoModelForSequenceClassification ”É um método que pertence à Auto-Class para tokenização. O from_pretrained() O método é usado para retornar a classe de modelo correta com base no tipo de modelo.

Aqui fornecemos o nome do modelo no campo “ nome do modelo ' variável:

nome do modelo = 'distilbert-base-uncased-finetuned-sst-2-english'
modelo de pré_treinamento =AutoModelForSequenceClassification.from_pretrained ( nome do modelo )

Etapa 4: importar o AutoTokenizer
Forneça o seguinte comando para gerar tokens passando o “ nome do modelo ”como o argumento:

de transformadores importar AutoTokenizer

o token gerado =AutoTokenizer.from_pretrained ( nome do modelo )

Etapa 5: gerar token
Agora, vamos gerar tokens em uma frase “Adoro boa comida” usando o “ o token gerado ' variável:

palavras =gerar token ( 'Adoro boa comida' )
imprimir ( palavras )

A saída é dada da seguinte forma:

O código acima Google Co. é dado aqui.

Conclusão

Para usar Tokenizers no Hugging Face, instale a biblioteca usando o comando pip, treine um modelo usando AutoTokenizer e forneça a entrada para realizar a tokenização. Ao usar a tokenização, atribua pesos às palavras com base nos quais elas são sequenciadas para reter o significado da frase. Essa pontuação também determina seu valor para análise. Este artigo é um guia detalhado sobre como usar Tokenizers em Hugging Face Transformers.

Como usar tokenizadores em transformadores de rosto abraçado?

O que é um tokenizador?

Como usar tokenizadores em transformadores de rosto abraçado?

Conclusão

Categoria

Publicações Populares

Quanto vale um papagaio no Adopt Me Roblox?

Compreendendo a Porta NOR Exclusiva – Um Tutorial Completo

Pandas Ler JSON

Como buscar uma ramificação do upstream para o repositório local?

Como fazer as colunas começarem ou terminarem na enésima linha de grade no Tailwind?

Como excluir um usuário no Linux

Como adicionar Koya Bot ao Discord

Como adicionar texto descritivo a pontos de dados em um gráfico no MATLAB

Percorrer o objeto em ordem inversa usando JavaScript

Como usar o bate-papo por voz no Roblox

Como resolver o “CONFLITO” do Git Merge?

Operador SQLXOR

O que são padrões Saga na AWS?

Como usar o comando readarray para ler matriz 2D no Bash

Como usar a seleção por relevância marginal máxima (MMR) em LangChain?

Exemplos de C++ Std::Map::Erase

Como juntar duas tabelas no MySQL sem usar Join?

Como modificar a URL em JavaScript sem recarregar a página

Instrução SQL Case quando o valor é nulo

Como atualizar o Node.js no Raspberry Pi