Como criar uma incorporação de uma lista de frases em inglês

Você já pensou quando nos comunicamos com nossas máquinas (computadores) e lhes damos instruções para realizar uma tarefa específica para nós, como realizar uma pesquisa específica ou traduzir de um idioma para outro, como um computador entende e processa isso? Tudo isso é feito por meio do subcampo de Inteligência Artificial do Processamento de Linguagem Natural. O computador entende os valores numéricos e a técnica do NLP de “incorporação de palavras” converte a palavra e os textos que damos como entrada para os computadores nesse vetor numérico para que o computador possa reconhecê-lo. Vários outros processos de PNL acontecem além dessa interação humano-computador por meio de modelos de linguagem, mas abordaremos a palavra incorporação em detalhes neste guia.

Sintaxe:

Diferentes funções se enquadram no Processamento de Linguagem Natural para a incorporação de palavras no texto. Este artigo aborda a função “word2vec” para esta finalidade. Para tornar mais claro, a incorporação de palavras converte nossas entradas de texto na representação vetorial, onde as palavras que têm mais ou menos os mesmos significados contextuais deram a mesma representação.

O algoritmo “word2vec” é um modelo de rede neural que é treinado de forma a aprender a incorporação das palavras, primeiro prevendo o contexto da palavra em que ela aparece. Este modelo recebe o texto como entrada. Então, para cada palavra no texto, a representação vetorial é criada para aquela palavra. Este modelo baseia-se na ideia de que as palavras que parecem ter o mesmo contexto têm os mesmos significados. A sintaxe para “word2vec” é a seguinte:

$ Word2Vec(frases, min_count)

Este algoritmo tem dois parâmetros que são “sentences” e “minimum_count”. A sentença é a variável onde a lista de sentenças ou o texto na forma de sentenças é armazenado e o Minimum_count fala sobre o valor de contagem de 1 o que significa que qualquer uma das palavras no texto que apareceu menos que um precisa ser ignorada .

Exemplo 1:

Neste exemplo, criamos a palavra embeddings para as palavras que existem na lista de frases em inglês. Para criar a palavra “embedding”, precisamos usar o modelo “word2vec”. Este modelo é um pacote da biblioteca “gensim” do Python. Precisamos ter o Gensim instalado em nossos repositórios de bibliotecas Python para trabalhar com “word2vec”.

Para implementar este exemplo, trabalharemos no compilador Python online “google colab”. Para instalar o gensim, use o comando “pip install gensim”. Isso inicia o download desta biblioteca com todos os seus pacotes associados. Uma vez instalado, basta importar o pacote “word2vector” do gensim.

Para treinar esse modelo “word2vec”, precisamos criar um conjunto de dados de treinamento. Para isso, criamos uma lista de frases que contém de quatro a cinco frases em inglês. Salvamos esta lista na variável “training_data”.

Nosso próximo passo depois de criar o conjunto de dados de treinamento é treinar o modelo “word2vec” nesses dados. Então, chamamos o modelo. Damos os dados de treinamento nos parâmetros de entrada deste modelo que salvamos na variável “input”. Em seguida, especificamos o segundo parâmetro que é o “minimum_count”. Definimos seu valor igual a “1”. A saída desse modelo de treinamento é salva na variável “modelo_treinado”.

Assim que terminarmos de treinar o modelo, podemos simplesmente acessar o modelo com o prefixo “wv”, que é a palavra modelo vetorial. Também podemos acessar o vocabulário do token de nossas palavras e imprimi-las com o método a seguir:

vocabof_tokens = lista (model.wv.vocab)

O modelo representa o modelo treinado em nosso caso. Agora, acessamos a representação vetorial de uma palavra da lista da frase que, no nosso caso, é “maçã”. Fazemos isso simplesmente chamando o modelo treinado. Passamos a palavra cuja representação vetorial queremos imprimir como “model. wv ['apple']” ao seu argumento de entrada. Em seguida, imprimimos os resultados com a função “print”.

de como uma nação modelos importar Word2Vec

dados_de_treinamento = [ [ 'maçã' , 'é' , 'o' , 'doce' , 'maçã' , 'para' , 'palavra2vec' ] ,
[ 'esse' , 'é' , 'o' , 'segundo' , 'maçã' ] ,
[ 'aqui' , 'outro' , 'maçã' ] ,
[ 'um' , 'doce' , 'maçã' ] ,
[ 'e' , 'mais' , 'doce' , 'maçã' ] ]

modelo = Word2Vec ( dados_de_treinamento , min_count = 1 )
imprimir ( modelo )
vocabof_tokens = lista ( modelo. wv . index_to_key )
imprimir ( vocabof_tokens )
imprimir ( modelo. wv [ 'maçã' ] )

A partir da saída e do código mencionados anteriormente, a palavra embedding para a palavra “apple” é mostrada. No exemplo, primeiro criamos um conjunto de dados de treinamento. Em seguida, treinamos um modelo nele e resumimos o modelo. Então, usando o modelo, temos acesso ao vocabulário token das palavras. Depois disso, exibimos a palavra incorporação para a palavra “apple”.

Exemplo 2:

Usando a biblioteca gensim, vamos criar outra lista de sentenças. Treine nosso modelo para cada palavra na frase para criar a incorporação de palavras usando o modelo “word2vec”. Primeiro, do pacote da biblioteca gensim, o modelo “word2vec” é importado. Em seguida, criamos outro conjunto de dados que será a lista que contém as duas frases. Cada frase na lista tem quatro palavras.

Agora, salvamos esta lista na variável “data”. Então, chamamos o modelo “word2vec()” e alimentamos os dados para os argumentos deste modelo com o valor Minimum_count que é igual a “1”. É assim que treinamos nosso modelo. Agora, ele é capaz e pode aprender o word embedding das palavras que existem nas frases que estão presentes na lista, prevendo o contexto em que elas existem. Para testar os resultados de nosso modelo, simplesmente passamos uma palavra como “cachorro” em nossos dados para o modelo. Em seguida, imprimimos os resultados usando a função “print()”.

de como uma nação modelos importar Word2Vec
dados = [ [ 'coelho' , 'tem' , 'dentes' ] , [ 'cachorro' , 'tem' , 'ouvidos' ] ]
modelo = Word2Vec ( dados , min_count = 1 )
imprimir ( modelo. wv [ 'cachorro' ] )

Podemos observar a representação vetorial da palavra que alimentamos o modelo como sua entrada do trecho anterior da saída.

Conclusão

Este guia demonstra o método para criar a incorporação de palavras para as palavras que existem na lista de frases em inglês. Aprendemos sobre a biblioteca “gensim” do Python que fornece o modelo “word2vec” para criar a incorporação de palavras. Além disso, aprendemos sobre parâmetros de entrada, como treinar o modelo “word2vec” nos dados de treinamento e como apresentar a palavra em uma representação do vetor.

Como criar uma incorporação de uma lista de frases em inglês

Sintaxe:

Exemplo 1:

Exemplo 2:

Conclusão

Categoria

Publicações Populares

Como adicionar o GitHub ao Discord

Como criar uma política de controle de serviços?

Como ler e editar arquivos PDF no Raspberry Pi

Recomendação de idade e controle dos pais – Roblox

Como adicionar propriedade a um objeto em JavaScript

Qual é o uso de um grupo de cabeçalho de tabela e um grupo de rodapé de tabela em CSS

Conexão de banco de dados Oracle em Python

Como configurar a interface de rede no Rocky Linux 9

Controles e dicas do Roblox East Brickton

Criando e executando um arquivo “.a” do Linux

Guia de instalação do NVM no Ubuntu

15 comandos básicos do PowerShell SQL

O que é a função printf () na programação C

Como definir e usar variáveis de ambiente no script Bash

Como corrigir o erro de comando systemctl não encontrado no Linux

3 maneiras de instalar o CMake no Raspberry Pi

Cláusula SQL COM

Arduino é um microcontrolador

Como ativar a rolagem vertical e horizontal no Tailwind?

O que é Amazon Web Services e por que é tão bem-sucedido?