O que é o Dalle-mini e como funciona?

Dalle-mini é um modelo de aprendizado profundo que pode gerar imagens de alta qualidade a partir do texto de entrada do usuário. É baseado no modelo DALL-E, lançado pela OpenAI em janeiro de 2021. DALL-E significa “ Linguagem Desembaraçada e Expressão Latente ” é uma rede neural baseada em transformador que pode codificar texto e imagens em um espaço latente comum e, em seguida, decodificá-los de volta em qualquer modalidade.

Este artigo explicará o seguinte conteúdo:

O que é o Dalle-mini?

Dê a ela-mini é uma versão menor e mais rápida do DALL-E, criada pela EleutherAI, um coletivo de pesquisa de código aberto. O Dalle-mini usa apenas 6 bilhões de parâmetros, em comparação com os 12 bilhões do DALL-E, e pode ser executado em uma única GPU. Dalle-mini também usa um tokenizador e vocabulário diferentes para a entrada de texto, o que o torna mais compatível com diferentes idiomas e domínios:

Observação : Os usuários podem gerar imagens gratuitas usando o Dalle-mini seguindo o link .

Qual é o funcionamento de Dalle-mini?

A principal ideia por trás do Dalle-mini é o poder dos transformadores, que são redes neurais. Eles podem aprender dependências de longo alcance e padrões complexos em dados sequenciais, como texto ou imagens.

Os transformadores consistem em duas partes principais: um codificador e um decodificador. A primeira parte pega uma entrada (uma descrição de texto) e a transforma em vetores ocultos. Depois disso, o decodificador o pega e gera uma saída (uma imagem) que é relevante para a entrada.

Qual é a diferença entre Dalle-mini e DALL-E?

O Dalle-mini e o DALL-E usam uma arquitetura de codificador-decodificador compartilhado para texto e imagens. Eles podem codificar e decodificar ambas as modalidades usando a mesma rede. Isso lhes permite aprender um espaço latente comum que capta a relação semântica entre texto e imagens. Depois disso, permite que eles realizem geração cross-modal, como criar imagens a partir de texto ou vice-versa.

Como funciona o Dalle-mini?

Para gerar uma imagem a partir de uma descrição de texto, Dalle-mini primeiro tokeniza o texto usando um algoritmo de codificação de pares de bytes (BPE), que divide o texto em unidades de subpalavras com base em sua frequência e co-ocorrência:

Vamos detalhar o funcionamento interno do Dalle-mini:

Funcionamento interno da Dalle-mini

Suponhamos que a palavra “ jogando ” pode ser dividido em “ pla ' e ' voando ”. Os tokens são então mapeados para IDs numéricos usando um vocabulário de 8192 tokens. Os IDs são alimentados no codificador, produzindo uma representação latente de tamanho 256 x 64:

O decodificador então pega a representação latente e gera uma imagem de tamanho 256 x 256 pixels. O decodificador utiliza um processo autorregressivo, ou seja, gera cada pixel um a um, condicionado aos pixels anteriores e à representação latente.

Como gerar imagem a partir de descrição de texto usando Dalle-mini?

Para gerar uma descrição de texto a partir de uma imagem usando Dalle-mini, insira o texto na janela de prompt. Por exemplo, digite “ Uma pintura de flores aleatórias ” no prompt e clique no botão “ Correr ' botão:

A saída mostra que Dalle-mini gerou imagens relevantes de acordo com o texto de entrada.

Conclusão

Dalle-mini é um modelo notável que demonstra o potencial dos transformadores para geração cross-modal. Eles podem criar imagens realistas e diversificadas a partir de descrições em linguagem natural, bem como textos coerentes e relevantes a partir de imagens. Eles também podem lidar com composições complexas, como combinar vários objetos ou atributos em uma imagem ou texto. Este artigo explicou o Dalle-mini e seu funcionamento em detalhes.

O que é o Dalle-mini e como funciona?