|

O quê são LLMs?

O quê são LLMs? Foto por Bernd 📷 Dittrich em Unsplash

O que é um Grande Modelo de Linguagem? (Large language model ou LLM)

Um Grande Modelo de Linguagem (Large language model - LLM) é um tipo de programa de inteligência artificial (IA ou AI), que pode reconhecer e gerar texto, além de outras tarefas. LLMs são treinadas em enormes séries de dados - por isso o nome “grande”. LLMs são construídas sobre aprendizado de máquina: especificamente, um tipo de rede neual chamada de modelo transformer.

Em termos mais simples, uma LLM é um programa de computador que foi alimentado com amostras suficientes para reconhecer e interpretar linguagem humana ou outros tipos de dados complexos. Muitas LLMs são treinadas em dados que foram coletados da Internet - milhares ou milhões de gigabytes em texto. Mas a qualidade dessas amostras impacta o quão bem LLMs aprenderão uma linguagem natural, então programadores de LLM podem usar uma série de dados mais curados.

LLMs usam um tipo de aprendizado de máquina chamado de aprendizagem profundapara entender como caracteres, palavras e frases funcionam em conjunto. Aprendizagem profunda involve a análise probabilística de dados desestruturados, que eventulamente permitem que o modelo de aprendizagem profunda reconheça distinções entre peças do conteúdo sem intervenção humana.

LLMs são então treinadas além por ajuste: elas sofrem ajuste fino ou são ajustadas por prompts, solicitações, para uma tarefa particular que o programador quer que eles façam, como interpretar perguntas e gerar respostas, ou traduzir texto de uma língua para outra.

Para quê LLMs são usadas?

LLMs podem ser treinadas para fazerem uma série de tarefas. Um dos casos mais conhecidos é usar a sua aplicação como IA generativa: quando dada uma solicitação ou uma pergunta, elas podem produzir textos em resposta. O LLM ChatGPT disponível publicamente, por exemplo, pode gerar artigos, poemas, e outras formas textuais em resposta a inputs do usuário.

Qualquer série de dados complexa e grande pode ser usada para treinar LLMs. Algumas LLMs podem ajudar programadores a escrever código. Podem escrever funções quando solicitado, ou, dado algum código de ponto de partida, terminar de escrever um programa. LLMs também podem ser usadas em:

Exemplos de LLMs do mundo real incluem ChatGPT (OpenAI), Gemini (Google), Llama (Meta), e Bing Chat (Microsoft). GitHub Copilot é outro exemplo, mas com foco em código ao invés de linguagem natural humana.

Quais são algumas vantagens e limitações de LLMs?

Uma característica de LLMs é sua habilidade para responder a solicitações imprevisíveis. Um programa de computador tradicional recebe comandos na sintaxe aceita, ou de uma série de certos inputs do usuário. Um video game tem uma série finita de botões, uma aplicação tem uma série finita de coisas que um usuário pode clicar, e uma linguagem de programação é composta de declarações precisas if/then.

Em contraste, uma LLM pode responder a linguagem humana natural e usar análise de dados para responder uma pergunta desestruturada ou solicitação de uma maneira que faça sentido. Onde um típico programa de computador não reconheceria um prompt como “Quais são as quatros melhores bandas de funk da história?”, uma LLM pode resopnder com uma lista das bandas, e uma defesa convincente e razoável do porquê elas são as melhores.

Em termos de informação que fornecem, entretanto, LLMs podem ser apenas tão confiáveis quanto os dados que ingerem. Se alimentadas com informações falsas, elas irão gerar informação falsa para responder às solicitações do usuário. LLMs podem por vezes também “alucinar”: criam informação falsa quando não são capazes de gerar uma resposta precisa. Por exemplo, a Fast Company, empresa de notícias, perguntou sobre os resultados da Tesla do último trimestre; enquanto ChatGPT forneceu um artigo de notícias coerente em resposta, muitas das informações foram inventadas.

Em termos de segurança, aplicações voltadas ao usuário baseadas em LLM são propensas a bugs tanto como qualquer outra aplicação. LLMs também podem ser manipuladas com inputs maliciosos para fornecer certos tipos de respostas sobre outras - incluindo respostas que são perigosas ou antiéticas. Finalmente, um dos problemas de segurança com LLMs são que usuários podem enviar dados seguros e confidenciais para aumentar a sua produtividade. Mas LLMs usam os inputs que recebem para treinar seus modelos no futuro, e não são projetadas para serem cofres seguros: elas podem expôr dados confidenciais em resposta a solicitações de outros usuários.

Como LLMs funcionam?

Aprendizado de máquina e aprendizagem profunda

Em nível básico, LLMs são construídas sobre aprendizado de máquina. Aprendizado de máquina é um subconjunto de IA, e se refere a prática de alimentar grandes quantidades de dados para programas, para que possam treinar os programas a identificar características desses dados sem intervenção humana.

LLMs usam um tipo de aprendizado de máquina chamado aprendizagem profunda. Modelos de aprendizagem profunda podem essencialmente se treinar para reconhecer distinções sem intervenção humana, embora algum ajuste fino humano seja tipicamente necessário.

Aprendizagem profunda usa probabilidade para “aprender”. Por exemplo, na conhecida frase ”The quick brown fox jumped over the lazy dog”, que é um pangrama, as letras “e” e “o” são as mais comuns, aparecendo quatro vezes cada. Disso, um modelo de aprendizagem profundo poderia concluir (corretamente) que esses caracteres são os que mais aparecem em textos de língua inglesa.

Realisticamente, um modelo de aprendizagem profunda na verdade não pode concluir qualquer coisa de uma única frase. Mas depois de analizar trilhões de frases, ele pode aprender o suficiente para prever como finalizar corretamente uma frase incompleta, ou ainda gerar as suas próprias frases.

Redes neurais

Para habilitar este tipo de aprendizagem profunda, LLMs são construídas em redes neurais. Assim como o cérebro humano é construído de neurônios que se conectam e se enviam sinais, uma rede neural artificial (geralmente encurtada para “rede neural”) é construída de nós em rede que se conectam. Eles são compostos de várias “camadas”: uma camada de entrada, uma camada de saída, e uma ou mais camadas entre essas. As camadas somente passam informação para outras se suas saídas batem um certo limiar.

Modelos transformer

O tipo específico de redes neurais usadas por LLMs se chama modelos transformer. Modelos transformer são capazes de aprender contexto - especialmente importante para a linguagem humana, que é altamente dependente de contexto. Modelos transformer usam uma técnica matemática chamada Self-attention, no link um artigo de Sebastian Raschka com maiores explicações, que detecta maneiras súbitas em que elementos de uma sequência se relacionam. Isso faz eles melhores em entender contexto do que outros tipos de aprendizado de máquina. Permite que eles entendam, por exemplo, como o fim de uma frase conecta-se ao seu começo, e como as frases em um parágrafo se relacionam umas com as outras.

Isso permite que LLMs interpretem linguagem humana, mesmo que a linguagem esteja vaga ou pobremente definida, colocada em combinações que não encontrou antes, ou contextualizando-a em novas maneiras. Em algum nível elas “entendem” semântica em uma em que podem associar palavras e conceitos por seu significado, tendo visto elas agrupadas de alguma maneira em milhões ou bilhões de vezes.

Este artigo foi criado traduzindo o seguinte Artigo do Cloudflare para português. Espero que você tenha gostado e que isso tenha esclarecido algumas coisas sobre LLMs. Até mais!