Ao longo dos últimos anos nós vimos a explosão de aplicações para a Inteligência Artificial (IA), porém, nestes últimos meses notamos uma evolução que até pouco tempo parecia ser impossível, pelo menos para a maioria das pessoas. Essa evolução se deve aos Foundation Models.
Centro de Pesquisa em Foundation Models, Stanford
O termo Foundation Models (ou Modelos Fundacionais, em tradução livre) foi popularizado pela universidade de Stanford em 2021. Com a popularização de modelos como o BERT, GPT-3, CLIP, e outros, a universidade de Stanford fundou o Centro de Pesquisa em Foundation Models (CRFM, ou Center for Research on Foundation Models). O CRFM uniu mais de 175 pesquisadores de mais de 10 departamentos da universidade. Fundado pelo Instituto Human-Centered Artificial Intelligence (HAI) da universidade, o centro de pesquisa tem focado nos avanços nos estudos, desenvolvimento e uso dos Foundation Models.
Um dos principais focos do CRFM é desenvolver ferramentas abertas e fáceis de usar. O grupo tem trabalhado também sobre princípios rigorosos sobre o treino e avaliação dos Foundation Models. A ideia é que um time diverso de participantes possam criticar e melhorar esse tipo de modelos de forma significativa.
“Quando ouvimos sobre GPT-3 ou BERT, somos atraídos pela sua capacidade de gerar texto, código e imagens. Mas, de forma mais fundamental e invisível, esses modelos estão mudando radicalmente a forma como os sistemas de IA serão construídos.”
Percy Liang, diretor do Centro de Pesquisa em Foundation Models de Stanford.
O CRFM publicou um artigo que aborda em detalhes as oportunidades e riscos dos Foundation Models. O artigo cobre as capacidades destes modelos, os princípios técnicos, as aplicações e os impactos sociais. Para os interessados, o artigo On the Opportunities and Risks of Foundation Models é uma excelente leitura.
Para os fãs de vídeos ao invés de leitura, o CRFM disponibilizou também online o seu Workshop sobre Foundation Models. Com pouco mais de 12h de gravações das sessões que aconteceram em 2021. Pode ser uma ótima maratona para um domingo chuvoso.
O que são os Foundation Models, afinal de contas?
Os Foundation Models (FMs) são baseados no já conhecido Deep Learning, e no Transfer Learning. Entretanto, eles são treinados sobre uma quantidade imensa de dados, normalmente de forma não supervisionada.
Machine Learning, ou Aprendizado de Máquina, é um conjunto maior que abrange as técnicas de Deep Learning. Deep Learning, por sua vez, faz uso das Redes Neurais para processar dados não estruturados, como imagens, texto e áudio. Dentro do campo do Deep Learning, encontramos os Foundation Models.
O principal ponto dos Foundation Models é que, como o nome sugere, eles podem ser usados como fundação para diversas aplicações de IA. Fazendo uso do aprendizado não supervisionado (ou auto supervisionado, o chamado self-supervised learning), o modelo consegue aplicar conhecimento adquirido sobre uma situação em outra.
É como se você aprendesse a andar em uma bicicleta. E após aprender, você consegue se equilibrar em qualquer outra bicicleta. Talvez consiga se equilibrar até em uma moto – ainda que você não deva!
É quando nós aprendemos a andar em uma bicicleta e queremos nos equilibrar em uma moto que os problemas começam. Mas antes de falar sobre os problemas, vamos explorar mais as possibilidades.
Foundation Models e LLMs
É comum confundirmos os Foundation Models e os LLMs (Large Language Models). Os LLMs são modelos de linguagem de grande escala, treinados em enormes conjuntos de dados em texto para aprender padrões e estruturas de linguagens. Os LLMs têm a capacidade de gerar texto, responder perguntas, traduzir entre idiomas e executar diversas outras tarefas relacionadas à linguagem.
Podemos ver que os LLMs são modelos específicos para linguagem. Trabalham apenas com texto. Os Foundation Models têm um escopo mais amplo, podendo ser aplicados a diversas finalidades.
É comum que as pessoas usem os dois como sinônimos, porque provavelmente modelos de linguagem são atualmente o exemplo mais claro de sistemas que têm a capacidade de ser adaptados a propósitos mais específicos. Um modelo de linguagem pode classificar, traduzir, resumir. Mas sempre apenas texto.
Vale reforçar que um Foundation Model vai além. O modelo original serve como base, como fundação, para que outros modelos sejam construídos. Diferente dos sistemas de IA clássicos, que são treinados e construídos para um propósito em particular.
Os Foundation Models não estão limitados a texto. Podemos usá-los para trabalhar com imagens, áudios, vídeos, sinais 3D e muito mais.
Por que usar os Foundation Models?
Foundation Models são extremamente poderosos. Com eles nós removemos a necessidade de treinar diferentes modelos para diferentes aplicações. Podemos agora ter um único modelo base, atuando sobre todos os nossos problemas.
Com nenhum (zero-shot prompting) ou poucos exemplos (few-shot prompting), nós conseguimos extrair os resultados desejados do nosso modelo. Se necessário, podemos ainda tirar vantagem do conhecimento base do nosso FM e criar um modelo especialista no nosso negócio, por meio do Fine-Tuning do modelo.
Para Fine-Tuning do nosso FM, nós preparamos uma base de treino com centenas ou milhares de exemplos específicos para o nosso objetivo. Com isso nós conseguimos treinar um modelo totalmente especializado na nossa linguagem de negócio. De um mesmo FM podemos “tunar” um modelo jurídico, um médico e um financeiro. Tudo isso com um pequeno dataset, se comparado aos dados necessários para um treino do zero.
Desta forma, conseguimos transformar um modelo genérico com uma enorme quantidade de conhecimento em um expert no que quisermos.
Preocupações sobre os Foundation Models
Como tudo nesta vida, há vantagens e desvantagens. E algumas preocupações são extremamente pertinentes quando se tratam de Foundation Models – enquanto outras soam mais como sensacionalismo de desentendidos.
“Os Foundation Models (por exemplo, o GPT-3) têm demonstrado um comportamento impressionante, mas podem falhar inesperadamente, apresentar viéses e são pouco compreendidos. No entanto, eles estão sendo implantados em grande escala.”
Centro de Pesquisa em Foundation Models, Stanford.
Sem dúvidas, a primeira preocupação é quanto ao custo de computação. Ainda que esses sistemas de IA estejam ajudando a resolver todo tipo de problemas, criar e colocar em uso um sistema enorme como esses, requer uma quantidade considerável de tempo e recursos.
Além disso, a pegada de carbono deixada pelo treinamento de um enorme modelo é comparável à de cinco carros rodando por toda sua vide útil, de acordo com o artigo Energy and Policy Considerations for Deep Learning in NLP.
Uma outra preocupação primordial é quanto à confiança destes modelos. Muitos dos modelos de linguagem são criados com dados coletados da internet sem muita curadoria. Isso, além de não permitir o rastreamento das fontes de informação, acaba trazendo conteúdo indesejável para o nosso modelo.
Nenhuma empresa vai querer ter o seu modelo gerando conteúdo racista, sexista ou tóxico. Infelizmente, ainda temos muitos humanos gerando textos desse tipo na internet. E um modelo treinado sem controle pode acabar absorvendo este tipo de conteúdo.
A moto 🏍️ e a bicicleta 🚲
Um último ponto importante, é o chamado de “alucinações” dos modelos. Um modelo de geração de linguagem por exemplo, acredita fielmente que por ter sido treinado sobre uma bicicleta, vai conseguir se equilibrar em uma moto também. E a forma convincente que os textos são gerados, podem facilmente nos induzir a erros grotescos.
Saber sobre o que o modelo foi treinado é primordial para um uso seguro. É necessário estar muito claro do que a IA é ou não capaz, e de onde esta capacidade vem.
Soluções para os problemas
Percebendo cada vez mais que estas preocupações são reais, as empresas estão trazendo mais transparência e segurança para o mundo dos Foundation Models.
A IBM, por exemplo, anunciou recentemente o watsonx.ai, um estúdio enterprise para a criação de modelos especializados em diferentes domínios de negócio. Contando com modelos base treinados em diferentes linguagens de negócio e sobre uma base de dados extremamente controlada, a empresa promete resolver os problemas de custos e confiança ao mesmo tempo.
A proposta é que um modelo focado em analisar relatórios financeiros, não precisa saber escrever poemas ou escrever historinhas. Portanto, um modelo pequeno, porém específico, atenderia totalmente às demandas de um banco de investimentos, por exemplo. E qualquer cliente, mesmo sem qualquer conhecimento prévio de Ciência de Dados ou Programação, consegue treinar o seu modelo especialista e colocá-lo em produção, com o mínimo de esforço.
A empresa promete também que todos os seus modelos são treinados sobre uma base completamente auditável. Isso quer dizer que todos os dados de treino são controlados e rastreáveis à sua fonte. É feito um trabalho de redução de viés, eliminação de conteúdo tóxico e totalmente revisado pelo setor jurídico.
O Google também traz o Generative AI Studio, com uma proposta similar. A plataforma do Google Cloud permite interagir com os Foundation Models de forma fácil e intuitiva. A AWS promete anunciar em breve a sua plataforma também. Vamos ficar de olho.
Conclusão
Nós estamos vivendo em uma das eras mais excitantes da tecnologia! Somos testemunhas da evolução da Inteligência Artificial. Os Foundation Models, treinados em enormes de dados não rotulados e tunados para um leque de aplicações, estão acelerando esta evolução.
Aprender mais sobre os Foundation Models é essencial para se manter atualizado. Em breve iremos falar mais sobre essa nova geração de modelos de IA aqui no BRAINS. Entre em contato com a gente caso queira nos ajudar escrevendo sobre os FMs ou sugerindo novos temas. Fale conosco também se tiver dúvidas ou quiser debater mais sobre os temas. É sempre um prazer enorme conversar com vocês.
E se você quiser saber mais sobre – e colaborar com – a nossa comunidade, conheça mais sobre a proposta do BRAINS – Brazilian AI Networks aqui no nosso site. Até porque…
1 comentário