Banco de dados Gigaverbo foi desenvolvido com tecnologia aberta e pode ser usado para treinar programas semelhantes ao ChatGPT.A inteligência artificial (IA) está cada vez mais presente no cotidiano. Pensando nisso, um grupo de pesquisadores da Universidade de Bonn, na Alemanha, desenvolveu um banco de dados criado 100% em língua portuguesa para “treinar” novos modelos de linguagem de inteligência artificial – programas que podem reconhecer e gerar texto, entre outras tarefas, como, por exemplo, o ChatGPT.

Batizado de Gigaverbo, esse “dataset” (como são chamados os bancos de dados) reúne 145 milhões de documentos em língua portuguesa, em 780 GB, para formar 200 bilhões de tokens (fragmentos de texto que o modelo de IA processa).

Para colocar à prova a tecnologia desenvolvida, foram criados, e devidamente treinados através do supercomputador Marvin, da Universidade de Bonn, seis modelos de linguagem de inteligência artificial (LLMs), que ganharam o nome Tucano.

Entre os participantes do projeto está o pesquisador de pós-doutoradp brasileiro Nicholas Kluge, além de Aniket Sen, Shiza Fatimah e Sophia Falk. A equipe se dedicou por oito meses no projeto, cujo resultado foi publicado no final de outubro na ArXiv.org, uma plataforma para artigos científicos nos campos da matemática, física e ciência da computação.

O processo de criação

Uma das principais dificuldades do projeto foi justamente filtrar as informações que seriam relevantes para inserir no banco de dados. “Passamos muito tempo coletando textos em português e filtrando o que fazia sentido. Contamos com a inteligência artificial para nos ajudar nessa etapa. Nesse sentido, usamos a IA para fazer IA”, conta Kluge.

Outra parte fundamental foi otimizar o tempo de treinamento, que dependendo do tamanho e dos códigos do banco de dados, pode chegar a mais de um ano. “Passamos uns bons dois, três meses refinando o código, para que pudéssemos fazer um treinamento eficiente, que não demorasse muito”, explica o coautor do estudo.

Ampliar acesso a esse tipo de tecnologia

O projeto tenta preencher uma lacuna da IA: a falta de um dataset extenso em língua portuguesa acessível ao público, de maneira aberta.

Agora, com um banco de dados desse tamanho disponível gratuitamente, novas tecnologias em inteligência artificial podem ser criadas com o português como língua nativa. “Nosso estudo ajuda a democratizar o acesso a esse tipo de tecnologia, porque nem todo mundo fala inglês e esse tipo de tecnologia é muito útil”, avalia Kluge.

Para além da barreira da língua, elementos culturais acabam sendo favorecidos com essa prática. Os modelos podem entender também gírias brasileiras e informações sobre o Brasil, o que muitas vezes não ocorre em modelos treinados em língua inglesa.

“O modelo é brasileiro, ele foi treinado em português, ele fala português, ele entende gírias, tem muitas informações dentro dele sobre língua portuguesa, sobre cultura portuguesa, cultura brasileira. É um artefato para guardar também a nossa cultura”, conta Kluge.

Inteligência artificial e open source

No estudo Tucano: Advancing Neural Text Generation for Portuguese, os pesquisadores afirmam que um dos grandes diferenciais do projeto é também o fato dele ser completamente aberto e acessível a todo mundo, promovendo o verdadeiro sentido de open source (código aberto, em português).

Tal conceito prega disponibilizar um código-fonte de um software para todos, tornando-o de conhecimento público para que novos produtos e tecnologias se desenvolvam a partir dele.

Como esse é um mercado que movimenta muito dinheiro, a maior parte desse desenvolvimento hoje em dia é feito por empresas de forma fechada. Plataformas e serviços, inclusive brasileiros, até são disponibilizados de maneira gratuita, mas a informação de como esses sistemas foram construídos é mantida em segredo.

“Hoje sabemos que o ChatGPT ou a inteligência artificial da Meta são muito bons, mas não sabemos como eles foram treinadas e quais foram os dados que alimentaram eles. Não sabemos como é o banco de dados da maior parte desses modelos”, diz Kluge, acrescentando que esse modelo fechado acaba criando um monopólio tecnológico.

Quando se fala, portanto, de inteligência artificial aberta, a ideia, segundo o pesquisador, não é apenas criar um modelo que qualquer um pode usar, mas algo que possa ser reproduzido. “Para que a ciência possa avançar, precisamos de open source, precisamos de pesquisa que pode ser reproduzida. Na nossa pesquisa, treinamos os primeiros grandes modelos de linguagem em língua portuguesa e eles são totalmente reproduzíveis: o banco de dados é aberto, os modelos são abertos, as avaliações são abertas. Isso sim é inteligência artificial aberta”, destaca Kluge.

IA e sustentabilidade

Treinar um modelo de linguagem exige o processamento de muitos dados, muita computação, o que além de demandar uma quantidade considerável de energia, resulta em uma liberação considerável de CO2na atmosfera.

É por isso que o coautor do estudo alerta ainda mais para a importância de tornar os resultados das pesquisas acessíveis. “Quando a pesquisa não é aberta e todo mundo tem que fazer de novo e de novo, esse gasto de energia é multiplicado”, diz Kluge.

“Quando uma empresa desenvolve um modelo que produziu toneladas de CO2 na atmosfera e o mantém fechado, sem falar como foi feito, ele incentiva a reprodução dessa pegada de carbono por outras empresas e pesquisas, e isso é uma política extremamente insustentável”, complementa.