Grandes modelos de linguagem que alimentam ferramentas de inteligência artificial, como o ChatGPT, tendem a gerar piores resultados quando recebem comandos na forma de dialetos. Quais são os riscos?Sejam como assistentes virtuais em nossos smartphones ou na forma de chatbots em sites governamentais, os grandes modelos de linguagem (“LLMs”, na sigla em inglês) que alimentam ferramentas de inteligência artificial (IA) como o ChatGPT já se tornaram praticamente onipresentes na internet.

Mas cada vez mais evidências apontam para uma conclusão um tanto desconcertante: as respostas desses LLMs parecem revelar um considerável viés contra usuários falantes de dialetos.

Em 2024, pesquisadores da Universidade da Califórnia, Berkeley, testaram as respostas do ChatGPT a diversas variedades de dialetos do inglês de lugares como Índia, Irlanda e Nigéria.

Os resultados mostram que os modelos tendem a priorizar variedades “padrão” do inglês (americano ou britânico). Quando confrontados com comandos (prompts) formulados em dialetos, surgem problemas recorrentes: estereotipação (19% mais frequente), conteúdo depreciativo (25% mais), falta de compreensão (9% mais) e respostas condescendentes (15% mais).

Alguns modelos, por sua vez, sequer entendem dialetos. Em julho de 2025, um assistente de IA usado pelo Conselho Municipal de Derby, na Inglaterra, teve dificuldades para entender o dialeto de Derbyshire de uma apresentadora de rádio quando ela usou palavras como mardy (reclamar) e duck (querido) durante um telefonema feito ao vivo para testar o assistente de IA.

Outros falantes de dialetos têm sofrido impactos muito piores. À medida que cada vez mais empresas e governos lançam mão da IA em seus serviços, pesquisadores expressam preocupação. Enquanto isso, os desenvolvedores veem mais uma oportunidade: fornecer LLMs personalizados para falantes de dialetos.

“Trabalhadores rurais sem instrução”

Um novo estudo alemão apresentado na Conferência de Métodos Empíricos em Processamento de Linguagem Natural de 2025 em Suzhou, na China, analisou dez LLMs, incluindo o ChatGPT-5 mini, da OpenAI, e o Llama 3.1, da Meta. Para isso, os modelos foram alimentados com textos em diferentes variações do alemão: desde o padrão até sete outros dialetos, incluindo o bávaro, o frísio do norte e o de Colônia.

Os pesquisadores solicitaram então que os modelos descrevessem os falantes desses textos com atributos pessoais e, em seguida, classificassem-nos em diferentes cenários. Os modelos foram questionados, por exemplo, sobre quem deveria ser contratado para trabalhos que exigem pouca escolaridade ou onde acreditavam que esses falantes viviam.

Em quase todos os testes, os modelos associaram estereótipos aos falantes de dialetos. Os LLMs os descreveram como pessoas sem instrução, trabalhadores rurais e que precisavam de terapia para controlar os nervos. Esse viés aumentou ainda mais quando os LLMs foram informados de que o texto era um dialeto.

“Vemos adjetivos realmente chocantes sendo atribuídos aos falantes do dialeto”, disse à DW Minh Duc Bui, da Universidade Johannes Gutenberg de Mainz, Alemanha, um dos coautores principais do estudo.

Viés “grave e alarmante”

Esse tipo de viés consistente contra dialetos é “grave e alarmante”, disse Emma Harvey, doutoranda em ciência da informação na Universidade Cornell, nos EUA.

Em julho, ela e seus colegas publicaram uma pesquisa que mostrou que o assistente de compras com IA da Amazon, Rufus, respondia com informações vagas ou até mesmo incorretas a pessoas que escreviam em um dialeto afro-americano do inglês. E quando essas informações contêm erros de digitação, as respostas podem ficar ainda piores.

“Com o uso cada vez mais amplo dos LLMs, eles podem não apenas perpetuar, mas também amplificar preconceitos e danos já existentes”, disse Harvey à DW.

Mudança de casta como sugestão de “melhoria”

Na Índia, um candidato a emprego recorreu ao ChatGPT para revisar seu inglês em uma candidatura para uma vaga. Para sua surpresa, o modelo de linguagem foi bem além, incluindo até mesmo a alteração do sobrenome do candidato para um que indicasse uma posição superior na estrutura de castas da Índia, conforme relatado pela publicação especializada MIT Technology Review em outubro de 2025.

Modelos de linguagem universais, portanto, parecem não funcionar – sugerindo que talvez seja a hora de a IA aceitar melhor os dialetos.

Um artigo publicado na revista Current Opinion in Psychology em agosto de 2024 aponta que uma IA treinada especificamente com um vocabulário dialetal pode ser percebida pelos usuários como mais calorosa, competente e autêntica.

O viés observado nos LLMs pode ser explicado pelo próprio mecanismo por trás deles: a fim de gerar um resultado para um determinado estímulo, eles precisam coletar uma grande quantidade de texto. E é justamente aqui que reside o problema: quem escreve esse texto?

“Isso significa que os LLMs que aprendem com dados da web também podem captar o que alguém escreve sobre um falante de dialeto”, explica Carolin Holtermann, da Universidade de Hamburgo e coautora principal do artigo alemão.

Mas Holtermann também aponta que uma das vantagens dos LLMs é que, ao contrário de muitos falantes humanos, esses preconceitos também podem ser eliminados do sistema. “Podemos, de fato, evitar esse tipo de expressão”, disse ela.

Novos LLMs personalizados para dialetos locais

Empresas de IA garantem que seus LLMs respondam da maneira que os usuários desejam e que não discriminem por gênero ou idade. Até o momento, porém, tudo indica que esse treinamento não inclui nuances, como dialetos.

A resposta pode estar em modelos de aprendizagem de línguas mais personalizados. Uma das empresas de IA envolvidas no estudo alemão, a Aya Expanse, afirmou que o modelo testado no artigo era exclusivo para pesquisa e que a empresa trabalha com clientes corporativos para personalizar seus LLMs levando em consideração fatores como dialetos.

Outras empresas de IA estão fazendo dessa personalização um diferencial de vendas. Um LLM chamado Arcee-Meraj, por exemplo, foca em diversos dialetos árabes, como o egípcio, o levantino, o magrebino e o do Golfo.

À medida que novos LLMs mais personalizados surgem, Holtermann afirma que a IA não deve ser considerada uma inimiga dos dialetos, mas sim uma ferramenta imperfeita que, assim como os humanos, pode ser aprimorada.