DeepSeek faz barulho: novo modelo de IA revela custo e desempenho — e acende debate sobre transparência científica

A DeepSeek, empresa chinesa de IA, escalou o radar global ao revelar nessa semana o custo de treinamento de seu modelo de linguagem grande (LLM) R1: US$ 294.000 — valor muito abaixo do que grandes players gastam em modelos similares. A surpresa veio junto com publicação na revista Nature, indicando alguma forma de escrutínio científico para esse dado.

O que se sabe até agora

O modelo R1 da DeepSeek foi desenvolvido com base no DeepSeek-V3, adotando uma arquitetura de mixture of experts (MoE), que permite ativar apenas parte dos parâmetros em cada interação, economizando recursos.
Além disso, o modelo ostenta uma janela de contexto extensa (muitos milhares de tokens), desempenho competitivo em benchmarks de raciocínio, código, tarefas matemáticas, e uma estrutura de custos muito inferior à de outros modelos de ponta.
A publicação na Nature refere-se especificamente ao custo de treinamento, mostrando compromisso com transparência ou, ao menos, vontade de submeter certos dados à comunidade acadêmica.

O que ainda NÃO está confirmado ou é incerto

Se todos os componentes do modelo, ou seus métodos de avaliação, foram revisados por pares de maneira completa, como acontece em grandes publicações acadêmicas. O artigo da Nature cobre o custo, mas não necessariamente toda a arquitetura, desempenho ou implicações de segurança.
Há preocupações e estudos prévios que auditam o DeepSeek em termos de supressão de informações, censura ou viés — por exemplo, um paper analisou como certas respostas “passam pelo chain of thought” mas depois omitem conteúdos sensíveis no output final.
Também há evidências de vulnerabilidades em termos de segurança (como resposta a prompts maliciosos) e de alinhamento ético, que não foram resolvidas ou totalmente documentadas.

Possíveis implicações

A revelação do custo de treinamento em Nature pode gerar precedentes:

Maior pressão para que outros desenvolvedores de IA divulguem custos, métodos e transparência em benchmarks.
Estímulo para que a comunidade científica faça auditorias independentes dos grandes modelos, especialmente sobre viés, segurança, censura e alinhamento.
Mudanças no debate regulatório internacional, especialmente no que toca a IA aberta, privacidade e governança.

O DeepSeek parece estar marcando dois pontos fortes de uma vez só: oferecer desempenho competitivo em modelos de linguagem grandes, com custos muito mais baixos; e começar a aderir a práticas de transparência científica — ao menos parcialmente. Mas ainda não dá para afirmar que ele foi “totalmente revisado por pares” no sentido mais amplo, com auditorias de segurança, ética, viés e reprodução de resultados.

Melhores Algumas Coisas — Tecnologia, IA e Inovação

Pesquisar este blog