DeepSeek faz barulho: novo modelo de IA revela custo e desempenho — e acende debate sobre transparência científica

 A DeepSeek, empresa chinesa de IA, escalou o radar global ao revelar nessa semana o custo de treinamento de seu modelo de linguagem grande (LLM) R1: US$ 294.000 — valor muito abaixo do que grandes players gastam em modelos similares. A surpresa veio junto com publicação na revista Nature, indicando alguma forma de escrutínio científico para esse dado. 



O que se sabe até agora

  • O modelo R1 da DeepSeek foi desenvolvido com base no DeepSeek-V3, adotando uma arquitetura de mixture of experts (MoE), que permite ativar apenas parte dos parâmetros em cada interação, economizando recursos. 

  • Além disso, o modelo ostenta uma janela de contexto extensa (muitos milhares de tokens), desempenho competitivo em benchmarks de raciocínio, código, tarefas matemáticas, e uma estrutura de custos muito inferior à de outros modelos de ponta. 

  • A publicação na Nature refere-se especificamente ao custo de treinamento, mostrando compromisso com transparência ou, ao menos, vontade de submeter certos dados à comunidade acadêmica.

O que ainda NÃO está confirmado ou é incerto

  • Se todos os componentes do modelo, ou seus métodos de avaliação, foram revisados por pares de maneira completa, como acontece em grandes publicações acadêmicas. O artigo da Nature cobre o custo, mas não necessariamente toda a arquitetura, desempenho ou implicações de segurança.

  • Há preocupações e estudos prévios que auditam o DeepSeek em termos de supressão de informações, censura ou viés — por exemplo, um paper analisou como certas respostas “passam pelo chain of thought” mas depois omitem conteúdos sensíveis no output final. 

  • Também há evidências de vulnerabilidades em termos de segurança (como resposta a prompts maliciosos) e de alinhamento ético, que não foram resolvidas ou totalmente documentadas. 

Possíveis implicações

A revelação do custo de treinamento em Nature pode gerar precedentes:

  • Maior pressão para que outros desenvolvedores de IA divulguem custos, métodos e transparência em benchmarks.

  • Estímulo para que a comunidade científica faça auditorias independentes dos grandes modelos, especialmente sobre viés, segurança, censura e alinhamento.

  • Mudanças no debate regulatório internacional, especialmente no que toca a IA aberta, privacidade e governança.



O DeepSeek parece estar marcando dois pontos fortes de uma vez só: oferecer desempenho competitivo em modelos de linguagem grandes, com custos muito mais baixos; e começar a aderir a práticas de transparência científica — ao menos parcialmente. Mas ainda não dá para afirmar que ele foi “totalmente revisado por pares” no sentido mais amplo, com auditorias de segurança, ética, viés e reprodução de resultados.

Comentários

Postar um comentário

Deixe seu comentário aqui!