DeepSeek faz barulho: novo modelo de IA revela custo e desempenho — e acende debate sobre transparência científica
A DeepSeek, empresa chinesa de IA, escalou o radar global ao revelar nessa semana o custo de treinamento de seu modelo de linguagem grande (LLM) R1: US$ 294.000 — valor muito abaixo do que grandes players gastam em modelos similares. A surpresa veio junto com publicação na revista Nature, indicando alguma forma de escrutínio científico para esse dado.
O que se sabe até agora
-
O modelo R1 da DeepSeek foi desenvolvido com base no DeepSeek-V3, adotando uma arquitetura de mixture of experts (MoE), que permite ativar apenas parte dos parâmetros em cada interação, economizando recursos.
-
Além disso, o modelo ostenta uma janela de contexto extensa (muitos milhares de tokens), desempenho competitivo em benchmarks de raciocínio, código, tarefas matemáticas, e uma estrutura de custos muito inferior à de outros modelos de ponta.
-
A publicação na Nature refere-se especificamente ao custo de treinamento, mostrando compromisso com transparência ou, ao menos, vontade de submeter certos dados à comunidade acadêmica.
O que ainda NÃO está confirmado ou é incerto
-
Se todos os componentes do modelo, ou seus métodos de avaliação, foram revisados por pares de maneira completa, como acontece em grandes publicações acadêmicas. O artigo da Nature cobre o custo, mas não necessariamente toda a arquitetura, desempenho ou implicações de segurança.
-
Há preocupações e estudos prévios que auditam o DeepSeek em termos de supressão de informações, censura ou viés — por exemplo, um paper analisou como certas respostas “passam pelo chain of thought” mas depois omitem conteúdos sensíveis no output final.
-
Também há evidências de vulnerabilidades em termos de segurança (como resposta a prompts maliciosos) e de alinhamento ético, que não foram resolvidas ou totalmente documentadas.
Possíveis implicações
A revelação do custo de treinamento em Nature pode gerar precedentes:
-
Maior pressão para que outros desenvolvedores de IA divulguem custos, métodos e transparência em benchmarks.
-
Estímulo para que a comunidade científica faça auditorias independentes dos grandes modelos, especialmente sobre viés, segurança, censura e alinhamento.
-
Mudanças no debate regulatório internacional, especialmente no que toca a IA aberta, privacidade e governança.
O DeepSeek parece estar marcando dois pontos fortes de uma vez só: oferecer desempenho competitivo em modelos de linguagem grandes, com custos muito mais baixos; e começar a aderir a práticas de transparência científica — ao menos parcialmente. Mas ainda não dá para afirmar que ele foi “totalmente revisado por pares” no sentido mais amplo, com auditorias de segurança, ética, viés e reprodução de resultados.


Ainda não confio no Deepseek
ResponderExcluir