Pular para o conteúdo principal
BlogComputaçãoDeepseek: Por que é importante e o que a imprensa entendeu errado

Deepseek: Por que é importante e o que a imprensa entendeu errado

Deepseek_Por_que_é_importante_e_o_que_a_imprensa_errou

Recentemente, a DeepSeek causou impacto no mundo da tecnologia com seu novo modelo de IA, o R1. Esse modelo apresenta uma capacidade de raciocínio comparável ao o1 da OpenAI, mas com uma distinção notável: A DeepSeek afirma que seu modelo foi treinado a um custo significativamente menor.

Embora tenha havido um debate sobre o fato de o DeepSeek ser real ou um DeepFake, está claro que esse é um alerta: o caminho de LLMs cada vez maiores que dependem de GPUs cada vez maiores e de grandes quantidades de energia não é o único caminho a seguir. De fato, ficou óbvio que há poucas vantagens nessa abordagem, por alguns motivos:

Em primeiro lugar, o escalonamento puro dos LLMs no momento do treinamento chegou a um ponto de retorno decrescente ou talvez até mesmo próximo de zero. Modelos maiores treinados com mais dados não estão resultando em melhorias significativas. 

Além disso, as empresas não precisam de LLMs enormes e do tipo "pergunte-me qualquer coisa" para a maioria dos casos de uso. Mesmo antes do DeepSeek, há uma mudança perceptível em direção a modelos menores e mais especializados, adaptados a necessidades comerciais específicas. À medida que surgem mais casos de uso de IA empresarial, a questão passa a ser mais de inferência, ou seja, a execução efetiva dos modelos para gerar valor. Em muitos casos, isso ocorrerá na borda da Internet, próximo aos usuários finais. Modelos menores, otimizados para serem executados em hardware amplamente disponível, criarão mais valor a longo prazo do que LLMs superdimensionados.

Por fim, o espaço do LLM está entrando em uma era de otimização. Os modelos de IA que vimos até agora se concentraram na inovação por meio do aumento de escala a qualquer custo. A eficiência, a especialização e a otimização de recursos estão mais uma vez ocupando o centro do palco, um sinal de que o futuro da IA não se trata apenas de força bruta, mas de como esse poder é implantado de forma estratégica e eficiente. 

A DeepSeek destaca esse ponto muito bem em seus documentos técnicos, que mostram um tour de force de otimização de engenharia. Seus avanços incluem modificações na arquitetura do transformador e técnicas para otimizar a alocação de recursos durante o treinamento. Embora essas inovações façam o campo avançar, são passos incrementais em direção ao progresso, e não uma revolução radical da tecnologia de IA.  

E, embora a mídia esteja fazendo um grande alarde sobre seus avanços - que são de fato dignos de nota -, em geral não está percebendo um ponto importante: se a DeepSeek não tivesse feito isso, outra pessoa teria feito. E, provavelmente, eles são apenas os primeiros no que será uma nova onda de IA que alavanca ganhos significativos de eficiência nos custos e no tamanho do treinamento de modelos. 

É importante colocarmos as realizações da DeepSeek em um contexto. Os avanços da empresa são a última etapa de uma marcha constante que vem avançando o estado da arte em arquitetura e treinamento de LLM há anos. Não se trata de um avanço revolucionário. Embora a notícia tenha sido um alerta para muitos, ela deveria ter sido esperada por aqueles que prestam muita atenção às tendências do setor. A realidade é que, nos dois anos desde que a OpenAI treinou o GPT-4, o estado da arte em eficiência de treinamento avançou consideravelmente. E não se trata apenas de hardware (GPUs); trata-se de algoritmos e software. Portanto, não é de surpreender que uma empresa - mesmo uma empresa como a DeepSeek, que não tem acesso às melhores e mais recentes GPUs - possa agora treinar modelos tão bons quanto o GPT-4 a um custo muito menor.

A DeepSeek merece crédito por dar esse passo e por divulgá-lo tão detalhadamente, mas esse é apenas mais um marco esperado na evolução técnica da IA, que será seguido por muitos outros. 

Você também pode gostar...

Comentários

Deixe uma resposta

Seu endereço de e-mail não será publicado. Os campos obrigatórios estão marcados com *