A DeepSeek fez recentemente ondas no mundo da tecnologia com o seu novo modelo de IA, o R1. Este modelo apresenta uma capacidade de raciocínio comparável ao o1 da OpenAI, mas com uma distinção notável: A DeepSeek afirma que o seu modelo foi treinado a um custo significativamente mais baixo.
Embora tenha havido um debate sobre se o DeepSeek é verdadeiro ou um DeepFake, é evidente que se trata de uma chamada de atenção - o caminho de LLMs cada vez maiores que dependem de GPUs cada vez maiores e de grandes quantidades de energia não é o único caminho a seguir. De facto, tornou-se óbvio que essa abordagem tem poucas vantagens, por algumas razões:
Em primeiro lugar, o escalonamento puro dos LLMs em tempo de treino atingiu o ponto de retorno decrescente ou talvez mesmo de retorno quase nulo. Modelos maiores treinados com mais dados não estão a resultar em melhorias significativas.
Além disso, as empresas não precisam de LLMs enormes e do tipo "pergunte-me tudo" para a maioria dos casos de uso. Mesmo antes do DeepSeek, há uma mudança notável em direção a modelos menores e mais especializados, adaptados a necessidades comerciais específicas. À medida que mais casos de uso de IA corporativa surgem, torna-se mais sobre inferência - realmente executando os modelos para gerar valor. Em muitos casos, isso acontecerá no limite da Internet, perto dos utilizadores finais. Modelos menores, otimizados para serem executados em hardware amplamente disponível, criarão mais valor a longo prazo do que LLMs superdimensionados.
Por último, o espaço LLM está a entrar numa era de otimização. Os modelos de IA que temos visto até agora têm-se concentrado na inovação através do aumento de escala a qualquer custo. A eficiência, a especialização e a otimização de recursos estão, mais uma vez, a assumir um papel central, um sinal de que o futuro da IA não se resume apenas à força bruta, mas à forma como esse poder é utilizado de forma estratégica e eficiente.
A DeepSeek destaca este ponto muito bem nos seus documentos técnicos, que mostram um tour de force de otimização de engenharia. Os seus avanços incluem modificações na arquitetura do transformador e técnicas para otimizar a atribuição de recursos durante o treino. Embora estas inovações façam avançar o campo, são passos incrementais em direção ao progresso e não uma revolução radical da tecnologia de IA.
E, embora os meios de comunicação social estejam a dar grande importância aos seus avanços - que são, de facto, dignos de nota - não estão, de um modo geral, a reconhecer um ponto fundamental: se a DeepSeek não o tivesse feito, alguém o teria feito. E eles são provavelmente apenas os primeiros no que será uma nova onda de IA que alavanca ganhos de eficiência significativos tanto nos custos de treinamento de modelos quanto no tamanho.
É importante colocarmos as realizações da DeepSeek em contexto. Os avanços da empresa são o último passo em uma marcha constante que vem avançando o estado da arte em arquitetura e treinamento de LLM há anos. Não se trata de um avanço revolucionário. Embora a notícia tenha sido uma chamada de atenção para muitos, deveria ter sido esperada por aqueles que prestam muita atenção às tendências do sector. A realidade é que, nos dois anos desde que a OpenAI treinou o GPT-4, o estado da arte da eficiência do treino avançou consideravelmente. E não se trata apenas de hardware (GPUs); trata-se de algoritmos e software. Por isso, não deve ser surpresa que uma empresa - mesmo uma empresa como a DeepSeek que não tem acesso às melhores e mais recentes GPUs - possa agora treinar modelos tão bons como o GPT-4 a um custo muito inferior.
A DeepSeek merece crédito por ter dado este passo e por o ter divulgado tão minuciosamente, mas é apenas mais um marco esperado na evolução técnica da IA que será seguido por muitos mais.
Comentários