10 meses atrás 27

DeepSeek x ChatGPT: testamos 5 tarefas nas IAs rivais; veja qual é melhor

Mesmo com vários chatbots de inteligência artificial disponíveis, o ChatGPT, geralmente, acaba sendo o mais competente, mesmo comparando sua versão gratuita com alguns modelos pagos, como o Gemini Advanced e Copilot Pro. O DeepSeek chegou com a intenção de revolucionar este cenário. Lançado em 15 de janeiro, o bot da empresa chinesa rapidamente se tornou um dos aplicativos mais baixados do Brasil e EUA, e o TechTudo comparou seu desempenho com alguns dos usos mais recorrentes do ChatGPT, como resolução de problemas, geração e interpretação de imagens e até buscas na web. Confira a seguir.

 conheça modelo de IA da China que pode superar o ChatGPT

DeepSeek: conheça modelo de IA da China que pode superar o ChatGPT

Um primeiro teste e com resultado bastante impressionante foi o de resolução de problemas complexos nos dois chatbots. Como a ideia é comparar o raciocínio lógico dos modelos, utilizamos como referência algumas questões retiradas do livro “Fundamentos de Física”, por Halliday, Resnick e Walker, geralmente utilizado na bibliografia de cursos acadêmicos de Física e Engenharia, e compilados e resolvidos pelo Prof. Dr. Jason Gallas, da Universidade Federal da Paraíba (UFB).

O primeiro problema buscava saber a velocidade relativa de duas estrelas de nêutrons em momentos diferentes de sua aproximação pela ação exclusiva das leis gravitacionais, com o primeiro momento sendo exatamente quando a distância for a metade da inicial e o segundo sendo imediatamente antes delas colidirem.

 Reprodução/DeepSeek e ChatGPT DeepSeek leva mais de 3 minutos apenas analisando o enunciado antes de começar a redigir a resposta — Foto: Reprodução/DeepSeek e ChatGPT

A primeira diferença notável entre os dois modelos de linguagem é que o ChatGPT começa a redigir a resposta quase imediatamente após a entrada do enunciado completo e entrega o resultado para as duas perguntas em poucos segundos. No entanto, segundo a resolução fornecida na lista de exercícios original, o ChatGPT chegou ao resultado esperado apenas na primeira pergunta, apresentando uma inconsistência de raciocínio na aplicação da fórmula necessária, chegando a uma conclusão extremamente longe do valor correto.

 Reprodução/DeepSeek e ChatGPT Modelo R1 de raciocínio lógico é uma grande vantagem na resolução de problemas complexos — Foto: Reprodução/DeepSeek e ChatGPT

Como o modelo da OpenAI não apresenta, efetivamente, o raciocínio desenvolvido, fica difícil identificar qual etapa causou exatamente a inconsistência. O DeepSeek, por sua vez, “pensou” por cerca de 3 minutos antes de começar a descrever seu raciocínio e, apenas após apresentar todo raciocínio lógico do problema, passou para o desenvolvimento das fórmulas e acertou ambas as perguntas com precisão.

 Reprodução/DeepSeek e ChatGPT Em problemas mais simples, desempenhos de DeepSeek e ChatGPT são praticamente equivalentes — Foto: Reprodução/DeepSeek e ChatGPT

Passando para um exercício sobre leis gravitacionais, mas com menos variáveis, o resultado foi satisfatório para os dois modelos, com ambos acertando as perguntas propostas e com o ChatGPT chegando a conclusão mais rápido, já que, novamente, ele começa a resolver o problema quase de imediato. No caso do DeepSeek, o modelo gastou 67 segundos desenvolvendo o raciocínio antes de apresentar o desenvolvimento dos problemas, mas chegou aos mesmos resultados. Uma diferença curiosa é que, na primeira questão, o DeepSeek não apresentou a resposta em notação científica, algo que poderia fazer diferença em uma prova universitária.

O segundo quesito utilizado em nossos testes foi a capacidade de escrita criativa dos modelos, tarefa que utiliza recursos lógicos diferentes, por depender profundamente da consulta e da adaptação de textos do acervo do modelo. Como prompt, solicitamos que os chatbots escrevessem “um conto de terror inspirado nas histórias de vampiro e romantismo gótico do século XIX. O conto precisa ter entre 2 mil e 3 mil palavras e sair de uma situação cotidiana que progride para um desfecho sobrenatural”.

Novamente o ChatGPT saiu na frente, mas redigindo um conto bem curto, com cerca de 777 palavras, menos do que o escopo definido no prompt. Além disso, o texto produzido não apresentou separação por capítulos, apenas em uma progressão contínua, mas cumprindo as instruções principais, de sair de um contexto corriqueiro e chegando a um desfecho sobrenatural. Algo bastante curioso no caso do ChatGPT é que, na escolha dos nomes dos personagens, o modelo fez referência ao nome “Belmont”, que está vinculado a mitologia vampiresca, mas, não na literatura, apenas nos videogames da franquia Castlevania e, mais recentemente, nas séries de animação da Netflix.

 Reprodução/DeepSeek e ChatGPT Modo criativo do DeepSeek parece ser tão ou mais eficiente que a versão gratuita do ChatGPT — Foto: Reprodução/DeepSeek e ChatGPT

Por não depender de análises lógicas profundas, o DeepSeek levou apenas cinco segundos antes de começar a criar seu conto vampiresco, mas apresentou, integralmente, o raciocínio, estruturando ambientação, cenário, personagens, progressão narrativa, clímax e desfecho. Além disso, o modelo destacou que a contagem de palavras precisava ser verificada, já que, provavelmente, estaria bem abaixo das 2 a 3 mil palavras definidas no prompt. De fato, o conto gerado entregou apenas 941 palavras, mas também uma progressão narrativa melhor, organizado em cinco capítulos curtos, e até um enredo mais envolvente. Além disso, após o texto em si, o DeepSeek redigiu uma nota curta e descritiva sobre o conto, quase como uma sinopse de capa traseira, bastante comum na promoção de obras literárias.

Outro quesito bastante comum em chatbots de IA é o sistema de geração de imagens por meio de prompts de texto, mas esta funcionalidade ainda não foi implementada no DeepSeek. A empresa até tem seu próprio modelo, o Janus-Pro 7, mas ela ainda é uma ferramenta exclusiva para desenvolvedores, estando disponível apenas via HugginFace para testes. Ao solicitar que a IA crie uma imagem de uma mulher de vestido vermelho digitando em seu laptop, cuja tela exibe o texto “ah, tá”, o DeepSeek desenvolve um longo raciocínio interpretando o comando, mas apenas gera um parágrafo curto descrevendo a imagem solicitada.

 Reprodução/DeepSeek e ChatGPT DeepSeek ainda não implementou modelo para geração de imagem por comandos de texto — Foto: Reprodução/DeepSeek e ChatGPT

Por outro lado, durante sua interpretação do comando, o DeepSeek consegue reconhecer que “Ah, tá” é uma expressão em português e sugere que elementos secundários da imagem poderiam sugerir o contexto de um falante nativo da língua, como “um livro ou uma pequena bandeira”. O ChatGPT, por sua vez, já tem ferramentas integradas de geração de imagem por comandos em texto e prontamente criou duas opções, mas com uma delas trazendo o texto “ah, tá” escrito na traseira do notebook, não na tela. Ainda assim, todo o processo foi mais rápido que o tempo do DeepSeek apresentando sua linha lógica e apenas descrevendo a imagem, sem a gerar propriamente.

4. Interpretação de imagens

Já na interpretação de imagens o problema é outro, já que o DeepSeek parece não ter muitos recursos de visão computacional embarcados. Por esta razão, apesar de ser possível utilizar arquivos de imagem nos prompts, o modelo só consegue reconhecer elementos textuais da figura. Ao tentar que ele descreva a foto de um pet, assim que o arquivo acaba de ser carregado, o DeepSeek já acusa um erro afirmando que o arquivo não tem texto e, portanto, não pode ser interpretado como comando. Subindo a mesma foto no ChatGPT, o modelo da OpenAI reconhece o pet, acerta a raça e descreve a cena e o ambiente em detalhes.

 Reprodução/DeepSeek e ChatGPT DeepSeek ainda não tem ferramentas de visão computacional para reconhecimento de imagens, apenas texto — Foto: Reprodução/DeepSeek e ChatGPT

Em um segundo teste, solicitamos aos modelos que transcrevessem uma captura de tela da lista de exercícios de física utilizada nos primeiros comparativos, deixando claro que a transcrição era apenas do trecho em destaque. O DeepSeek conseguiu reconhecer trechos da página, algumas fórmulas e entregou uma transcrição parcial, mas não conseguiu se ater apenas ao trecho destacado. Por sua vez, o ChatGPT se limitou apenas a reproduzir os números de paginação e referência dos diferentes problemas, e algumas frases desconexas das etapas de resolução.

Por fim, o último quesito do comparativo é a ferramenta de buscas na web, que deveria realizar buscas contextuais alimentadas por IA da mesma forma como o ChatGPT Search opera. No entanto, apesar de a funcionalidade estar teoricamente liberada, os servidores do DeepSeek estão tão congestionados que não foi possível realizar uma busca efetiva sequer uma vez. A mensagem é sempre a de que o serviço está ocupado, sugerindo que a função de busca seja desativada para seguir aplicando o prompt.

O comando utilizado foi sobre “Como montar um PC gamer para rodar games com gráficos no ultra em resolução FHD (1080p)?”, pergunta que o ChatGPT Search respondeu prontamente com uma configuração completa de PC, argumentos para justificar cada peça e referências de sites utilizados. Até foi possível executar o prompt no DeepSeek, mas sem a função de busca, contando apenas com o modelo lógico R1 e os conjuntos de dados disponíveis já treinados nos servidores da DeepSeek.

 Reprodução/DeepSeek e ChatGPT Servidores mais baratos do DeepSeek restringem o uso de algumas funcionalidades em tempo real por conta do excesso de tráfego — Foto: Reprodução/DeepSeek e ChatGPT

Apesar de ambas as IAs terem entregado configurações similares, inclusive com considerações parecidas para cada componente, a resposta da DeepSeek não apresenta referências, já que não conseguiu acessar dados em tempo real para cruzar com as informações treinadas no modelo. Analisando de forma muito pragmática, o resultado, ainda que um pouco frustrante, não surpreende, justamente porque já é sabido que a infraestrutura de operação e treinamento do DeepSeek é centenas de vezes mais barata que a do ChatGPT, já esperado que isto represente um fator extremamente limitante.

Contudo, ainda assim, é impressionante ver como, de maneira geral, o modelo chinês é tão ou mais eficiente que o da OpenAI para funções já incorporadas. Isto faz com que seja apenas uma questão de tempo até que a empresa amplie sua infraestrutura conforme receba mais investimentos ou que, no mínimo, “force a mão” das Big Techs do setor a adotar abordagens similares para evitar perder ainda mais mercado.

Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro