9 meses atrás 73

DALL-E x Stable Diffusion: qual IA gera as melhores imagens? Compare

A inteligência artificial generativa permite gerar imagens utilizando somente comandos de texto, graças a modelos como o DALL-E, da OpenAI, e o Stable Diffusion, da Stability AI. Ambos são bastante populares por estarem disponíveis em diferentes plataformas baratas ou até gratuitas. Pensando nisso, o TechTudo testou alguns sites e apps gratuitos -— ou ao menos com período de testes — que utilizam os modelos DALL-E e Stable Diffusion, e comparou as imagens geradas para determinar qual é melhor.

É importante reforçar que os testes realizados de casos reais de uso, não envolvendo ferramentas de benchmark, apresentando comparações subjetivas. Além disso, as diferenças são mais notáveis entre plataformas do que entre os modelos em si. Isso porque, além dos modelos de difusão, a geração de imagens por IA depende também de outros componentes, como o modelo LLM, necessário para interpretação dos prompts, encoders, e assim por diante. Contudo, é possível, sim, reconhecer um padrão de qual modelo, o DALL-E ou o Stable Diffusion, costuma apresentar resultados mais consistentes. Veja qual no comparativo a seguir.

qual IA gera as melhores imagens? Compare — Foto: Reprodução/Daniel Trefilio

O Stable Diffusion é de código aberto, e conta com participação ativa da comunidade em seu desenvolvimento. Ainda que as builds finais sejam as publicadas pela própria Stability AI, qualquer desenvolvedor independente ou usuário entusiasta pode baixar os arquivos e documentação do modelo em repositórios como GitHub e Hugging Face, e personalizá-los, adaptando seu uso para demandas específicas. O ecossistema de código aberto ainda promove, diversos debates em fóruns oficiais, propondo formas de melhorar o modelo e trazendo, desde novas funcionalidades, até a identificação e correção rápida de bugs, com muitas dessas melhorias e inovações sendo incorporadas ao código final das novas builds.

O DALL-E, por sua vez, é um modelo de difusão proprietário e de código fechado da OpenAI, desenvolvido exclusivamente internamente pelos engenheiros da empresa. Uma vantagem dessa abordagem é que por ter acesso a todas as tecnologias da empresa e conhecimento profundo da infraestrutura de operação, o código do modelo é projetado sob medida para aproveitar ao máximo os recursos disponíveis assim que eles são lançados. Por outro lado, criação de novos recursos, correção de bugs e outras decisões de desenvolvimento ficam a encargo exclusivamente da OpenAI, limitando a visão criativa a, apenas, o que a empresa julgar relevante. Naturalmente, eles recebem e consideram os feedbacks da comunidade, mas somente do ponto de vista de usuários e grupos de teste, sem interferência direta ou acesso ao código.

Justamente por conta da diferença no formato de desenvolvimento, o custo de implantação acaba sendo a primeira diferença prática entre os modelos. Enquanto o DALL-E depende exclusivamente de acordos de licenciamento de uso, o Stable Diffusion pode ser baixado de graça por desenvolvedores e empresas para rodar diretamente em seus servidores, inclusive com fins comerciais, desde que a receita anual da empresa não ultrapasse US$ 1 milhão.

É mais comum encontrar ferramentas de geração de imagem com os modelos SD do que os modelos DALL-E, geralmente disponíveis somente em plataformas de grandes empresas. Entre os sites utilizados para nossos testes, apenas o Microsoft Designer ofereceu geração de imagens totalmente gratuita utilizando os modelos DALL-E 2 e DALL-E 3, com o ChatGPT limitando a geração a duas imagens por dia, e outros sites, liberando somente poucos créditos sem reposição diária.

DALL-E ou Stable Diffusion: qual gera imagens melhores?

Novamente, a diferença entre as imagens geradas considera uma série de fatores além do modelo de difusão, mas tanto o DALL-E quanto o Stable Diffusion são muito competentes para criar imagens de objetos e animais, inclusive em estilo fotorrealismo. No entanto, quando os prompts solicitam imagens com pessoas, quase sempre as plataformas optam automaticamente por estilos de ilustrações artísticas, e ao tentar forçar o resultado para gerar “fotos”, o resultado quase sempre fica bem mais pobre, tanto em detalhes quanto na própria interpretação do comando.

Começando com um comando simples, de “um cachorro Corgi vestido de pescador sentado à beira de um lago”, o site Stable Diffusion Web, que utiliza por padrão o modelo SDXL, geral uma foto simpática, em boa resolução, mas relativamente simples, somente executando o prompt. Já o Microsoft Designer, com modelo DALL-E 3, a ferramenta foi além, adicionando uma série de elementos visuais curiosos, como acessórios, uma vara de pescar, potes e vidrinhos. A impressão comparando ambas as imagens é que, enquanto o Stable Diffusion criou uma foto casual de um usuário registrando um momento fofo de seu pet, o DALL-E 3 tomou uma série de liberdades criativas, produzindo um ensaio fotográfico.

Ao solicitar um comando também simples, mas forçando um estilo visual cartunesco, os resultados das duas plataformas foram muito equivalentes, ambas entregando riquezas de detalhes. Por outro lado, ao aumentar a complexidade dos comandos, a diferença tanto na geração da imagem quanto na compreensão do comando fica extremamente notável, com o DALL-E, geralmente, tendo uma vantagem considerável.

O prompt utilizado foi “Um cenário onírico com cinco personagens de uma campanha de RPG, com um druida, um ladino, um bardo, um mago e um guerreiro, caminhando em direção ao por do sol em um vasto descampado seguindo uma estrada de tijolos cor esmeralda”, especificando contexto, elementos, características de indivíduos diferentes, ambientação, e até cores. Para ampliar um pouco o escopo, comparamos o resultado do comando acima nas seguintes plataformas com modelos DALL-E e Stable Diffusion:

Onde acessar o Stable Diffusion?

Stable Diffusion Web (https://stablediffusionweb.com/)
StableDifffusion.com (https://stabledifffusion.com/) - sim, com "FFF"
OpenArt (https://openart.ai/)
DreamStudio (https://beta.dreamstudio.ai/)

Veja imagens geradas por IA utilizando sites com modelo Stable Diffusion

Reprodução/OpenArt.AI

Reprodução/DreamStudio (Stability AI)

4 fotos

Reprodução/StableDifffusion.com

Plataformas utilizadas foram DreamStudio, StableDifffusion.com, Stable Diffusion Web e OpenArt.AI, todas com algum tipo de acesso gratuito ou período de testes

ChatGPT (https://chatgpt.com/)
Microsoft Designer / MS Copilot (https://designer.microsoft.com/)
NightCafé (https://creator.nightcafe.studio/)
DALL-E Generator (https://www.dall-efree.com/)

Veja imagens geradas por IA utilizando sites com modelo DALL-E

Reprodução/NightCafé

Reprodução/Microsoft Designer

5 fotos

Reprodução/Microsoft Copilot

Plataformas utilizadas foram ChatGPT, Microsoft Designer, NightCafé e DALL-E Generator, todas com algum tipo de acesso gratuito ou período de testes

De maneira geral, as plataformas rodando os modelos DALL-E interpretaram mais detalhes entre as instruções complexas do prompt utilizado, respeitando elementos como a ambientação onírica, a temática de RPGs de fantasia, mas ainda tiveram dificuldades em respeitar as classes de personagem, por exemplo. Praticamente todas plataformas com Stable Diffusion ignoraram parâmetros como a ambientação onírica, mesmo o DreamStudio, mantido pela própria Stability AI, desenvolvedora do modelo.

Um detalhe curioso é que, talvez pelo excesso de instruções, alguns parâmetros foram ignorados ou trocados de lugar, como a cor da estrada ou a direção que os personagens deveriam estar caminhando. Ainda que isto tenha ocorrido com ambas as IAs, o problema foi mais recorrente nos modelos com Stable Diffusion, e por essa razão o DALL-E acaba levando a melhor em termos de qualidade.

Por outro lado, salvo pelo Microsoft Designer, é bem mais caro brincar com o modelo da OpenAI, fazendo do SD uma opção interessante para quem precisa de recursos avançados e licenças de uso comercial e não está disposto a gastar muito.

Em termos de sites específicos, o que gerou os melhores resultados com SD foi o OpenArt, que traz uma série de estilos pré-treinados, conta com um período de teste de 7 dias e 40 créditos de IA, mas seus planos pagos custam a partir de US$ 14. No caso do DALL-E, os melhores resultados foram, disparados, os do NightCafé, que inclusive tem planos a partir de US$ 6 com 100 créditos por mês, com créditos cumulativos e que não expiram, e ainda conta com diversas ferramentas avançadas, inclusive com possibilidade de transformar imagens e clipes curtos.

Veja também: 6 concorrentes do ChatGPT que você deveria testar

6 concorrentes do ChatGPT que você deveria testar