9 meses atrás 18

Stable Diffusion: tudo que você precisa saber sobre IA para criar imagens

Uma das tarefas da inteligência artificial generativa mais impressionantes para o usuário doméstico é a capacidade de gerar imagens por comandos de texto, e os modelos da Stable Diffusion estão entre os mais avançados do mercado. Seu primeiro modelo público foi lançado apenas em 2022, após o DALL-E 2, da OpenAI, mas a tecnologia utilizada pela Stability AI vem de modelos de difusão para prototipagem e refinamento de imagens que já vinham sendo desenvolvidos e estudados desde 2015. A empresa está na vanguarda da geração de imagens com GenAI, muitas vezes servindo referência em testes comparativos para definir se um novo de geração de imagens é bom.

Já bastante conhecido entre desenvolvedores, o Stable Diffusion vem crescendo em popularidade também entre usuários domésticos que, apenas agora, estão descobrindo sua plataforma web de geração de imagens, o DreamStudio, com boa qualidade e preços relativamente acessíveis. O TechTudo preparou um guia completo apresentando a IA em detalhes, trazendo seus principais recursos, comparado a outros serviços atuais e ensinando como testá-lo de graça. Confira a seguir.

 Reprodução/Daniel Trefilio Imagens de cachorro Corgi geradas por IA no DreamStudio com Stable Diffusion — Foto: Reprodução/Daniel Trefilio

O que é Stable Diffusion?

O Stable Diffusion é uma ferramenta de geração de imagens por IA desenvolvida em 2020 pela Stability AI em parceria com equipes de pesquisa da Runway e da Universidade Ludwig Maximilians de Munique e lançada, publicamente, em 2022. Ele combina modelos de difusão a outros modelos de IA generativa para interpretar comandos de texto e criar imagens baseadas nas descrições e, atualmente, está no modelo StableDiffusion 3.5, um dos mais avançados do mercado. Apesar de ser algo relativamente recente para o público geral, os modelos de difusão, tecnologia por trás do Stable Diffusion, já vêm sendo desenvolvidas desde 2015.

Em termos simples, essas ferramentas utilizam aprendizado de máquina e treinamento com grandes conjuntos de dados — da mesma forma que as LLMs, mas com dados de imagens — para interpretar imagens e “prever” a posição de cada píxel. Originalmente, os modelos de difusão foram pensados para remover “ruídos” de imagens, como pixels faltando ou desfocados, ampliar resolução e reconstituir imagens cuja qualidade foi comprometida, seja por técnicas de compressão ou apenas perda de dados em geral. A tecnologia é bastante similar a utilizada pelos sistemas de otimização e geração de frames em games, como o NVIDIA DLSS, AMD FSR e Intel XeSS.

 Divulgação/Nvidia Tecnologia de placas NVIDIA usa mesmo princípio de modelos de difusão para preencher pixels e até gerar quadros inteiros em games — Foto: Divulgação/Nvidia

Ao combinar essa capacidade de previsão e preenchimento de pixels com outros modelos de IA Generativa, como os LLM, é possível obter plataformas capazes de entender descrições e convertê-las em imagens. Outro diferencial ainda mais relevante do Stable Diffusion é que, diferente de outros modelos, ele é totalmente em código aberto, facilitando seu uso, personalização e incorporação, dando aos desenvolvedores maior liberdade para refinar o treinamento do Stable Diffusion para usos específicos.

Quais são os principais recursos do Stable Diffusion?

No quesito recursos, um grande destaque do Stable Diffusion é seu grau elevado de controle do processo de criação de imagens, permitindo ajustar muitos parâmetros, geralmente fixos em outras plataformas, como resolução, grau de influência da imagem de referência em prompts multimodais e número de etapas de difusão, com limite de 150 etapas. A ferramenta ainda é uma das poucas relativamente baratas do mercado com suporte à combinação entre prompts e prompts negativos. Isto permite solicitar que a ferramenta crie uma imagem filtrando elementos específicos, evitando cores específicas ou até elementos visuais.

 Reprodução/DreamStudio (Stability AI) DreamStudio permite determinar número de samples para aumentar precisão, mas custo em créditos por imagem aumenta — Foto: Reprodução/DreamStudio (Stability AI)

A funcionalidade mais popular do Stable Diffusion é, sim, a geração de imagens a partir de comandos de texto, mas, por seu conceito original baseado nos primeiros modelos de difusão, ele também é uma poderosa ferramenta de manipulação de imagens. As principais funcionalidades e recursos do Stable Diffusion são:

  • Texto-para-Imagem: cuncionalidade de criar imagens utilizando prompts complexos de texto, com diversos parâmetros, compreendo comandos detalhados e prompts negativos, como “uma cena com diversos cães pastores correndo em uma vasta planície” e “evite paletas de cores quentes e árvores”. Além disso, ele oferece vários estilos artísticos diferentes — variando conforme a plataforma online — que podem ser definidos manualmente ou na própria janela de contexto.
  • Imagem-para-Imagem: ao realizar o upload de uma imagem no Stable Diffusion, ele pode tanto editá-la, removendo ou adicionando elementos, ou utilizá-la como base para definir o estilo e importar elementos para criar uma nova imagem original.
  • Upscaling: da mesma forma, também é possível subir uma imagem em baixa resolução na plataforma e solicitar o upscaling para uma versão em Full HD, por exemplo.
  • Inpainting e Outpainting: um uso ainda mais útil para a ferramenta é solicitar que ela preencha pedaços faltantes de imagens previamente editadas ou corrompidas (inpainting), ou expanda a imagem original para além das bordas, completando um cenário e transformando uma foto quadrada em panorâmica (outpainting), por exemplo.

Como usar o Stable Diffusion

Por se tratar de uma ferramenta de código aberto, o Stable Diffusion já está sendo implementado em diversas ferramentas com sistema de teste gratuito, como o Stable Diffusion Web (https://stablediffusionweb.com/) ou o DreamStudio (https://beta.dreamstudio.ai/), da própria Stability AI. Para testar, basta acessar o site da plataforma de sua preferência, realizar o login com uma conta de e-mail ou vincular uma conta Google, e começar a criar imagens utilizando comandos de texto.

  • Passo 1. Abra o site do Stable Diffusion Web (https://stablediffusionweb.com/) ou o DreamStudio (https://beta.dreamstudio.ai/) e faça login com uma conta Google
  • Passo 2. Defina os parâmetros básicos da imagem, como proporção, número de imagens e estilo
  • Passo 3. Insira o comando na janela de contexto e clique em "Gerar"
 Reprodução/Daniel Trefilio Processo de geração de Imagem por IA no Stable Diffusion Web é simples — Foto: Reprodução/Daniel Trefilio

Usuários mais avançados — e com sistemas poderosos — também podem optar por instalar softwares como o Stable Diffusion UI, disponível no GitHub (https://github.com/AUTOMATIC1111/stable-diffusion-webui), para testar a ferramenta de forma totalmente local. O problema desta alternativa é que, por conta do tipo de operação dessas ferramentas de IA, elas exigem, no mínimo, uma placa de vídeo dedicada, preferencialmente das linhas RTX 4060 ou superiores e com pelo menos 8 GB de VRAM. Além disso, entre compiladores, encoders e os próprios modelos, o download apenas do SD3.5 supera os 50 GB, antes de ser preparado para rodar na interface Stable Diffusion UI, precisando também de pelo menos 120 GB livres de armazenamento em um SSD.

Dessa forma, tecnicamente é possível rodar o Stable Diffusion direto de qualquer PC com placas RTX que atendam esses requisitos — e não necessariamente AI PCs. Contudo, a tarefa é extremamente complexa para a maioria dos usuários, além de ser relativamente cara em termos de hardware necessário, sendo mais barato assinar ou comprar créditos em alguma plataforma online.

Stable Diffusion é gratuito?

É importante ressaltar que toda ferramenta web de IA roda remotamente em servidores extremamente caros de se manter, então a maioria delas não é 100% gratuita, a despeito dos anúncios nas redes sociais e chamadas nas páginas principais. O que elas geralmente oferecem são alguns créditos grátis para experimentar a ferramenta, mas, esgotados os créditos, é preciso passar para uma modalidade paga.

 Reprodução/Stable Diffusion Web Stable Diffusion Web oferece assinaturas a partir de US$ 84 por ano ou US$ 10 por mês no plano Pro — Foto: Reprodução/Stable Diffusion Web

O Stable Diffusion Web dá 10 créditos diários, com cada imagem gerada consumindo um crédito, tem suporte a comandos em português e oferece assinaturas a partir de US$ 84 por ano ou US$ 10 por mês no plano Pro, com limite de geração de 2 mil imagens por mês e licença de uso comercial. O plano Max, por sua vez, tem uma assinatura a partir de US$ 168 por ano ou US$ 20 por mês, com limite de 4 mil imagens mensais e a possibilidade de gerar imagens privadas.

Já o DreamStudio, da criadora do Stable Diffusion, traz uma interface menos amigável, menos estilos pré-definidos e oferece apenas 25 créditos para novos usuários — sem renovação diária. Por outro lado, ele é mais competente em compreender comandos complexos, conseguindo extrair estilos da janela de contexto, mesmo que eles não estejam disponíveis no menu de configurações, e ainda permite personalizar o número de passos de difusão, resultando em imagens geralmente superiores.

 Reprodução/DreamStudio (Stability AI) DreamStudio não tem assinatura e cada 100 créditos custam US$ 1 — Foto: Reprodução/DreamStudio (Stability AI)

Além disso, ele não tem plano de assinatura, mas cada 100 créditos custam US$ 1 e eles não expiram ao final do mês, sendo possível contratar apenas quando for necessário e ir utilizando aos poucos. O maior problema do DreamStudio é que, apesar de ter uma compreensão melhor para prompts complexos, ele não tem suporte a comandos em português, apenas em inglês.

Stable Diffusion vs. DALL-E 3 vs. Midjourney: qual é melhor?

Um ponto que precisa ser considerado para definir qual modelo é melhor entre o Stable Diffusion, DALL-E 3 e Midjourney é que, novamente, nenhum deles opera de forma isolada, precisando estar incorporados em plataformas que os associem a modelos LLM e outros recursos de IA Generativo.

Sendo assim, é preciso identificar o recorte de público que está sendo considerado. Pensando em desenvolvedores e usuários entusiastas com conhecimento avançado, o Stable Diffusion é, sem dúvidas, a melhor escolha para começar a trabalhar e criar, já que ele é de código aberto e livre, e todos os seus arquivos e documentação estão disponibilizados em repositórios online, como GitHub e HuggingFace.

 Reprodução/Daniel Trefilio DALL-E 3 está disponível gratuitamente na plataforma Microsoft Designer, sendo uma opção mais interessante para os usuários — Foto: Reprodução/Daniel Trefilio

Pensando especificamente no usuário comum, que não tem condições ou expertise de instalar um modelo de difusão em seu PC doméstico, o DALL-E 3 acaba sendo uma alternativa mais atraente, já que ele está disponível gratuitamente na ferramenta Microsoft Designer, com usos diários ilimitados — pelo menos em teoria. Além disso, sua interface é possivelmente a mais intuitiva entre as três plataformas, ele conta com modelos LLM GPT-4 e todas as imagens geradas ficam armazenadas na conta Microsoft do usuário, mesmo com o OneDrive gratuito de apenas 5 GB.

O Stable Diffusion vem em segundo lugar para esse público, por ter ao menos duas plataformas web com possibilidade de teste gratuito e opções de contratação bastante acessíveis. Ele oferece mais estilos artísticos pré-definidos, permitindo focar em prompts para a imagem desejada, sem se preocupar em definir estilos na janela de contexto, além de oferecer mais formatos de saída, em proporções que vão desde ultrawide (21:9) a “utlra tall” (9:21), enquanto as ferramentas disponíveis com DALL-E 3 são mais restritas nesse sentido.

 Reprodução/Daniel Trefilio Stable Diffusion pode ser testado em plataformas como o Stable Diffusion Web — Foto: Reprodução/Daniel Trefilio

O Midjourney AI , por sua vez, não atende bem nenhum desses públicos, já que seu código é fechado e proprietário, estando disponível, exclusivamente, mediante assinatura, sem opção grátis de teste, nem para desenvolvedores.

Veja também: DeepSeek: conheça modelo de IA da China que pode superar o ChatGPT

 conheça modelo de IA da China que pode superar o ChatGPT

DeepSeek: conheça modelo de IA da China que pode superar o ChatGPT

Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro