10 meses atrás 185

Goku: conheça nova IA lançada pela ByteDance, dona do TikTok

A ByteDance revelou na primeira semana de fevereiro o OmniHuman-1, apelidado de “Goku”, um novo modelo de IA capaz de combinar imagens, vídeos, trilhas de áudio e comandos de texto, para gerar vídeos realistas. O modelo multimodal dona do TikTok foi apresentado de forma bastante discreta na terça-feira da última semana (5) com um artigo publicado no GitHub pelos pesquisadores da empresa e em um portal oficial, inclusive com demonstrações comparando vídeos reais com a versão gerada totalmente por IA.

Conforme a página recém-criada da plataforma, todos os vídeos de demonstrações foram criados utilizando apenas uma imagem e uma trilha de áudio, com resultados assustadoramente impressionantes. O próprio vídeo de abertura da página do OmniHuman-1 é um deepfake de 23 segundos com Einstein discorrendo sobre as emoções humanas, citando um poema e emendando em uma retórica comum de que a “ciência não responde os porquês”. A seguir, confira mais detalhes da novidade.

 Reprodução/ByteDance Goku: conheça nova IA lançada pela dona do TikTok — Foto: Reprodução/ByteDance

O Goku, cujo nome oficial é OmniHuman-1, é um novo modelo multimodal de IA baseado na arquitetura “Rectified Transformer Flow” de aprendizado de máquina profundo, utilizada na maioria dos modelos de difusão modernos para gerar imagens a partir de prompts multimodais. A maior vantagem dessa arquitetura em relação a transformadores anteriores é que, além de combinar geração integrada de vídeos e imagens, ela possibilita um aprendizado intermodal nos processos de treinamento.

A inovação abre margem para criação de conteúdos audiovisuais extremamente realistas totalmente por IA. Conforme os dados de benchmark divulgados na página do modelo no GitHub, o Goku-T2V tem uma média de desempenho superior a vários outros modelos similares, inclusive o Sora, da OpenAI.

 Reprodução/ByteDance Vídeo Deep Fake de Albert Einstein gerado por IA no modelo Goku da ByteDance — Foto: Reprodução/ByteDance

Como o OmniHuman-1 funciona?

A arquitetura "Rectified Flow Transformer" combina mecanismos de processamento de linguagem natural (PLN) e algoritmos de Deep Learning para transformar inputs de texto, imagem e som em sequências visuais realistas e com alta fidelidade ao material de referência no caso dos prompts com imagens. O processo em si envolve:

  • Compressão das imagens e vídeos e sua alocação em Autoencoders Variacionais (VAE)
  • Processamento pelo transformador flow, analisando os dados e capturando interdependências espaciais e temporais
  • Geração do fluxo retificado, que efetivamente cria os vídeos com movimentos realistas e suaves

Um dos maiores diferenciais descrito no artigo original do modelo é que a base de dados utilizada para o treinamento utilizou conjuntos de dados com milhões de pareamentos de entre imagens e textos, e vídeos e textos, provenientes tanto de repositórios acadêmicos como de conteúdos públicos da internet. Apesar de não abrir exatamente as fontes, é importante lembrar que a ByteDance é dona do TikTok e, tecnicamente, todos os vídeos disponibilizados na plataforma são públicos.

A julgar pelo teor dos vídeos com demonstrações do modelo, é bastante nítida a semelhança entre os vídeos gerados por IA e o tipo de conteúdo normalmente publicado na rede social. Em relação a outros modelos, é difícil estabelecer uma comparação real além dos dados de benchmark publicados pela própria ByteDance, mas de maneira geral, o Goku-T2V tem uma consistência geral nos mesmos níveis do Luma (Google) e Sora (OpenAI), possivelmente os dois mais promissores até o momento.

Benchmarks técnicos do OmniHuman-1 (Goku-T2V)

Method Total Score Quality Score Sampling Score Style Consistency Background Consistency Temporal Flickering Motion Smoothness Dynamic Degree Subject Quality Imaging Quality Object Class Human Action Object Relationship Color Scene Prompt Style Overall Consistency
AnimateDiff-V2 80.27 82.90 69.75 95.30 97.68 98.75 97.76 40.83 67.16 70.10 90.90 36.88 92.60 87.47 34.60 50.19 22.42
VideoCrafter-2.0 80.44 82.20 73.42 96.85 98.22 98.41 97.73 42.50 63.13 67.22 92.55 40.66 95.00 92.92 35.86 55.29 25.13
OpenSora V1.2 79.23 80.71 73.30 94.45 97.90 99.47 98.20 47.22 56.18 60.94 83.37 58.41 85.80 87.49 67.51 42.47 23.89
Show-1 78.93 80.42 72.98 95.53 98.02 99.12 98.24 44.44 57.35 58.66 93.07 45.47 95.60 86.35 53.50 47.03 23.06
Gen-3 82.32 84.11 75.17 97.10 96.62 98.61 99.23 60.14 63.34 66.82 87.81 53.64 96.40 80.90 65.09 54.57 24.31
Pika-1.0 80.69 82.92 71.77 96.94 97.36 99.74 99.50 47.50 62.04 61.87 88.72 43.08 86.20 90.57 61.03 49.83 22.26
CogVideoX-5B 81.61 82.75 77.04 96.23 96.52 98.66 96.92 70.97 61.98 62.90 85.23 62.11 99.40 82.81 66.35 53.20 24.91
Kling 81.85 83.39 75.68 98.33 97.60 99.30 99.40 46.94 61.21 65.62 87.24 68.05 93.40 89.90 73.03 50.86 19.62
Mira 71.87 78.78 44.21 96.23 96.92 98.29 97.54 60.33 42.51 60.16 52.06 12.52 63.80 42.24 27.83 16.34 21.89
CausVid 84.27 85.65 78.75 97.53 97.19 96.24 98.05 92.69 64.15 68.88 92.99 72.15 99.80 80.17 64.65 56.58 24.27
Luma 83.61 83.47 84.17 97.33 97.43 98.64 99.35 44.26 65.51 66.55 94.95 82.63 96.40 92.33 83.67 58.98 24.66
HunyuanVideo 83.24 85.09 75.82 97.37 97.76 99.44 98.99 70.83 60.36 67.56 86.10 68.55 94.40 91.60 68.68 53.88 19.80
Goku-T2V (ours) 84.85 85.60 81.87 95.55 96.67 97.71 98.50 76.11 67.22 71.29 94.40 79.48 97.60 83.81 85.72 57.08 23.08

Apesar de publicado alguns elementos do OmniHuman-1 no GitHub, a maior parte do código ainda está “a caminho”, e isto inclui as ferramentas para teste e incorporação da framework. Sendo assim, por enquanto ainda não é possível testar a ferramenta nem em caráter de desenvolvedor. Além disso, a ByteDance não confirmou quando - ou se - o modelo será liberado publicamente em algum de seus produtos.

Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro