A ByteDance revelou na primeira semana de fevereiro o OmniHuman-1, apelidado de “Goku”, um novo modelo de IA capaz de combinar imagens, vídeos, trilhas de áudio e comandos de texto, para gerar vídeos realistas. O modelo multimodal dona do TikTok foi apresentado de forma bastante discreta na terça-feira da última semana (5) com um artigo publicado no GitHub pelos pesquisadores da empresa e em um portal oficial, inclusive com demonstrações comparando vídeos reais com a versão gerada totalmente por IA.
Conforme a página recém-criada da plataforma, todos os vídeos de demonstrações foram criados utilizando apenas uma imagem e uma trilha de áudio, com resultados assustadoramente impressionantes. O próprio vídeo de abertura da página do OmniHuman-1 é um deepfake de 23 segundos com Einstein discorrendo sobre as emoções humanas, citando um poema e emendando em uma retórica comum de que a “ciência não responde os porquês”. A seguir, confira mais detalhes da novidade.
Goku: conheça nova IA lançada pela dona do TikTok — Foto: Reprodução/ByteDance O Goku, cujo nome oficial é OmniHuman-1, é um novo modelo multimodal de IA baseado na arquitetura “Rectified Transformer Flow” de aprendizado de máquina profundo, utilizada na maioria dos modelos de difusão modernos para gerar imagens a partir de prompts multimodais. A maior vantagem dessa arquitetura em relação a transformadores anteriores é que, além de combinar geração integrada de vídeos e imagens, ela possibilita um aprendizado intermodal nos processos de treinamento.
A inovação abre margem para criação de conteúdos audiovisuais extremamente realistas totalmente por IA. Conforme os dados de benchmark divulgados na página do modelo no GitHub, o Goku-T2V tem uma média de desempenho superior a vários outros modelos similares, inclusive o Sora, da OpenAI.
Vídeo Deep Fake de Albert Einstein gerado por IA no modelo Goku da ByteDance — Foto: Reprodução/ByteDance Como o OmniHuman-1 funciona?
A arquitetura "Rectified Flow Transformer" combina mecanismos de processamento de linguagem natural (PLN) e algoritmos de Deep Learning para transformar inputs de texto, imagem e som em sequências visuais realistas e com alta fidelidade ao material de referência no caso dos prompts com imagens. O processo em si envolve:
- Compressão das imagens e vídeos e sua alocação em Autoencoders Variacionais (VAE)
- Processamento pelo transformador flow, analisando os dados e capturando interdependências espaciais e temporais
- Geração do fluxo retificado, que efetivamente cria os vídeos com movimentos realistas e suaves
Um dos maiores diferenciais descrito no artigo original do modelo é que a base de dados utilizada para o treinamento utilizou conjuntos de dados com milhões de pareamentos de entre imagens e textos, e vídeos e textos, provenientes tanto de repositórios acadêmicos como de conteúdos públicos da internet. Apesar de não abrir exatamente as fontes, é importante lembrar que a ByteDance é dona do TikTok e, tecnicamente, todos os vídeos disponibilizados na plataforma são públicos.
A julgar pelo teor dos vídeos com demonstrações do modelo, é bastante nítida a semelhança entre os vídeos gerados por IA e o tipo de conteúdo normalmente publicado na rede social. Em relação a outros modelos, é difícil estabelecer uma comparação real além dos dados de benchmark publicados pela própria ByteDance, mas de maneira geral, o Goku-T2V tem uma consistência geral nos mesmos níveis do Luma (Google) e Sora (OpenAI), possivelmente os dois mais promissores até o momento.
Benchmarks técnicos do OmniHuman-1 (Goku-T2V)
| Method | Total Score | Quality Score | Sampling Score | Style Consistency | Background Consistency | Temporal Flickering | Motion Smoothness | Dynamic Degree | Subject Quality | Imaging Quality | Object Class | Human Action | Object Relationship | Color | Scene | Prompt Style | Overall Consistency |
| AnimateDiff-V2 | 80.27 | 82.90 | 69.75 | 95.30 | 97.68 | 98.75 | 97.76 | 40.83 | 67.16 | 70.10 | 90.90 | 36.88 | 92.60 | 87.47 | 34.60 | 50.19 | 22.42 |
| VideoCrafter-2.0 | 80.44 | 82.20 | 73.42 | 96.85 | 98.22 | 98.41 | 97.73 | 42.50 | 63.13 | 67.22 | 92.55 | 40.66 | 95.00 | 92.92 | 35.86 | 55.29 | 25.13 |
| OpenSora V1.2 | 79.23 | 80.71 | 73.30 | 94.45 | 97.90 | 99.47 | 98.20 | 47.22 | 56.18 | 60.94 | 83.37 | 58.41 | 85.80 | 87.49 | 67.51 | 42.47 | 23.89 |
| Show-1 | 78.93 | 80.42 | 72.98 | 95.53 | 98.02 | 99.12 | 98.24 | 44.44 | 57.35 | 58.66 | 93.07 | 45.47 | 95.60 | 86.35 | 53.50 | 47.03 | 23.06 |
| Gen-3 | 82.32 | 84.11 | 75.17 | 97.10 | 96.62 | 98.61 | 99.23 | 60.14 | 63.34 | 66.82 | 87.81 | 53.64 | 96.40 | 80.90 | 65.09 | 54.57 | 24.31 |
| Pika-1.0 | 80.69 | 82.92 | 71.77 | 96.94 | 97.36 | 99.74 | 99.50 | 47.50 | 62.04 | 61.87 | 88.72 | 43.08 | 86.20 | 90.57 | 61.03 | 49.83 | 22.26 |
| CogVideoX-5B | 81.61 | 82.75 | 77.04 | 96.23 | 96.52 | 98.66 | 96.92 | 70.97 | 61.98 | 62.90 | 85.23 | 62.11 | 99.40 | 82.81 | 66.35 | 53.20 | 24.91 |
| Kling | 81.85 | 83.39 | 75.68 | 98.33 | 97.60 | 99.30 | 99.40 | 46.94 | 61.21 | 65.62 | 87.24 | 68.05 | 93.40 | 89.90 | 73.03 | 50.86 | 19.62 |
| Mira | 71.87 | 78.78 | 44.21 | 96.23 | 96.92 | 98.29 | 97.54 | 60.33 | 42.51 | 60.16 | 52.06 | 12.52 | 63.80 | 42.24 | 27.83 | 16.34 | 21.89 |
| CausVid | 84.27 | 85.65 | 78.75 | 97.53 | 97.19 | 96.24 | 98.05 | 92.69 | 64.15 | 68.88 | 92.99 | 72.15 | 99.80 | 80.17 | 64.65 | 56.58 | 24.27 |
| Luma | 83.61 | 83.47 | 84.17 | 97.33 | 97.43 | 98.64 | 99.35 | 44.26 | 65.51 | 66.55 | 94.95 | 82.63 | 96.40 | 92.33 | 83.67 | 58.98 | 24.66 |
| HunyuanVideo | 83.24 | 85.09 | 75.82 | 97.37 | 97.76 | 99.44 | 98.99 | 70.83 | 60.36 | 67.56 | 86.10 | 68.55 | 94.40 | 91.60 | 68.68 | 53.88 | 19.80 |
| Goku-T2V (ours) | 84.85 | 85.60 | 81.87 | 95.55 | 96.67 | 97.71 | 98.50 | 76.11 | 67.22 | 71.29 | 94.40 | 79.48 | 97.60 | 83.81 | 85.72 | 57.08 | 23.08 |
Apesar de publicado alguns elementos do OmniHuman-1 no GitHub, a maior parte do código ainda está “a caminho”, e isto inclui as ferramentas para teste e incorporação da framework. Sendo assim, por enquanto ainda não é possível testar a ferramenta nem em caráter de desenvolvedor. Além disso, a ByteDance não confirmou quando - ou se - o modelo será liberado publicamente em algum de seus produtos.

German (DE)
English (US)
Spanish (ES)
French (FR)
Hindi (IN)
Italian (IT)
Portuguese (BR)
Russian (RU)
10 meses atrás
185


/https://i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2025/M/B/SscAPtRrGNnkdkxoIY4w/000.jpg)
/https://i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2025/L/j/aI9gb0RsAYLVBjofB0GQ/40itx2ir5hxn74kc6r4fstwbvvq.jpg)

:strip_icc()/i.s3.glbimg.com/v1/AUTH_59edd422c0c84a879bd37670ae4f538a/internal_photos/bs/2023/l/g/UvNZinRh2puy1SCdeg8w/cb1b14f2-970b-4f5c-a175-75a6c34ef729.jpg)










Comentários
Aproveite ao máximo as notícias fazendo login
Entrar Registro