Essa transição foi marcada por três fatores principais que criaram uma "tempestade perfeita". Primeiro, uma crise técnica: os modelos de inteligência artificial começaram a ficar famintos por dados de alta qualidade. As empresas descobriram que seus sistemas precisavam de dados com mais qualidade e não o fast food digital que eles foram lançados. Dados sintéticos ou de baixa qualidade simplesmente não eram mais suficientes para treinar modelos competitivos.
O segundo fator é representado por novas leis e multas pesadas, especialmente da União Europeia. A Lei de Inteligência Artificial da União Europeia já teve consequências financeiras severas. A França aplicou uma multa de 250 milhões de euros no Google por treinar seu modelo com conteúdo de editoras francesas sem avisar, sem pedir permissão e sem pagar. Foi um recado claríssimo para toda a indústria sobre as novas regras do jogo.
Terceiro, processos jurídicos que abalaram as estruturas da defesa legal das empresas de IA. O caso do "The New York Times" contra a OpenAI foi o ponto de virada mais contundente. Embora não tenha sido o primeiro processo, foi o que trouxe a prova mais forte: o ChatGPT conseguia reproduzir trechos inteiros de artigos pagos. Isso minou a linha de defesa das empresas de inteligência artificial, que se baseavam no conceito norte-americano de "fair use" ou uso justo.
Esses eventos obrigaram as corporações a abandonar as práticas de coleta indiscriminada de dados por meio do chamado "web scraping", a raspagem de conteúdo. A nova regra é clara: pague primeiro, treine seus modelos depois. E uma economia totalmente nova nasceu dessa necessidade. Dessa forma, o licenciamento de conteúdo deixou de ser uma opção para se tornar sobrevivência.
A OpenAI partiu para o ataque e formou seu "fosso defensivo de dados". O objetivo da OpenAI não era, além de evitar processos, criar um acervo de conteúdo tão exclusivo e de qualidade que nenhum concorrente replicaria. Os dados de qualidade são o novo petróleo de fato.
O acordo da dona do ChatGPT e do Sora com a News Corp, em maio de 2024, foi avaliado em US$ 250 milhões por cinco anos. O acordo também foi representativo porque trouxe Robert Murdoch, um crítico histórico das big techs, para o lado da OpenAI. Na prática, o ChatGPT ganhou acesso a décadas de conteúdo do Wall Street Journal e outras publicações do grupo, conquistando uma autoridade em finanças, política e economia que nenhum outro chatbot ainda tinha.
A parceria com a alemã Axel Springer, no final de 2023, foi o primeiro grande acordo e trouxe uma inovação fundamental no modelo de negócio. Além de treinar os modelos, as respostas do ChatGPT passaram a incluir resumos de artigos do Politico e da Business Insider com links diretos.
A partir daí, a OpenAI foi preenchendo sistematicamente as lacunas em seu arsenal de dados, buscando tipos de informação bem específicos para diferentes finalidades. Fechou com a Associated Press, para garantir notícias factuais em tempo real, e com o Financial Times, para dominar o território da economia.
E foram além do jornalismo tradicional para cobrir todas as bases. A OpenAI percebeu que, para ensinar uma inteligência artificial a conversar como uma pessoa de verdade, precisava de conversas de pessoas de verdade. Daí veio o acordo com o Reddit, o maior arquivo de diálogo humano autêntico da internet.
Para ensinar raciocínio lógico e técnico, a OpenAI fechou parceria com o Stack Overflow, que contém milhões de perguntas e respostas sobre programação validadas por especialistas. Cada acordo foi uma peça estratégica se encaixando no lugar. O ChatGPT aprendeu a ser factual com o jornalismo profissional, conversacional com as interações humanas do Reddit, e tecnicamente competente com o conhecimento especializado do Stack Overflow.
Para fechar o quebra-cabeças, veio o acordo com a Disney. O investimento de US$ 1 bilhão permite licenciar todo o universo de personagens icônicos da Disney. Isso significa que mais de 200 personagens das franquias Marvel, Pixar e Star Wars podem agora ser legalmente usados pela IA da OpenAI.
O licenciamento tem duração de três anos, com início previsto para o início de 2026. Os usuários do Sora e do ChatGPT Images poderão criar vídeos curtos com personagens como Mickey Mouse, Cinderela, Mufasa, Darth Vader, Elsa etc., porém sem vozes ou a semelhança de atores reais, apenas a versão animada.
A questão da animação é um detalhe importante e garante a proteção robusta dos direitos de imagem e voz de atores reais, uma lição que a Disney aprendeu com as recentes greves em Hollywood, quando profissionais da indústria se mobilizaram contra o uso não autorizado de suas características por sistemas de IA.
Simultaneamente ao anúncio do acordo, os advogados da Disney enviaram notificações legais para todo o mercado de inteligência artificial, deixando cristalino que qualquer outra empresa que tentasse usar seus personagens nas IAs estaria se expondo a processos. Na prática, a Disney criou um monopólio legal: agora, só a OpenAI pode gerar legalmente um Mickey Mouse.
A Disney abre uma nova via de engajamento para suas franquias, além de ganhar participação em uma empresa de IA de ponta. Ela também receberá warrants (opções) para adquirir participação adicional na OpenAI no futuro.
Gigantes tecnológicos como Google e Meta foram forçados a se defender, enfrentando dilemas estruturais. O caso do Google é emblemático e ilustra o conflito que a empresa enfrenta. O negócio principal do Google é mandar as pessoas para outros sites por meio da busca. É assim que a empresa ganha dinheiro com anúncios.
Mas AI Overview, um dos produtos de inteligência artificial da empresa, faz exatamente o contrário: dá a resposta diretamente na página do Google, sem que o usuário clique em nenhum link externo. Isso cria um conflito direto com os mesmos criadores de conteúdo de que a empresa precisa para treinar a própria inteligência artificial. É uma autêntica sinuca de bico sem solução fácil.
Após a multa pesada de 250 milhões de euros na França, o Google foi forçado a criar um mecanismo de opt-out, um botão que permite a qualquer editor da web impedir que seu conteúdo seja usado para treinar modelos de inteligência artificial. Foi uma adaptação reativa ao cenário legal que se formou.
A empresa também fechou um acordo de US$ 60 milhões por ano com o Reddit, tentando injetar experiência humana de volta nos resultados da busca, que estavam cada vez mais poluídos por conteúdo gerado artificialmente pela própria proliferação de sistemas de IA. É um ciclo vicioso peculiar da era atual.
O caso da Meta é de reviravolta. A empresa passou anos declarando publicamente que não queria mais saber de notícias no Facebook. Mas quando foram lançar seus assistentes de IA para WhatsApp e Instagram, perceberam que um assistente que não sabe o que aconteceu ontem não serve para quase nada.
Daí fecharam um acordo com a Reuters para ter acesso a fatos em tempo real. A diferença da abordagem da Meta em relação à OpenAI é que seus assistentes são focados em consultas em tempo real, em vez de treinamentos profundos. Em 2025, a Meta expandiu essa estratégia e fechou com um consórcio que incluía tanto Fox News quanto CNN, licenciando conteúdo de todo o espectro ideológico.
E uma história irônica envolve a Anthropic, a empresa que nasceu com a promessa de ser a alternativa ética. A companhia foi processada por ter treinado seu principal modelo, o Claude, usando uma biblioteca de livros piratas.
No tribunal, a defesa da Anthropic falhou. E um juiz federal afirmou que usar dados obtidos ilegalmente "envenena" qualquer argumento de uso justo, o "fair use". E a Anthropic saiu fechando acordos com editoras e autores por direitos autorais de conteúdo que já estavam dentro da sua plataforma.
Esses acordos marcam o fim da web aberta como campo de treinamento livre para IA. Para uma startup que está começando hoje no mercado de IA, a porta de entrada se fechou drasticamente. É necessário um cheque com muitos zeros apenas para ter acesso aos dados básicos necessários para treinar um modelo minimamente competitivo e cria barreiras de entrada para novos competidores.
Mostra também a ascensão acelerada do vídeo como conteúdo protegido por licenciamento exclusivo. Os acordos são fechados sim, mas apenas com quem é útil para formar o quebra-cabeças de dados. Enquanto isso, usam muito conteúdo sem direito e sem acordo.
Os impactos jurídicos
A revolução nos modelos de licenciamento de dados para inteligência artificial está criando um complexo mosaico jurídico global, e o Brasil se encontra em uma posição particularmente delicada nesse novo cenário. Enquanto a União Europeia avança com regulamentação duríssima, e os Estados Unidos deixam o mercado ditar as regras por meio de acordos bilionários e litígios privados, o Brasil ainda tateia em busca de seu próprio caminho regulatório, correndo o risco de ficar preso entre duas forças titânicas sem conseguir proteger adequadamente nem seus criadores de conteúdo nem sua nascente indústria de tecnologia.
O projeto de lei que busca regular a IA no país, em tramitação no Congresso Nacional desde 2021 e ainda sem perspectiva clara de aprovação, aborda a questão de dados de treinamento de forma bastante superficial e genérica.
A proposta atual, conhecida como PL 2338/2023, estabelece princípios gerais como transparência e respeito aos direitos autorais, mas não cria mecanismos específicos de fiscalização ou sanção comparáveis aos europeus. Tampouco oferece clareza jurídica sobre quando o uso de material protegido para treinamento de IA seria permitido sob exceções educacionais ou de pesquisa. Essa imprecisão deixa tanto empresas de tecnologia quanto criadores de conteúdo em um limbo regulatório perigoso.
O desafio é encontrar um ponto de equilíbrio delicado: regulamentação suficiente para proteger direitos e garantir compensação justa, mas não tão onerosa que sufoque a inovação tecnológica ou torne inviável o desenvolvimento de sistemas de IA competitivos globalmente. É uma equação difícil, pois cada dia de vazio regulatório consolida o domínio de empresas estrangeiras e a exploração não compensada de conteúdo brasileiro.
*Aline Sordili é jornalista e especialista em transformação digital, mídia e distribuição de conteúdo
Reportagem
Texto que relata acontecimentos, baseado em fatos e dados observados ou verificados diretamente pelo jornalista ou obtidos pelo acesso a fontes jornalísticas reconhecidas e confiáveis.

German (DE)
English (US)
Spanish (ES)
French (FR)
Hindi (IN)
Italian (IT)
Portuguese (BR)
Russian (RU)
3 dias atrás
6
/https://i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2025/J/8/aW1khwRvqwkverEAwXRg/captura-de-tela-2025-11-28-174754.png)

/https://i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2025/e/P/MG9WFlSTAO6qmn7um8KQ/imagem-2025-12-15-140156243.png)

:strip_icc()/i.s3.glbimg.com/v1/AUTH_59edd422c0c84a879bd37670ae4f538a/internal_photos/bs/2023/l/g/UvNZinRh2puy1SCdeg8w/cb1b14f2-970b-4f5c-a175-75a6c34ef729.jpg)










Comentários
Aproveite ao máximo as notícias fazendo login
Entrar Registro