Da mesma maneira que a IA pode aprender um estilo artístico de uma imagem, também captura os padrões com os quais grandes escritores concatenam suas palavras. E o aprendizado não se restringe apenas à forma, mas também invade o conteúdo.
Se a IA consegue responder sua pergunta, é porque ela leu a resposta em algum lugar - certamente em algum texto escrito por alguém.
Não tem jeito, para a Inteligência Artificial Generativa existir, os modelos precisam ser treinados com uma quantidade absurda de conteúdos em diferentes formatos: textos, imagens, vídeos, entre outros. E quanto mais dados, melhor será o desempenho do modelo. É por este motivo que as empresas de tecnologia fazem uma verdadeira colheita de dados, sem pedir a permissão para os seus donos.
As técnicas para conseguir os conteúdos variam muito. Tudo é possível. Recentemente, vazou que a Meta chegou até mesmo a baixar livros pirateados para treinar sua IA. No entanto, uma das técnicas mais comum é o "web scraping", que consiste no uso de "crawlers", bots automatizados que acessam sites e coletam os conteúdos.
Jornais, revistas, artigos científicos, livros, portais, blogs, tudo que está online é alvo dos "crawlers". Essa estratégia é tão agressiva que está sobrecarregando os servidores da Wikipédia. A Fundação Wikimedia anunciou que essa coleta incessante tem puxado terabytes de informação e aumentado em 50% o uso de banda para download de conteúdo.
A resposta dos donos de conteúdos
Os donos de portais, no entanto, estão começando a reagir. E a resposta está vindo de muitas direções. Desde ações jurídicas, como o The New York Times que processou a OpenAI, como também com soluções técnicas.

German (DE)
English (US)
Spanish (ES)
French (FR)
Hindi (IN)
Italian (IT)
Portuguese (BR)
Russian (RU)
8 meses atrás
30

/https://i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2024/B/l/UfRfuuRc2e8RuumCQWuQ/tt-nubank-02.jpg)
/https://i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2025/z/F/9UAubTSMGRs5tsbhUknA/511fdez4wql.-ac-sl1000-.jpg)

:strip_icc()/i.s3.glbimg.com/v1/AUTH_59edd422c0c84a879bd37670ae4f538a/internal_photos/bs/2023/l/g/UvNZinRh2puy1SCdeg8w/cb1b14f2-970b-4f5c-a175-75a6c34ef729.jpg)










Comentários
Aproveite ao máximo as notícias fazendo login
Entrar Registro