---
title: "Google enfrenta investigação do CADE por uso de dados em IA enquanto libera o Gemini Embedding 2"
author: "Lígia Lemos Maia"
date: "2026-04-24 08:00:00-03"
category: "Inteligência Artificial & Dados"
url: "http://desbugados.scale.press/portal/desbugados/post/2026/04/24/google-enfrenta-investigacao-do-cade-por-uso-de-dados-em-ia-enquanto-libera-o-gemini-embedding-2/md"
---

Em 23 de abril de 2026, o Conselho Administrativo de Defesa Econômica (CADE) decidiu por unanimidade reabrir uma investigação contra o Google por uso não autorizado de conteúdo jornalístico em suas ferramentas de inteligência artificial. O movimento ocorreu na mesma janela de tempo em que a gigante das buscas avançou sua infraestrutura técnica com a disponibilidade do Gemini Embedding 2 e ampliou a capacidade de seus agentes de pesquisa autônomos. De um lado, o Estado brasileiro questiona quem paga a conta do conhecimento humano extraído pelas máquinas. Do outro, a fronteira tecnológica cria assistentes virtuais que não apenas respondem perguntas, mas navegam pela rede de forma independente e consomem bancos de dados em frações de segundo.

## O paradoxo do bibliotecário digital

O escritor argentino Jorge Luis Borges imaginou a Biblioteca de Babel, um lugar que continha todos os livros possíveis, mas onde a informação era tão vasta que se tornava inútil sem um índice. A inteligência artificial assumiu o papel do bibliotecário definitivo. Contudo, até que ponto o bibliotecário pode se apropriar da autoria dos livros que organiza? Essa é a questão que domina os tribunais de tecnologia hoje. Quando a conselheira do CADE, Camila Cabral, justificou seu voto para investigar a empresa, ela apontou fatos concretos: a arquitetura da plataforma foca na retenção de atenção do usuário dentro do próprio buscador, utilizando a coleta massiva de dados alavancada pelo poder de mercado histórico do Google.

## Desbugando o Gemini Embedding 2 e a pesquisa autônoma

Para entender o problema legal, precisamos primeiro traduzir a ferramenta técnica que agrava a situação. Na engenharia de dados, um *embedding* é a tradução da linguagem humana para coordenadas matemáticas ou vetores. É a técnica que permite à máquina compreender que as palavras 'rei' e 'rainha' possuem uma relação espacial próxima em termos de significado. Modelos mais precisos, como os recém-anunciados pelo Google, permitem que agentes interpretem a web com uma destreza assustadora. A máquina lê, interpreta e sintetiza em tempo real. É por isso que [a recente API do Gemini Deep Research](https://desbugados.com.br/post/2025/12/14/google-libera-o-estagiario-de-pesquisa-perfeito-nova-api-do-gemini-deep-research-automatiza-buscas) causou tanto rebuliço: ela transforma o navegador passivo em um pesquisador ativo, faminto por textos de terceiros.

## A linha tênue entre referência e substituição

A defesa do Google argumenta que ferramentas como o AI Overviews são desenhadas para exibir links e que a empresa envia bilhões de cliques diários para os sites de origem. No entanto, o processo no CADE, que chegou a receber recomendação de arquivamento pela Superintendência-Geral por suposta falta de provas, ganhou tração no tribunal porque os conselheiros identificaram que o modelo de negócios da IA reduz a necessidade de navegação externa. Se a máquina já resumiu a notícia com base no trabalho de dezenas de repórteres, qual é o incentivo para o leitor clicar no link original? O mercado perde o tráfego que paga as contas. [A preocupação com a transparência sobre como a IA utiliza informações](https://desbugados.com.br/post/2025/11/22/pego-no-pulo-google-gemini-e-flagrado-usando-dados-pessoais-e-depois-mentindo-sobre-isso) atinge agora o cerne das leis antitruste.

## A sua caixa de ferramentas

O futuro da web passa pela renegociação forçada entre quem cria o dado e quem treina o modelo. Se você é um criador de conteúdo, desenvolvedor ou gestor de uma empresa baseada em informação, a inércia tem um custo alto. Sua caixa de ferramentas imediata exige adaptação técnica. Primeiro, revise a marcação do seu site; o uso rigoroso do protocolo *robots.txt* para bloquear rastreadores de IA específicos, como o Google-Extended, tornou-se uma defesa primária. Segundo, construa canais de distribuição direta, como newsletters ou comunidades fechadas, para não depender exclusivamente do tráfego orgânico de buscadores que agora respondem as dúvidas sem tirar o usuário da página. O CADE analisa sanções administrativas por infrações à ordem econômica, e o resultado desse inquérito indicará se o Brasil forçará um licenciamento pago para o uso de conteúdo ou se a extração continuará livre.