Inteligência Artificial

Google libera agentes de IA capazes de controlar a interface do computador

O Google integrou a função 'Computer use' ao Gemini 3.5 Flash, permitindo que a IA interaja com interfaces, navegadores e sistemas de forma autônoma para automatizar fluxos de trabalho.

Por Orqueza 25 de junho de 2026 3 min de leitura

Google libera agentes de IA capazes de controlar a interface do computador

0:00 / 0:00

A nova fronteira da automação: IA que opera telas

O Google anunciou a integração da função “Computer use” ao modelo Gemini 3.5 Flash. Diferente dos modelos anteriores, que se limitavam a processar texto ou código, esta nova capacidade permite que a inteligência artificial visualize a tela do computador e execute ações como se fosse um usuário real. A ferramenta já está disponível via API e na plataforma Gemini Enterprise Agent.

A lógica por trás do sistema é um ciclo contínuo: a IA captura a imagem da tela, interpreta os elementos visuais, decide a ação necessária — como clicar em botões, preencher formulários ou rolar páginas — e processa o resultado da nova tela após o comando. Isso permite a execução de fluxos de trabalho complexos que antes exigiam intervenção manual constante.

O que muda na prática operacional

Para profissionais de tecnologia e operações, essa mudança representa um salto na automação de tarefas que não possuem integração nativa (API). Em vez de depender de integrações complexas entre sistemas legados ou ferramentas isoladas, a IA pode agora navegar por interfaces gráficas de qualquer software.

Automação de processos: Preenchimento de formulários e navegação em sistemas internos ou legados.
Testes de software: Execução de cenários de teste diretamente na interface do usuário (UI).
Análise de dados: Extração e consolidação de informações distribuídas em diferentes aplicações.

Como discutido em Agentes de IA e o futuro da operação: o que muda com a visão do Google, a capacidade de interagir com o ambiente digital é o próximo passo para reduzir o atrito em tarefas repetitivas. Se você ainda lida com fluxos manuais, plataformas como o Orqueza ajudam a centralizar a operação, mas a nova camada do Gemini promete otimizar o que ainda precisa de interface manual.

Segurança e limitações

Apesar da capacidade autônoma, o Google reforça que o sistema possui limitações em interfaces dinâmicas, CAPTCHAs e pop-ups inesperados. Para mitigar riscos, foram implementados mecanismos de segurança, como a necessidade de confirmação humana para ações sensíveis e a interrupção automática caso o sistema detecte manipulação maliciosa. Além disso, a empresa aplicou treinamento adversário para prevenir injeções de prompts que poderiam induzir a IA a executar comandos não autorizados.

O cenário atual de automação exige atenção aos custos e à infraestrutura, conforme exploramos em Custos com IA: como o novo cenário de infraestrutura de dados muda a operação. A tecnologia de agentes é uma ferramenta poderosa, mas deve ser implementada com camadas de governança adequadas.

Para quem deseja testar, o Google disponibilizou um ambiente de demonstração no Browserbase, permitindo experimentar a interação da IA em cenários controlados antes de integrar a API em fluxos de produção.

Fonte: canaltech.com.br