Falha no ChatGPT expõe riscos de segurança em fluxos de trabalho com IA
Pesquisadores apontam que prompts simples permitem contornar filtros de segurança do ChatGPT, gerando conteúdo violento. Entenda como auditar o uso de IA na sua operação.
O alerta de segurança: quando a IA generativa falha
A segurança em ferramentas de inteligência artificial voltou ao centro do debate após pesquisadores da Mindgard demonstrarem uma falha crítica no ChatGPT. O sistema, que deveria possuir filtros rígidos contra conteúdos sensíveis, revelou ser suscetível a prompts relativamente simples que burlam suas barreiras de segurança, permitindo a geração de imagens violentas e sexualmente explícitas.
Para quem integra IA em processos de automação, como times de produto ou agências, esse caso serve como um lembrete prático: a confiança cega em modelos de linguagem pode trazer riscos significativos de marca e conformidade. A falha, batizada de repetição de prompt (RE2), ocorre quando o sistema é induzido a interpretar comandos enganosos, como a suposta restauração de um arquivo inexistente, para contornar suas restrições de moderação.
Como a falha foi explorada na prática
O teste, conduzido pelo pesquisador Jim Nightingale, utilizou variações de linguagem e comandos repetidos para forçar o modelo a ignorar suas diretrizes de segurança. Em alguns casos, os pesquisadores chegaram a instruir a IA a não julgar o conteúdo, mesmo que ele fosse explícito, ou a fingir que uma imagem já havia sido previamente aprovada.
Embora a OpenAI tenha afirmado que vem ajustando seus sistemas e que o problema específico foi corrigido em junho de 2026, a Mindgard relatou que novos testes realizados dias depois ainda conseguiram reproduzir comportamentos sensíveis com pequenas alterações nos comandos. Isso demonstra que a moderação de IA ainda enfrenta um desafio constante contra a manipulação de prompts.
O impacto na sua operação e governança de dados
Para profissionais que dependem de IA no dia a dia, a lição é clara: a IA não é infalível. Quando você utiliza ferramentas generativas para criar assets, banners ou textos, existe uma camada de responsabilidade que recai sobre quem opera o sistema. A presença de conteúdos indesejados no treinamento dos modelos — baseados em volumes massivos de dados da internet — significa que, eventualmente, o sistema pode apresentar comportamentos inesperados.
- Auditoria de fluxos: Se sua operação utiliza agentes de IA, considere revisar periodicamente as saídas geradas, especialmente em fluxos automáticos.
- Gestão de riscos: Avalie a exposição da sua marca. Depender de ferramentas de terceiros para entregas críticas exige que você tenha um plano de contingência para falhas de moderação.
- Conformidade: O uso dessas ferramentas em ambientes corporativos deve estar alinhado com políticas claras de governança, evitando que conteúdos gerados por IA comprometam sua reputação.
Em um cenário onde a IA saiu do hype e se tornou essencial, a maturidade na gestão dessas ferramentas é o que separa uma operação resiliente de uma exposta a riscos desnecessários. Se você ainda gerencia seus processos em planilhas dispersas, plataformas como o Orqueza ajudam a centralizar sua operação, trazendo mais controle e governança para o fluxo de trabalho da sua equipe.
Fonte: canaltech.com.br
Cansado de planilhas e ferramentas soltas?
Centralize clientes, projetos, CRM, financeiro e equipe em uma só plataforma. Comece grátis em 2 minutos, sem cartão.
Criar conta grátis →