
Os modelos Frontier AI não estão mais apenas ajudando os engenheiros a escrever códigos com mais rapidez ou a automatizar tarefas rotineiras. Eles são cada vez mais capazes de detectar seus erros.
A Anthropic afirma que seu mais novo modelo, Claude Opus 4.6, é excelente na descoberta dos tipos de fraquezas de software que sustentam grandes ataques cibernéticos. De acordo com um relatório da Frontier Red Team da empresadurante os testes, o Opus 4.6 identificou mais de 500 vulnerabilidades de dia zero anteriormente desconhecidas – falhas desconhecidas pelas pessoas que escreveram o software ou pela parte responsável por corrigi-lo ou corrigi-lo – em bibliotecas de software de código aberto. Notavelmente, o modelo não foi explicitamente instruído a procurar falhas de segurança, mas sim detectou e sinalizou os problemas por conta própria.
A Anthropic afirma que “os resultados mostram que os modelos de linguagem podem agregar valor real às ferramentas de descoberta existentes”, mas reconheceu que os recursos também são inerentemente de “uso duplo”.
Os mesmos recursos que ajudam as empresas a encontrar e corrigir falhas de segurança podem facilmente ser usados como armas pelos invasores para descobrir e explorar as vulnerabilidades antes que os defensores possam encontrá-las. Um modelo de IA que possa identificar autonomamente explorações de dia zero em software amplamente utilizado poderia acelerar ambos os lados da corrida armamentista de segurança cibernética – potencialmente transferindo a vantagem para quem agir mais rápido.
Representantes da Antropic não responderam imediatamente a um pedido de comentários sobre os riscos de segurança cibernética. No entanto, Logan Graham, chefe da equipe vermelha de fronteira da Anthropic, contado Eixos que a empresa vê a segurança cibernética como uma competição entre o ataque e a defesa e quer garantir que os defensores tenham acesso a essas ferramentas primeiro.
Para gerenciar parte do risco, a Anthropic está implantando novos sistemas de detecção que monitoram a atividade interna de Claude à medida que ela gera respostas, usando o que a empresa chama de “sondas” para sinalizar possíveis usos indevidos em tempo real. A empresa afirma que também está expandindo seus recursos de fiscalização, incluindo a capacidade de bloquear tráfego identificado como malicioso. A Anthropic reconhece que esta abordagem criará atritos para pesquisadores de segurança legítimos e trabalhos defensivos, e se comprometeu a colaborar com a comunidade de segurança para enfrentar esses desafios. As salvaguardas, afirma a empresa, representam “um avanço significativo” na detecção e resposta rápida ao uso indevido, embora o trabalho esteja em andamento.
A OpenAI, por outro lado, adotou uma abordagem mais cautelosa com seu novo modelo de codificação, GPT-5.3-Codex, também lançado na quinta-feira. A empresa enfatizou que, embora o modelo tenha aumentado o desempenho da codificação, sérios riscos de segurança cibernética acompanham esses ganhos. O CEO da OpenAI, Sam Altman, disse em um post no X que o GPT-5.3-Codex é o primeiro modelo a ser classificado como “alto” para risco de segurança cibernética na estrutura de preparação interna da empresa.
Como resultado, a OpenAI está lançando o GPT-5.3-Codex com controles mais rígidos. Embora o modelo esteja disponível para usuários pagos do ChatGPT para tarefas diárias de desenvolvimento, a empresa está atrasando o acesso total à API e restringindo casos de uso de alto risco que poderiam permitir a automação em escala. Aplicações mais sensíveis estão sendo protegidas por proteções adicionais, incluindo um programa de acesso confiável para profissionais de segurança avaliados. OpenAI disse em um acompanhamento de postagem no blogg o lançamento de que ainda não tem “evidências definitivas” de que o modelo pode automatizar totalmente os ataques cibernéticos, mas está a adoptar uma abordagem preventiva, implementando o que descreveu como a sua pilha de segurança cibernética mais abrangente até à data, incluindo monitorização melhorada, formação em segurança e mecanismos de aplicação informados por inteligência de ameaças.
Esta história foi originalmente apresentada em Fortune.com
