Mais de meio milhão de linhas mostram filtro de ofensas embutido na plataforma
Anthropic – Um dump recente de 512 mil linhas da versão 2.1.88 do Claude Code revelou que o assistente emprega expressões regulares para vasculhar conversas em busca de palavrões, xingamentos e sinais de frustração, potencialmente ajustando suas respostas em tempo real.
- Em resumo: código vazado indica varredura automática por termos ofensivos como “wtf” e “piece of shit”.
Regex como detector de ânimos à flor da pele
A análise conduzida pelo engenheiro de IA Alex Kim mostra que o Claude Code utiliza listas extensas de regex para mapear insultos e abreviações depreciativas. Esse método, embora simples, ainda é largamente usado para moderação em redes sociais e em chatbots corporativos, segundo a MIT Technology Review.
“Funciona como um Ctrl + F avançado, varrendo a mensagem do usuário palavra por palavra, sem interpretar contexto”, destaca o pesquisador no relatório publicado no GitHub.
Por que rastrear xingamentos pode ser estratégico
Internamente, a Anthropic pode empregar o termômetro de linguagem ríspida para duas frentes: medir satisfação de usuários e calibrar respostas empáticas da IA quando a conversa esquenta. Grandes plataformas de atendimento, como Zendesk e Intercom, já recorrem a métricas de “sentimento negativo” para reduzir tempo de resolução de tickets.
Outro ponto curioso do vazamento foi a menção a um “Tamagotchi virtual” planejado para 1º de abril, sugerindo que parte do código também serve como área de experimentos ou easter eggs internos. Ainda assim, o incidente chama atenção para a segurança: 512 mil linhas em TypeScript expõem chaves de API, cálculo de tokens e rotinas de espera – suficiente para engenheiros de prompt entenderem a espinha dorsal do produto.
O que você acha? O monitoramento de palavrões melhora a experiência ou invade a privacidade? Para acompanhar outras análises sobre IA, visite nossa editoria de Inteligência Artificial.
Crédito da imagem: Divulgação / Canaltech