FRAMEWORK BASEADO EM TRANSFORMER PARA DETECÇÃO E MITIGAÇÃO DE ATAQUES ADVERSARIAIS MULTI TURNOS EM MODELOS DE LINGUAGEM DE LARGA ESCALA
Ataques Adversariais, Classificação de Texto, Modelos de Linguagem de Grande Porte, Injeção de Prompt, Transformers.
A popularização no uso de Modelos de Linguagem de Grande Porte (LLM) trouxe consigo novas técnicas de ataques adversariais, entre eles, a técnica conhecida como prompt injection. Diversos estudos demonstraram a existência de vulnerabilidades e possibilidade de comprometimento de modelos através de ataques baseados no processamento de sua saída a partir dos dados de entrada. Neste estudo, propõe-se uma estrutura de defesa capaz de atuar como uma camada de segurança externa ao modelo de LLM, visando mitigar ataques adversariais baseados na manipulação de seus prompts. Tal estratégia é baseada na hipótese de funcionamento no contexto de caixa-preta. Para esse propósito, o framework propostoconsiste em uma arquitetura modular constituída de três módulos principais: o Gerenciador Contextual Multi turno (GIC), responsável por armazenar, organizar e manter o histórico dos diálogos para permitir a identificação de ataques fragmentados e progressivos ao longo de múltiplos turnos da conversa; um módulo de detecção, encarregado da interceptação e avaliação da malícia do prompt; e um módulo de reformulação, cuja função é eliminar os elementos maliciosos presentes na entrada do LLM. Durante a fase de detecção, o componente correspondente consiste em um modelo de classificação binária capaz dediscriminar a natureza da entrada, seja ela maliciosa ou benéfica. Para isso, foram testadas arquiteturas Transformers da família BERT (DeBERTa-base, RoBERTa-base e DistilRoBERTa) via técnicas de fine-tuning. O dataset utilizado consistiu na combinação de duas fontes distintas: Anthropic Red Team Dataset, capaz de fornecer exemplos de prompts maliciosos, e LMSYS Chatbot Arena IM Dataset, fornecedor de prompts benignos. Isso resultou em um dataset balanceado contendo 25.134 instâncias, tendo como atributos o prompt injetado e seu respectivo rótulo (malicioso ou não), sendo separados 70% dos dadospara treinamento e 30% para validação. Para avaliar o classificador, usamos métricas como matriz de confusão, acurácia, precisão, revocação, F1-Score e AUC-ROC. Até agora, os experimentos mostraram que o sistema de reconhecimento de prompts maliciosos, usando Transformers, atende às expectativas do projeto, com uma acurácia média de 90%. Já omódulo de reformulação de prompts, cabe ressaltar que este encontra-se atualmente em fase de desenvolvimento e concepção arquitetural, onde ainda estão sendo avaliadas as estratégias de suavização semântica e a estruturação do dataset voltado para o treinamento dos protótipos de reescrita semântica.