Portal de Programas de Pós-Graduação (UFERSA)

SIGAA - Sistema Integrado de Gestão de Atividades Acadêmicas

PGCC PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO PROGRAMAS DE PÓS-GRADUACAO - DC Telefone/Ramal: Não informado E-mail: ppgcc@ufersa.edu.br https://ppgcc.ufersa.edu.br/

Banca de QUALIFICAÇÃO: TALYSSON EMANOEL MEDEIROS DA COSTA

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE : TALYSSON EMANOEL MEDEIROS DA COSTA
DATA : 29/05/2026
HORA: 09:00
LOCAL: Sala de Reuniões - Prédio da Pós - Computação - UERN
TÍTULO: FRAMEWORK BASEADO EM TRANSFORMER PARA DETECÇÃO E MITIGAÇÃO DE ATAQUES ADVERSARIAIS MULTI TURNOS EM MODELOS DE LINGUAGEM DE LARGA ESCALA

PALAVRAS-CHAVES:

Ataques Adversariais, Classificação de Texto, Modelos de Linguagem de Grande Porte, Injeção de Prompt, Transformers.

PÁGINAS: 93
RESUMO:

A popularização no uso de Modelos de Linguagem de Grande Porte (LLM) trouxe consigo novas técnicas de ataques adversariais, entre eles, a técnica conhecida como prompt injection. Diversos estudos demonstraram a existência de vulnerabilidades e possibilidade de comprometimento de modelos através de ataques baseados no processamento de sua saída a partir dos dados de entrada. Neste estudo, propõe-se uma estrutura de defesa capaz de atuar como uma camada de segurança externa ao modelo de LLM, visando mitigar ataques adversariais baseados na manipulação de seus prompts. Tal estratégia é baseada na hipótese de funcionamento no contexto de caixa-preta. Para esse propósito, o framework propostoconsiste em uma arquitetura modular constituída de três módulos principais: o Gerenciador Contextual Multi turno (GIC), responsável por armazenar, organizar e manter o histórico dos diálogos para permitir a identificação de ataques fragmentados e progressivos ao longo de múltiplos turnos da conversa; um módulo de detecção, encarregado da interceptação e avaliação da malícia do prompt; e um módulo de reformulação, cuja função é eliminar os elementos maliciosos presentes na entrada do LLM. Durante a fase de detecção, o componente correspondente consiste em um modelo de classificação binária capaz dediscriminar a natureza da entrada, seja ela maliciosa ou benéfica. Para isso, foram testadas arquiteturas Transformers da família BERT (DeBERTa-base, RoBERTa-base e DistilRoBERTa) via técnicas de fine-tuning. O dataset utilizado consistiu na combinação de duas fontes distintas: Anthropic Red Team Dataset, capaz de fornecer exemplos de prompts maliciosos, e LMSYS Chatbot Arena IM Dataset, fornecedor de prompts benignos. Isso resultou em um dataset balanceado contendo 25.134 instâncias, tendo como atributos o prompt injetado e seu respectivo rótulo (malicioso ou não), sendo separados 70% dos dadospara treinamento e 30% para validação. Para avaliar o classificador, usamos métricas como matriz de confusão, acurácia, precisão, revocação, F1-Score e AUC-ROC. Até agora, os experimentos mostraram que o sistema de reconhecimento de prompts maliciosos, usando Transformers, atende às expectativas do projeto, com uma acurácia média de 90%. Já omódulo de reformulação de prompts, cabe ressaltar que este encontra-se atualmente em fase de desenvolvimento e concepção arquitetural, onde ainda estão sendo avaliadas as estratégias de suavização semântica e a estruturação do dataset voltado para o treinamento dos protótipos de reescrita semântica.

MEMBROS DA BANCA:
Presidente - ***.867.483-** - ISAAC DE LIMA OLIVEIRA FILHO - UERN
Interna - 1521615 - ANGELICA FELIX DE CASTRO
Externo ao Programa - 1631848 - ARAKEN DE MEDEIROS SANTOS - y UFERSA

Notícia cadastrada em: 25/05/2026 14:53