Um estudo empírico sobre detecção automática de outliers no contexto de classificação de dados
Outliers; Detecção de Outliers; Classificação; Metodologia.
Outliers são objetos que se desviam consideravelmente dos demais em relação a alguma medida, e promove grande influência na análise dos dados. Essa influência pode induzir uma análise equívoca dos dados, neste caso os outliers constituem dados que precisam ser removidos. Para algumas aplicações, o outlier pode representar alguma informação valiosa, tratando-se de algum tipo de fraude, intrusão em sistemas, anomalias em redes de computadores, falhas mecânicas e condição clinica crítica. Para todo caso, os outliersprecisam ser identificados, independente de seu tratamento. A literatura fornece diversas técnicas para detecção de outliers, cada uma com suas características e especificidades, elas foram aplicadas em diversos contextos. Precisar qual técnica tem melhor desempenho para determinado domínio de dados, constitui um desafio ainda pouco explorado na literatura. Diante disso, é possível mensurar a performance de técnicas, adaptando o problema de detecção de outlier para o problema de classificação. A proposta deste trabalho é apresentar uma nova metodologia que permita comparar técnicas de detecção de outliers uniformemente, com resultados quantitativos que estejam sujeitos a uma análise estatística. As técnicas são aplicadas no pré-processamento dos dados, onde seu desempenho é mensurado analisando o efeito desta aplicação na indução de classificadores. As métricas de avaliação de classificadores funcionam como indicadores de desempenho das técnicas. De acordo com os resultados pré-eliminares dos experimentos realizados, foi possível confirmar a validade da metodologia e sua efetividade na comparação de técnicas de detecção de outliers para diferentes domínios. O desenvolvimento dessa metodologia, vem possibilitar a elaboração e implementação de estratégias para a detecção automática de outliers, no qual a melhor técnica para determinada situação seja aplicada.