Modelo multinível e o efeito empresa para a detecção de fraudes: uma comparação com modelos Logístico e XGBoost
Repositório criado para armazenar os códigos do Trabalho de Conclusão de Curso do MBA de Data Science e Analytics da USP & ESALQ
Aluno: Samuel Haddad Simões Machado
Prof.: Dr. Francisco Lledo dos Santos
O combate às fraudes no setor financeiro apresenta-se como um grande desafio para as instituições bancárias. Sob a hipótese de que o contexto de cada companhia é relevante para detecção dessas infrações e consequentemente para a modelagem de um algoritmo de prevenção, este trabalho propôs-se a construir uma abordagem multinível que considera tais relações na sua formulação, a fim de compará-lo com outros modelos e técnicas tradicionalmente implementados no mercado. Para tal, foram considerados 26.434 processos de abertura de contas, em 39 organizações e desenvolvidos três modelos: Multinível, XGBoost e Regressão Logística Binária. Dentre os resultados obtidos, observou-se um melhor desempenho do modelo Multinível para as métricas AUC ROC e “log loss”, para um nível de confiança de 95%, demonstrando a capacidade do modelo em capturar os efeitos aleatórios dos agrupamentos e, portanto, uma alternativa viável ao problema proposto.
Palavras-chave: Modelagem, Multinível; XGBoost; Regressão Logística; Fraude.
Combating fraud in the financial sector is a big challenge for banking institutions. From the hypothesis that the context of each company is relevant for these infractions’ detection and for the modeling of a prevention algorithm, this work proposed to build a multilevel approach that considers such relationships to compare them with other models and techniques traditionally implemented in the market. To this end, three models were developed from a database with 26,434 account opening processes in 39 organizations: Multilevel, XGBoost, and Binary Logistic Regression. Among the results obtained, the multilevel model presented a superior result in the comparative AUC ROC (for a confidence level of 95%), demonstrating the potential to capture the random effects of clusters.
Keywords: Multilevel; Mixed Modeling; Logistic Regression; XGBoost; Fraud.