Cynthia Fonderson
15. Janvier 2023

Prévision de la fraude financière

Posté le 15. Janvier 2023  •  2 minutes  • 268 mots

La fraude coûte aux entreprises des bénéfices et la réputation de la marque. Dans certains cas, les pertes sont irréparables ou prennent des années à être récupérées. Par conséquent, il est crucial d’apprendre à détecter les fraudes dans les comptes fournisseurs pour continuer à produire en temps voulu.

Dans ce projet, j’ai utilisé des algorithmes de classification pour identifier et prédire les transactions financières frauduleuses lors d’une fraude à la carte de crédit.

Le jeu de données utilisé provient de l’utilisateur mlg-ulb de Kaggle, et il contient 284 807 transactions collectées sur une période de deux jours. Les informations sur les clients ont été anonymisées et normalisées. Le montant échangé dans chaque transaction a également été indiqué, ainsi qu’un indicateur d’activité frauduleuse.

Modélisation

L’ensemble de données étant fortement déséquilibré, j’ai choisi de considérer deux méthodes pour construire des modèles prédictifs très précis, à savoir le rééchantillonnage des données et Synthetic Minority Over-sampling Technique (SMOTE). En outre, quatre (4) algorithmes de classification ont été testés dans ce projet (Logistic Regression, KNearest Neighbors, Support Vector and Decision Tree Classifiers).

Après le rééchantillonnage et la technique SMOTE, tous les classificateurs ont obtenu une précision élevée (>90%), mais le classificateur à arbre de décision a surpassé les autres, avec une précision de 100%.

Résultats

Bien que le rééchantillonnage ait amélioré les performances des modèles de classification, avec une précision supérieure à 94%, le SMOTE n’a pas amélioré les performances des modèles. En effet, la précision et les scores f1 de la modélisation sur le jeu de données équilibré étaient inférieurs de 60 % à ceux du jeu de données déséquilibré.

Projet complet

Contact me / Contactez-moi

I work on everything data / J'aime tout ce qui concerne la science des données.