Prévision de l'attrition des clients pour une société de télécommunications
Posté le 15. Novembre 2022 • 3 minutes • 548 mots
Les fournisseurs de services de différents secteurs d’activité ont recours à l’analyse de l’attrition de la clientèle, car le coût de la fidélisation d’un client existant est bien moindre que celui de l’acquisition d’un nouveau client. Dans ce projet, j’applique des algorithmes d’apprentissage automatique pour prédire le taux d’attrition des clients d’une entreprise de télécommunications en fonction de plusieurs facteurs, notamment le taux de tenue, le sexe et les méthodes de paiement.
Analyse exploratoire des données
L’ensemble de données utilisé dans ce projet provient de Kaggle, et les descriptions des colonnes sont les suivantes :
Nom | Description |
---|---|
State | Code de l’État américain (chaîne de caractères) |
Account length | Durée de vie du compte en jours (nombre entier) |
Area code | Indicatif régional américain (nombre entier) |
International plan | Le client a-t-il un plan d’abonnement international (chaîne de caractères) |
Voice mail plan | Le client a-t-il un plan d’abonnement à la messagerie vocale (chaîne de caractères) |
No. vmail messages | Nombre de messages vocaux sur le plan (nombre entier) |
Total day minutes | Nombre total de minutes utilisées pendant la journée (décimale) |
Total day calls | Nombre total d’appels effectués pendant la journée (nombre entier) |
Total day charge: | Charge totale accumulée pendant la journée (décimale) |
Total eve minutes | Nombre total de minutes utilisées dans la soirée (décimale) |
Total eve calls | Nombre total d’appels passés dans la soirée (integer) |
Total eve charge | Charge totale accumulée dans la soirée (décimale) |
Total night minutes | Nombre total de minutes utilisées pendant la nuit (décimale) |
Total night calls | Nombre total d’appels effectués la nuit (nombre entier) |
Total night charge | Charge totale accumulée à la nuit (décimale) |
Total intl minutes | Nombre total de minutes internationales utilisées (décimale) |
Total intl calls | Nombre total d’appels effectués (nombre entier) |
Total intl charge | Total des charges dues aux transactions internationales (décimale) |
CS calls | Nombre d’appels au service clientèle de la part de l’utilisateur |
Churn | Métrique de retension du client (bool) |
Après avoir vérifié la qualité des données et l’ingénierie des fonctionnalités, j’ai exploré les relations pertinentes dans l’ensemble de données. Par exemple, la relation entre le taux de résiliation et les frais de jour et de nuit.
Insight: En général, les clients qui se sont désabonnés avaient des frais quotidiens plus élevés que les clients qui ont été conservés, mais la distribution de l’attrition était similaire lorsque l’on compare les frais de nuit.
Prédire la perte de clients à l’aide d’algorithmes de classification
Une fois que j’ai acquis une compréhension plus approfondie de l’ensemble de données, j’ai entraîné et évalué cinq algorithmes de classification pour prédire la perte de clients, dont les suivants
- Dummy Classifier
- Logistic Regression
- Support Vector Machine Classifier
- Random Forest Classifier
- Naïve Bayes Classifier
Pour visualiser la performance des cinq modèles formés dans ce projet, j’ai utilisé des courbes ROC. Les classificateurs Random Forest et Naïve Bayes sont plus performants que les autres algorithmes pour prédire le taux de désabonnement, avec des précisions de 90 % et 82 %, respectivement.
Enfin, j’ai essayé d’optimiser le classificateur Random Forest en réglant ses hyperparamètres et j’ai augmenté sa précision de prédiction à 99%. Selon ce modèle, les facteurs les plus importants qui influencent l’attrition des clients dans cette entreprise sont les frais payés, le nombre d’appels au service clientèle, la souscription à un plan international et les services (minutes, appels) pendant la journée.