Retour au portfolio
Compétence 03 / 03
Préparation des données & Machine Learning

Préparation des données & Machine Learning

La préparation des données consiste à rendre un jeu de données fiable et exploitable avant son analyse ou son utilisation dans un modèle. Dans mes projets, je travaille sur le nettoyage, la transformation des variables, la gestion des valeurs manquantes et la préparation des données d'entraînement. Cette compétence se prolonge avec le machine learning, qui permet de tester plusieurs approches, d'évaluer leurs performances et d'interpréter les résultats obtenus.

  • Nettoyage des données : valeurs manquantes, doublons, formats et incohérences
  • Transformation des variables pour préparer l'analyse et l'entraînement des modèles
  • Entraînement et comparaison de plusieurs algorithmes de classification
  • Évaluation des performances avec validation croisée, AUC et taux d'erreur
Outils & stack
TalendPythonRPyTorchVBA
Aperçu 5 pages du rapport Data Mining 2 — résumé, matrice de corrélation, arbre CART, réseau de neurones et tableau comparatif des modèles
Explorez les repères
1
Résumé — 3 modèles benchmarkés
Cadrage du problème : prédire la détention d'une carte Visa Premier sur 1 063 clients via CART, Bayes naïf et réseau de neurones.
2
Matrice de corrélation
Cartographie des dépendances entre variables numériques — détection de blocs « solvabilité » (MOYRVL–QCREDL r=0,931) et « intensité d'usage » justifiant la sélection.
3
Arbre CART à 11 feuilles
Modèle final retenu par validation croisée + règle 1-SE (cp=0,01195). MOYRVL en racine, puis RELAT et DMVTPL — chaque feuille = une règle de ciblage commerciale.
4
Réseau de neurones RN5 — ROC
Architecture optimisée par validation interne (size & decay). AUC 0,8736 sur le test — capture les non-linéarités mais reste sous CART.
5
Comparaison des modèles
CART (AUC 0,9229) > RN5 (0,8736) > Bayes (0,8477). CART désigné meilleur compromis entre discrimination et lisibilité opérationnelle.
Projet phare

Visa Premier — Prédiction de détention bancaire

Data Analyst · Machine Learning

Ce projet porte sur la prédiction de la détention d'une carte Visa Premier à partir de données clients. Le travail a consisté à préparer le jeu de données, entraîner plusieurs modèles de classification et comparer leurs performances afin d'identifier l'approche la plus adaptée au problème étudié.

PythonPandasScikit-learnJupyter Notebook
  • Préparation du jeu de données avant modélisation : nettoyage, transformation et sélection des variables utiles
  • Entraînement et comparaison de plusieurs modèles, dont arbre de décision, modèle bayésien naïf et réseau de neurones
  • Évaluation des performances à partir de la validation croisée, de l'AUC et du taux d'erreur
Ouvrir dans un nouvel onglet
Voir toutes les compétences