Préparation des données & Machine Learning

La préparation des données consiste à rendre un jeu de données fiable et exploitable avant son analyse ou son utilisation dans un modèle. Dans mes projets, je travaille sur le nettoyage, la transformation des variables, la gestion des valeurs manquantes et la préparation des données d'entraînement. Cette compétence se prolonge avec le machine learning, qui permet de tester plusieurs approches, d'évaluer leurs performances et d'interpréter les résultats obtenus.

Nettoyage des données : valeurs manquantes, doublons, formats et incohérences
Transformation des variables pour préparer l'analyse et l'entraînement des modèles
Entraînement et comparaison de plusieurs algorithmes de classification
Évaluation des performances avec validation croisée, AUC et taux d'erreur

Outils & stack

TalendPythonRPyTorchVBA

Aperçu 5 pages du rapport Data Mining 2 — résumé, matrice de corrélation, arbre CART, réseau de neurones et tableau comparatif des modèles

Explorez les repères

Résumé — 3 modèles benchmarkés

Cadrage du problème : prédire la détention d'une carte Visa Premier sur 1 063 clients via CART, Bayes naïf et réseau de neurones.

Matrice de corrélation

Cartographie des dépendances entre variables numériques — détection de blocs « solvabilité » (MOYRVL–QCREDL r=0,931) et « intensité d'usage » justifiant la sélection.

Arbre CART à 11 feuilles

Modèle final retenu par validation croisée + règle 1-SE (cp=0,01195). MOYRVL en racine, puis RELAT et DMVTPL — chaque feuille = une règle de ciblage commerciale.

Réseau de neurones RN5 — ROC

Architecture optimisée par validation interne (size & decay). AUC 0,8736 sur le test — capture les non-linéarités mais reste sous CART.

Comparaison des modèles

CART (AUC 0,9229) > RN5 (0,8736) > Bayes (0,8477). CART désigné meilleur compromis entre discrimination et lisibilité opérationnelle.

Projet phare

Visa Premier — Prédiction de détention bancaire

Data Analyst · Machine Learning

Ce projet porte sur la prédiction de la détention d'une carte Visa Premier à partir de données clients. Le travail a consisté à préparer le jeu de données, entraîner plusieurs modèles de classification et comparer leurs performances afin d'identifier l'approche la plus adaptée au problème étudié.

PythonPandasScikit-learnJupyter Notebook

Préparation du jeu de données avant modélisation : nettoyage, transformation et sélection des variables utiles
Entraînement et comparaison de plusieurs modèles, dont arbre de décision, modèle bayésien naïf et réseau de neurones
Évaluation des performances à partir de la validation croisée, de l'AUC et du taux d'erreur

Ouvrir dans un nouvel onglet