Une étude de marché
Projet proposé par OpenClassrooms dans le cadre de leur formation Data Analyst. Ce projet vise à analyser le marché international de l'agroalimentaire grâce à des méthodes de clustering et d'analyse statistique.
- 📊 Préparation et nettoyage des données avec Pandas
- 📈 Clustering des pays avec CAH et K-Means
- 📑 Analyse en Composantes Principales (ACP)
Détails du projet
Contexte 🐣
Dans le cadre de ce projet, j'ai été amené à réaliser une analyse de clustering pour l'entreprise La Poule qui Chante afin d'identifier les pays cibles pour son expansion internationale. J'ai utilisé un ensemble de données comportant des informations sur les pays, telles que la population, la consommation de volaille, le revenu moyen par habitant, et bien d'autres indicateurs économiques et politiques.
Objectifs 🎯
- Identifier des clusters de pays pour prioriser l'expansion internationale.
- Utiliser des méthodes de réduction de dimensionnalité et de clustering, telles que l'ACP, les k-means et la CAH.
- Fournir des recommandations stratégiques pour l'entreprise.
Analyse de Données 📊
Les données utilisées dans cette analyse comprenaient les éléments suivants :
- population_milliers_hab : Population du pays en milliers d’habitants.
- evolution_population_pct : Taux d’évolution de la population en pourcentage.
- consommation_volaille_pct : Pourcentage de la consommation de volaille dans l’alimentation.
- tdi_pct : Taux de dépendance à l’importation (TDI) en pourcentage.
- disponibilite_kg_p_an : Quantité de volaille disponible par habitant et par an en kg.
- taux_croissance_pct : Taux de croissance économique en pourcentage.
- revenu_par_habitant_usd : Revenu moyen par habitant en dollars US.
- indice_stabilite_politique : Indice mesurant la stabilité politique (positif = stable, négatif = instable).
Analyse en Composantes Principales (ACP) 🔍
J'ai utilisé une ACP pour réduire la dimensionnalité des données et identifier les axes principaux. L'axe 1 représente la disponibilité alimentaire, la stabilité politique, le revenu par habitant et la consommation de volaille. L'axe 2 est lié à la croissance économique, et l'axe 3 est associé à la taille de la population et au taux de dépendance à l’importation. Les projections sur les axes 1 et 3 ont été particulièrement pertinentes pour notre analyse.
Clustering K-means 🚀
J'ai appliqué la méthode des k-means pour identifier les groupes de pays. Les clusters 4 et 5 des K-means se sont révélés être les plus intéressants :
- Faible consommation de volaille.
- Faible disponibilité de volaille.
- Bonne stabilité politique.
- Croissance économique positive.
- Populations très élevées.
Clustering Hiérarchique (CAH) 🌐
En utilisant la méthode de la CAH, j'ai trouvé que le cluster 2 était le plus équilibré, avec une consommation de volaille élevée mais une disponibilité encore raisonnable. Ce cluster présente également une bonne stabilité politique et une croissance économique correcte. Le cluster 3 est une alternative, bien que la consommation y soit légèrement plus faible.
Recommandations Stratégiques 🔑
En affinant les résultats des deux méthodes de clustering, j'ai observé que les clusters 3 (CAH) et 5 (k-means) se chevauchaient. Cependant, le critère décisif pour l'implantation de l'entreprise reste la distance géographique par rapport à la France. J'ai donc sélectionné les pays les plus proches de la France comme priorité pour l'expansion.
Les 10 pays les plus proches de la France 🌍
Voici la liste des 10 pays les plus proches de la France, en termes de distance géographique :
- Allemagne
- Luxembourg
- Suisse
- Belgique
- Pays-Bas
- Autriche
- Royaume-Uni
- Irlande
- Danemark
- Suède
Conclusion Finale 📈
En conclusion, les pays des clusters 4 et 5 sont les plus prometteurs pour l'implantation de La Poule qui Chante 🚀. Après avoir pris en compte la distance géographique, je recommande de prioriser ces pays pour l'expansion, en particulier ceux proches de la France. Les autres pays peuvent également être explorés dans un deuxième temps.