Vérifier le déséquilibre des classes
L' enquête Kaggle 2022 permet de recueillir des informations sur les antécédents, les technologies et les techniques préférées des data scientists. Elle est considérée comme une vision précise de ce qui se passe dans le domaine de la science des données, sur la base du volume et du profil des répondants.
Après avoir examiné les titres des emplois et les avoir catégorisés pour les aligner sur notre DataFrame salaries
, vous pouvez constater la proportion suivante de catégories d'emplois dans l'enquête Kaggle :
Catégorie d'emploi | Fréquence relative |
---|---|
Science des données | 0,281236 |
Analyse des données | 0,224231 |
Autre | 0,214609 |
Gestion | 0,121300 |
Machine learning | 0,083248 |
Ingénierie des données | 0,075375 |
En considérant les résultats de l'enquête Kaggle comme la population, votre tâche consiste à déterminer si le DataFrame salaries
est représentatif en comparant la fréquence relative des catégories d'emploi.
Cet exercice fait partie du cours
Analyse de données exploratoires en Python
Instructions
- Affichez la fréquence relative de la colonne
"Job_Category"
à partir du DataFramesalaries
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Print the relative frequency of Job_Category
print(____)