Controleren op klassenonevenwicht
De Kaggle-enquête van 2022 bevat informatie over de achtergronden van data scientists, hun favoriete technologieën en technieken. Door het aantal en het profiel van de respondenten wordt dit gezien als een accuraat beeld van wat er speelt in data science.
Na het bekijken van de functietitels en het categoriseren zodat deze aansluiten op onze salaries DataFrame, zie je de volgende verdeling van functiecategorieën in de Kaggle-enquête:
| Job Category | Relative Frequency |
|---|---|
| Data Science | 0.281236 |
| Data Analytics | 0.224231 |
| Other | 0.214609 |
| Managerial | 0.121300 |
| Machine Learning | 0.083248 |
| Data Engineering | 0.075375 |
Als je de resultaten van de Kaggle-enquête als de populatie ziet, is jouw taak om te bepalen of de salaries DataFrame representatief is door de relatieve frequentie van functiecategorieën te vergelijken.
Deze oefening maakt deel uit van de cursus
Exploratory Data Analysis in Python
Oefeninstructies
- Print de relatieve frequentie van de kolom
"Job_Category"uit desalariesDataFrame.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the relative frequency of Job_Category
print(____)