Comprobación del desequilibrio de clases
La Encuesta Kaggle 2022 recoge información sobre la formación de los científicos de datos, sus tecnologías y técnicas preferidas. Se considera una visión precisa de lo que está ocurriendo en la ciencia de datos, basada en el volumen y el perfil de los que responden.
Una vez examinados los títulos de los puestos y categorizados para alinearlos con nuestro salaries
DataFrame, puedes ver la siguiente proporción de categorías laborales en la encuesta Kaggle:
Categoría laboral | Frecuencia relativa |
---|---|
Ciencia de datos | 0,281236 |
Análisis de datos | 0,224231 |
Otros | 0,214609 |
Dirección | 0,121300 |
Machine learning | 0,083248 |
Ingeniería de datos | 0,075375 |
Pensando en los resultados de la encuesta Kaggle como población, tu tarea consiste en averiguar si el DataFrame salaries
es representativo comparando la frecuencia relativa de las categorías laborales.
Este ejercicio forma parte del curso
Análisis exploratorio de datos en Python
Instrucciones de ejercicio
- Imprime la frecuencia relativa de la columna
"Job_Category"
desalaries
DataFrame.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Print the relative frequency of Job_Category
print(____)