Este ejercicio forma parte del curso
Empezaremos el curso definiendo qué es la ciencia de datos. Cubriremos el flujo de trabajo de la ciencia de datos y cómo se aplica la ciencia de datos a los problemas del mundo real. Terminaremos el capítulo aprendiendo sobre los diferentes roles del campo de la ciencia de datos.
Ejercicio actual
Ahora que entendemos el flujo de trabajo de la ciencia de datos, profundizaremos en el primer paso: la recopilación y el almacenamiento de datos. Aprenderemos sobre las distintas fuentes de datos que puedes utilizar, qué aspecto tienen esos datos, cómo almacenarlos una vez recopilados y cómo un pipeline de datos puede automatizar el proceso.
La preparación de los datos es fundamental: los científicos de datos pasan el 80 % de su tiempo limpiando y manipulando datos, y solo el 20 % analizándolos realmente. Este capítulo te mostrará cómo diagnosticar problemas en tus datos y tratar los valores que faltan y los valores atípicos. A continuación, aprenderás sobre visualización, otra herramienta esencial tanto para explorar tus datos como para transmitir tus conclusiones.
En este capítulo final, ¡hablaremos de experimentación y predicción! Empezaremos con los experimentos, cubriremos las pruebas A/B y pasaremos a la previsión de series temporales, donde aprenderemos a predecir acontecimientos futuros. Por último, terminaremos con el machine learning, examinando el aprendizaje supervisado y la agrupamiento.