Carga y análisis de los 5000 datos de puntos
El agrupamiento es una tarea de aprendizaje no supervisado que consiste en agrupar objetos en grupos de gran similitud. A diferencia de las tareas supervisadas, en las que los datos están etiquetados, el agrupamiento puede utilizarse para dar sentido a datos no etiquetados. PySpark MLlib incluye el popular algoritmo k-medias de agrupamiento. En este ejercicio de 3 partes averiguarás cuántos grupos hay en un conjunto de datos que contiene 5000 filas y 2 columnas. Para ello, primero cargarás los datos en un RDD, analizarás el RDD en función del delimitador, ejecutarás el modelo KMeans, evaluarás el modelo y, por último, visualizarás los grupos.
En la primera parte, cargarás los datos en el RDD, analizarás el RDD en función del delimitador y convertirás el tipo de cadena de los datos en un número entero.
Recuerda que tienes sc
de SparkContext disponible en tu espacio de trabajo. También la variable file_path
(que es la ruta del archivo 5000_points.txt
) está disponible ya en tu espacio de trabajo.
Este ejercicio forma parte del curso
Fundamentos de big data con PySpark
Instrucciones de ejercicio
- Carga el conjunto de datos
5000_points
en un RDD llamadoclusterRDD
. - Transforma
clusterRDD
dividiendo las líneas en función de la tabulación ("\t"). - Transforma el RDD dividido para crear una lista de números enteros para las dos columnas.
- Confirma que haya 5000 filas en el conjunto de datos.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Load the dataset into an RDD
clusterRDD = sc.____(file_path)
# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))
# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])
# Count the number of rows in RDD
print("There are {} rows in the rdd_split_int dataset".format(____.____()))