Carga y análisis de los 5000 datos de puntos

El agrupamiento es una tarea de aprendizaje no supervisado que consiste en agrupar objetos en grupos de gran similitud. A diferencia de las tareas supervisadas, en las que los datos están etiquetados, el agrupamiento puede utilizarse para dar sentido a datos no etiquetados. PySpark MLlib incluye el popular algoritmo k-medias de agrupamiento. En este ejercicio de 3 partes averiguarás cuántos grupos hay en un conjunto de datos que contiene 5000 filas y 2 columnas. Para ello, primero cargarás los datos en un RDD, analizarás el RDD en función del delimitador, ejecutarás el modelo KMeans, evaluarás el modelo y, por último, visualizarás los grupos.

En la primera parte, cargarás los datos en el RDD, analizarás el RDD en función del delimitador y convertirás el tipo de cadena de los datos en un número entero.

Recuerda que tienes sc de SparkContext disponible en tu espacio de trabajo. También la variable file_path (que es la ruta del archivo 5000_points.txt) está disponible ya en tu espacio de trabajo.

Este ejercicio forma parte del curso

Fundamentos de big data con PySpark

Ver curso

Instrucciones del ejercicio

Carga el conjunto de datos 5000_points en un RDD llamado clusterRDD.
Transforma clusterRDD dividiendo las líneas en función de la tabulación ("\t").
Transforma el RDD dividido para crear una lista de números enteros para las dos columnas.
Confirma que haya 5000 filas en el conjunto de datos.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Load the dataset into an RDD
clusterRDD = sc.____(file_path)

# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))

# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])

# Count the number of rows in RDD 
print("There are {} rows in the rdd_split_int dataset".format(____.____()))

Editar y ejecutar código