Caricamento e parsing dei dati con 5000 punti

Il clustering è un'attività di apprendimento non supervisionato che consiste nel raggruppare oggetti in cluster ad alta somiglianza. A differenza dei compiti supervisionati, dove i dati sono etichettati, il clustering può essere usato per dare senso a dati non etichettati. PySpark MLlib include il popolare algoritmo K-means per il clustering. In questo esercizio in 3 parti, scoprirai quanti cluster ci sono in un insieme di dati con 5000 righe e 2 colonne. Per farlo, prima caricherai i dati in un RDD, eseguirai il parsing dell'RDD in base al delimitatore, lancerai il modello KMeans, valuterai il modello e infine visualizzerai i cluster.

Nella prima parte, caricherai i dati in un RDD, farai il parsing dell'RDD in base al delimitatore e convertirai il tipo stringa dei dati in interi.

Ricorda che hai uno SparkContext sc disponibile nel tuo workspace. Anche la variabile file_path (il percorso al file 5000_points.txt) è già disponibile nel tuo workspace.

Questo esercizio fa parte del corso

Fondamenti di Big Data con PySpark

Visualizza il corso

Istruzioni dell'esercizio

Carica il dataset 5000_points in un RDD chiamato clusterRDD.
Trasforma clusterRDD dividendo le righe in base al tab ("\t").
Trasforma l'RDD risultante per creare una lista di interi per le due colonne.
Verifica che nel dataset ci siano 5000 righe.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Load the dataset into an RDD
clusterRDD = sc.____(file_path)

# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))

# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])

# Count the number of rows in RDD 
print("There are {} rows in the rdd_split_int dataset".format(____.____()))

Modifica ed esegui il codice