Carregar e analisar dados de 5.000 pontos

Clustering é a tarefa de aprendizado não supervisionado que envolve agrupar objetos em clusters de alta similaridade. Ao contrário das tarefas supervisionadas, em que os dados são rotulados, o clustering pode ser usado para dar sentido a dados não rotulados. O PySpark MLlib inclui o popular algoritmo K-means para clustering. Neste exercício de três partes, você descobrirá quantos clusters existem em um conjunto de dados com 5.000 linhas e 2 colunas. Para isso, você primeiro carregará os dados em um RDD, analisará o RDD com base no delimitador, executará o modelo KMeans, avaliará o modelo e, por fim, visualizará os clusters.

Na primeira parte, você carregará os dados no RDD, analisará o RDD com base no delimitador e converterá o tipo string dos dados em um integer.

Lembre-se de que você tem um SparkContext sc disponível em seu espaço de trabalho. Além disso, a variável file_path (que é o caminho para o arquivo 5000_points.txt) já está disponível em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

Carregue o conjunto de dados 5000_points em um RDD chamado clusterRDD.
Transforme o clusterRDD dividindo as linhas com base na tabulação ("\t").
Transforme o RDD dividido para criar uma lista de números inteiros para as duas colunas.
Confirme que há 5.000 linhas no conjunto de dados.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Load the dataset into an RDD
clusterRDD = sc.____(file_path)

# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))

# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])

# Count the number of rows in RDD 
print("There are {} rows in the rdd_split_int dataset".format(____.____()))

Editar e executar o código