Carregar e analisar dados de 5.000 pontos
Clustering é a tarefa de aprendizado não supervisionado que envolve agrupar objetos em clusters de alta similaridade. Ao contrário das tarefas supervisionadas, em que os dados são rotulados, o clustering pode ser usado para dar sentido a dados não rotulados. O PySpark MLlib inclui o popular algoritmo K-means para clustering. Neste exercício de três partes, você descobrirá quantos clusters existem em um conjunto de dados com 5.000 linhas e 2 colunas. Para isso, você primeiro carregará os dados em um RDD, analisará o RDD com base no delimitador, executará o modelo KMeans, avaliará o modelo e, por fim, visualizará os clusters.
Na primeira parte, você carregará os dados no RDD, analisará o RDD com base no delimitador e converterá o tipo string dos dados em um integer.
Lembre-se de que você tem um SparkContext sc
disponível em seu espaço de trabalho. Além disso, a variável file_path
(que é o caminho para o arquivo 5000_points.txt
) já está disponível em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Carregue o conjunto de dados
5000_points
em um RDD chamadoclusterRDD
. - Transforme o
clusterRDD
dividindo as linhas com base na tabulação ("\t"). - Transforme o RDD dividido para criar uma lista de números inteiros para as duas colunas.
- Confirme que há 5.000 linhas no conjunto de dados.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Load the dataset into an RDD
clusterRDD = sc.____(file_path)
# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))
# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])
# Count the number of rows in RDD
print("There are {} rows in the rdd_split_int dataset".format(____.____()))