ComeçarComece gratuitamente

Carregar e analisar dados de 5.000 pontos

Clustering é a tarefa de aprendizado não supervisionado que envolve agrupar objetos em clusters de alta similaridade. Ao contrário das tarefas supervisionadas, em que os dados são rotulados, o clustering pode ser usado para dar sentido a dados não rotulados. O PySpark MLlib inclui o popular algoritmo K-means para clustering. Neste exercício de três partes, você descobrirá quantos clusters existem em um conjunto de dados com 5.000 linhas e 2 colunas. Para isso, você primeiro carregará os dados em um RDD, analisará o RDD com base no delimitador, executará o modelo KMeans, avaliará o modelo e, por fim, visualizará os clusters.

Na primeira parte, você carregará os dados no RDD, analisará o RDD com base no delimitador e converterá o tipo string dos dados em um integer.

Lembre-se de que você tem um SparkContext sc disponível em seu espaço de trabalho. Além disso, a variável file_path (que é o caminho para o arquivo 5000_points.txt) já está disponível em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Carregue o conjunto de dados 5000_points em um RDD chamado clusterRDD.
  • Transforme o clusterRDD dividindo as linhas com base na tabulação ("\t").
  • Transforme o RDD dividido para criar uma lista de números inteiros para as duas colunas.
  • Confirme que há 5.000 linhas no conjunto de dados.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Load the dataset into an RDD
clusterRDD = sc.____(file_path)

# Split the RDD based on tab
rdd_split = clusterRDD.____(lambda x: ____.split(____))

# Transform the split RDD by creating a list of integers
rdd_split_int = rdd_split.____(lambda x: [int(____), int(x[1])])

# Count the number of rows in RDD 
print("There are {} rows in the rdd_split_int dataset".format(____.____()))
Editar e executar código