Comece agoraComece grátis

Divida os dados

Agora que você já fez todas as manipulações, a última etapa antes da modelagem é dividir os dados!

Este exercicio faz parte do curso

Fundamentos do PySpark

Ver curso

Instruções do exercicio

  • Use o método de DataFrames .randomSplit() para dividir piped_data em duas partes, training com 60% dos dados e test com 40% dos dados, passando a lista [.6, .4] para o método .randomSplit().

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Editar e Executar Código