Divida os dados
Agora que você já fez todas as manipulações, a última etapa antes da modelagem é dividir os dados!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções de exercício
- Use o método de DataFrames
.randomSplit()
para dividirpiped_data
em duas partes,training
com 60% dos dados etest
com 40% dos dados, passando a lista[.6, .4]
para o método.randomSplit()
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Split the data into training and test sets
training, test = piped_data.randomSplit(____)