ComeçarComece gratuitamente

Divida os dados

Agora que você já fez todas as manipulações, a última etapa antes da modelagem é dividir os dados!

Este exercício faz parte do curso

Introdução ao PySpark

Ver Curso

Instruções de exercício

  • Use o método de DataFrames .randomSplit() para dividir piped_data em duas partes, training com 60% dos dados e test com 40% dos dados, passando a lista [.6, .4] para o método .randomSplit().

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Split the data into training and test sets
training, test = piped_data.randomSplit(____)
Editar e executar código