Carregar os dados
Ler os dados é o primeiro passo para usar PySpark em data science! Vamos aproveitar o novo padrão do setor: arquivos Parquet!
Este exercício faz parte do curso
Feature Engineering com PySpark
Instruções do exercício
- Use o leitor de arquivos
parquet()para ler'Real_Estate.parq', como mostrado no vídeo do exercício. - Imprima a lista de colunas com
columns.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Read the file into a dataframe
df = spark.read.____(____)
# Print columns in dataframe
____(df.____)