ComeçarComece gratuitamente

Parte 1: Criar um DataFrame a partir do arquivo CSV

A cada quatro anos, os fãs de futebol de todo o mundo celebram um festival chamado "Copa do Mundo da Fifa" e, com isso, tudo parece mudar em muitos países. Neste exercício de três partes, você fará uma análise exploratória de dados (EDA) no conjunto de dados "FIFA 2018 World Cup Player" usando o PySpark SQL, que envolve operações de DataFrame, consultas SQL e visualização.

Na primeira parte, você carregará o conjunto de dados FIFA 2018 World Cup Players (Fifa2018_dataset.csv), que está no formato CSV, em um dataFrame do PySpark e inspecionará os dados usando operações básicas de DataFrame.

Lembre-se de que você já tem uma SparkSession spark e uma variável file_path disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Crie um DataFrame PySpark a partir de file_path (que é o caminho para o arquivo Fifa2018_dataset.csv ).
  • Imprima o esquema do DataFrame.
  • Imprima as 10 primeiras observações.
  • Quantas linhas você tem no DataFrame?

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Load the Dataframe
fifa_df = spark.____(____, header=True, inferSchema=True)

# Check the schema of columns
fifa_df.____()

# Show the first 10 observations
fifa_df.____(____)

# Print the total number of rows
print("There are {} rows in the fifa_df DataFrame".format(fifa_df.____()))
Editar e executar código