Carregando um dataframe de um arquivo parquet
Um arquivo de dataframe chamado sherlock_sentences.parquet está disponível no seu workspace. Cada linha desse dataframe contém uma única oração. Cada oração é uma sequência de palavras separada de outras por pontuação, como ponto final, aspas e outros delimitadores de linguagem natural que indicam uma frase ou fragmento de frase. Sua missão, caso aceite, é carregar esse arquivo.
Este exercício faz parte do curso
Introdução ao Spark SQL em Python
Instruções do exercício
- Carregue
sherlock_sentences.parquet. - Filtre com "id > 70" e mostre as 5 primeiras linhas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Load the dataframe
df = ____('sherlock_sentences.parquet')
# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)