Caricare un dataframe da un file parquet
Nel tuo workspace è disponibile un file dataframe chiamato sherlock_sentences.parquet. Ogni riga di questo dataframe contiene una singola proposizione. Ogni proposizione è una sequenza di parole separata dalle altre da punteggiatura, come punti, virgolette e altri delimitatori del linguaggio naturale che indicano una frase o un frammento di frase. La tua missione, se decidi di accettarla, è caricare questo file.
Questo esercizio fa parte del corso
Introduzione a Spark SQL in Python
Istruzioni dell'esercizio
- Carica
sherlock_sentences.parquet. - Applica un filtro "id > 70" e mostra le prime 5 righe.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Load the dataframe
df = ____('sherlock_sentences.parquet')
# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)