Cargar un dataframe desde un archivo parquet
En tu espacio de trabajo hay un archivo de dataframe llamado sherlock_sentences.parquet. Cada fila de este dataframe contiene una sola cláusula. Cada cláusula es una secuencia de palabras separada de otras cláusulas por signos de puntuación, como puntos, comillas y otros delimitadores del lenguaje natural que indican una oración o un fragmento de oración. Tu misión, si decides aceptarla, es cargar este archivo.
Este ejercicio forma parte del curso
Introducción a Spark SQL en Python
Instrucciones del ejercicio
- Carga
sherlock_sentences.parquet. - Aplica un filtro con "id > 70" y muestra las 5 primeras filas.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Load the dataframe
df = ____('sherlock_sentences.parquet')
# Filter and show the first 5 rows
df.where('id > 70').____(____, truncate=False)