Encontrar secuencias de palabras comunes

Antes vimos cómo crear una consulta que encuentra secuencias de palabras de longitud tres ("3-tuples"). Usamos esa consulta como subconsulta en una consulta SQL tradicional para encontrar los 3-tuples más comunes en el documento de texto. Ahora realizarás una tarea similar para encontrar los 5-tuples más comunes.

El DataFrame text_df está disponible. Contiene los cinco primeros capítulos del texto de Sherlock Holmes. Tiene las columnas: word, id, part, title. La columna id es un entero tal que una palabra que aparece más tarde en el documento tiene un id mayor que una palabra que aparece antes. La columna part separa los datos por capítulos. El DataFrame text_df también está registrado como una tabla temporal llamada text. Nuestro objetivo es crear un conjunto de datos donde cada fila corresponda a un 5-tuple, con un count que indique cuántas veces aparece la tupla en el conjunto de datos.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Instrucciones del ejercicio

Crea una consulta query que encuentre los 10 5-tuples más comunes del conjunto de datos.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Find the top 10 sequences of five words
query = """
SELECT w1, w2, w3, w4, w5, COUNT(*) AS count FROM (
   SELECT word AS w1,
   LEAD(____) OVER(____ ) AS w2,
   ____ AS w3,
   ____ AS w4,
   ____ AS w5
   FROM text
)
GROUP BY w1, w2, w3, w4, w5
ORDER BY count DESC, w1, w2, w3, w4, w5
LIMIT ____
"""
df = spark.sql(query)
df.show()

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

AvanzadoNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo aprenderás a crear y consultar una tabla SQL en Spark. Spark SQL aporta la expresividad de SQL a Spark. También verás cómo usar funciones de ventana en SQL dentro de Spark. Las funciones de ventana realizan un cálculo sobre filas relacionadas con la fila actual. Simplifican mucho la obtención de resultados que son difíciles de expresar solo con joins y agregaciones tradicionales. Usaremos funciones de ventana para realizar sumas acumuladas, diferencias acumuladas y otras operaciones que son complejas en SQL básico.

Exercise 1: Crear y consultar una tabla SQL en Spark Exercise 2: Crear una tabla SQL a partir de un dataframe Exercise 3: Determinar los nombres de las columnas de una tabla Exercise 4: SQL con funciones de ventana Exercise 5: Sumas acumuladas con funciones de ventana en SQL Exercise 6: Corrige la consulta rota Exercise 7: Notación por puntos y SQL Exercise 8: Agregación, paso a paso Exercise 9: Agrupar agregando la misma columna dos veces Exercise 10: SQL de agregación con notación por puntos Exercise 11: Convierte la función window de notación de puntos a SQL

En este capítulo, cargarás texto en lenguaje natural. Luego aplicarás un análisis con ventana deslizante para encontrar secuencias de palabras frecuentes.

Exercise 1: Cargar texto de lenguaje natural Exercise 2: Cargar un dataframe desde un archivo parquet Exercise 3: Divide y expande una columna de texto Exercise 4: Uso de monotonically_increasing_id()Exercise 5: Análisis con ventana deslizante Exercise 6: Creación de datos de características de ventana de contexto Exercise 7: Reparticionar los datos Exercise 8: Secuencias de palabras frecuentes Exercise 9: ¿Qué tipo de datos son estos?Exercise 10: Encontrar secuencias de palabras comunes

Ejercicio actual

Exercise 11: 5-tuplos únicos en orden ascendente Exercise 12: Tríos de palabras más frecuentes por capítulo

En los capítulos anteriores aprendiste a usar la expresividad del SQL con funciones de ventana. Sin embargo, precisamente por esa expresividad, ahora es importante que sepas cómo almacenar correctamente en caché los dataframes y las tablas SQL. También es clave saber cómo evaluar tu aplicación. Aprenderás a hacerlo con la Spark UI. Además, verás una práctica recomendada para el registro (logging) en Spark. Spark SQL aporta otra herramienta útil para ajustar problemas de rendimiento en las consultas: el plan de ejecución. Aprenderás a usar el plan de ejecución para evaluar la procedencia de un dataframe.

Exercise 1: Caché Exercise 2: Practicando el uso de la caché: parte 1 Exercise 3: Practicar el cacheo: el SQL Exercise 4: Practicando el caché: juntándolo todo Exercise 5: Almacenar y quitar tablas del caché Exercise 6: La Spark UI Exercise 7: Pestaña Storage de la Spark UI Exercise 8: Inspeccionar la caché en la Spark UI Exercise 9: Registro de logs Exercise 10: Practica el registro (logging)Exercise 11: Practica el registro 2 Exercise 12: Planes de consulta Exercise 13: Practica con los planes de consulta Exercise 14: Practica la lectura de planes de consulta 2

Los capítulos anteriores te dieron las herramientas para cargar texto en bruto, tokenizarlo y extraer secuencias de palabras. Esto ya es muy útil para el análisis, pero también lo es para Machine Learning. Ahora pondrás todo en conjunto usando regresión logística para clasificar texto. Al finalizar este capítulo, habrás cargado datos de texto en lenguaje natural en bruto y los habrás usado para entrenar un clasificador de texto.

Exercise 1: Extraer, transformar y seleccionar Exercise 2: Practicar la creación de una UDF Exercise 3: Practicar con columnas array Exercise 4: Creación de datos de características para clasificación Exercise 5: Crear un UDF para datos vectoriales Exercise 6: Aplicar una UDF a datos vectoriales Exercise 7: Transformar texto a formato vectorial Exercise 8: Clasificación de texto Exercise 9: Etiquetar los datos Exercise 10: Divide los datos Exercise 11: Entrena el clasificador Exercise 12: Predicción y evaluación Exercise 13: Evalúa el clasificador Exercise 14: Predecir datos de prueba Exercise 15: Resumen