Crear un UDF para datos vectoriales

Tienes disponible un dataframe df con una columna output de tipo vector. Sus primeras cinco filas se muestran en la consola.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Ver curso

Instrucciones del ejercicio

Crea un UDF llamado first_udf. Debe seleccionar el primer elemento de una columna vectorial. Establece el resultado en un valor por defecto de 0.0 para cualquier elemento que no sea un vector con al menos un elemento y convierte la salida a float.
Usa la operación select sobre df para aplicar first_udf a la columna output.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Selects the first element of a vector column
first_udf = ____(lambda x:
            ____(x.indices[0]) 
            if (x and hasattr(x, "toArray") and x.____())
            else 0.0,
            FloatType())

# Apply first_udf to the output column
df.select(____("output").alias("result")).show(5)

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

AvanzadoNivel de habilidad

4.8+

145 reviews

Empieza el curso gratis

En este capítulo aprenderás a crear y consultar una tabla SQL en Spark. Spark SQL aporta la expresividad de SQL a Spark. También verás cómo usar funciones de ventana en SQL dentro de Spark. Las funciones de ventana realizan un cálculo sobre filas relacionadas con la fila actual. Simplifican mucho la obtención de resultados que son difíciles de expresar solo con joins y agregaciones tradicionales. Usaremos funciones de ventana para realizar sumas acumuladas, diferencias acumuladas y otras operaciones que son complejas en SQL básico.

Exercise 1: Crear y consultar una tabla SQL en Spark Exercise 2: Crear una tabla SQL a partir de un dataframe Exercise 3: Determinar los nombres de las columnas de una tabla Exercise 4: SQL con funciones de ventana Exercise 5: Sumas acumuladas con funciones de ventana en SQL Exercise 6: Corrige la consulta rota Exercise 7: Notación por puntos y SQL Exercise 8: Agregación, paso a paso Exercise 9: Agrupar agregando la misma columna dos veces Exercise 10: SQL de agregación con notación por puntos Exercise 11: Convierte la función window de notación de puntos a SQL

En este capítulo, cargarás texto en lenguaje natural. Luego aplicarás un análisis con ventana deslizante para encontrar secuencias de palabras frecuentes.

Exercise 1: Cargar texto de lenguaje natural Exercise 2: Cargar un dataframe desde un archivo parquet Exercise 3: Divide y expande una columna de texto Exercise 4: Uso de monotonically_increasing_id()Exercise 5: Análisis con ventana deslizante Exercise 6: Creación de datos de características de ventana de contexto Exercise 7: Reparticionar los datos Exercise 8: Secuencias de palabras frecuentes Exercise 9: ¿Qué tipo de datos son estos?Exercise 10: Encontrar secuencias de palabras comunes Exercise 11: 5-tuplos únicos en orden ascendente Exercise 12: Tríos de palabras más frecuentes por capítulo

En los capítulos anteriores aprendiste a usar la expresividad del SQL con funciones de ventana. Sin embargo, precisamente por esa expresividad, ahora es importante que sepas cómo almacenar correctamente en caché los dataframes y las tablas SQL. También es clave saber cómo evaluar tu aplicación. Aprenderás a hacerlo con la Spark UI. Además, verás una práctica recomendada para el registro (logging) en Spark. Spark SQL aporta otra herramienta útil para ajustar problemas de rendimiento en las consultas: el plan de ejecución. Aprenderás a usar el plan de ejecución para evaluar la procedencia de un dataframe.

Exercise 1: Caché Exercise 2: Practicando el uso de la caché: parte 1 Exercise 3: Practicar el cacheo: el SQL Exercise 4: Practicando el caché: juntándolo todo Exercise 5: Almacenar y quitar tablas del caché Exercise 6: La Spark UI Exercise 7: Pestaña Storage de la Spark UI Exercise 8: Inspeccionar la caché en la Spark UI Exercise 9: Registro de logs Exercise 10: Practica el registro (logging)Exercise 11: Practica el registro 2 Exercise 12: Planes de consulta Exercise 13: Practica con los planes de consulta Exercise 14: Practica la lectura de planes de consulta 2

Los capítulos anteriores te dieron las herramientas para cargar texto en bruto, tokenizarlo y extraer secuencias de palabras. Esto ya es muy útil para el análisis, pero también lo es para Machine Learning. Ahora pondrás todo en conjunto usando regresión logística para clasificar texto. Al finalizar este capítulo, habrás cargado datos de texto en lenguaje natural en bruto y los habrás usado para entrenar un clasificador de texto.

Exercise 1: Extraer, transformar y seleccionar Exercise 2: Practicar la creación de una UDF Exercise 3: Practicar con columnas array Exercise 4: Creación de datos de características para clasificación Exercise 5: Crear un UDF para datos vectoriales

Ejercicio actual

Exercise 6: Aplicar una UDF a datos vectoriales Exercise 7: Transformar texto a formato vectorial Exercise 8: Clasificación de texto Exercise 9: Etiquetar los datos Exercise 10: Divide los datos Exercise 11: Entrena el clasificador Exercise 12: Predicción y evaluación Exercise 13: Evalúa el clasificador Exercise 14: Predecir datos de prueba Exercise 15: Resumen