Practicar la creación de una UDF

A veces tus datos necesitan una transformación que no está cubierta por las funciones integradas. Ahí es donde resulta útil una función definida por el usuario ("UDF").

La función SQL udf está disponible.

Hay un dataframe df2 disponible, de tipo DataFrame[doc: array<string>, in: array<string>, out: array<string>]. Su columna doc contiene tokens triviales.

Lo siguiente muestra las primeras 20 filas de df2 donde doc contiene '1':

df2.where(array_contains('doc','1')).show()

Tienes dos objetivos que cumplir:

Asegúrate de que los datos transformados sean vectores no vacíos.
Un dataframe tiene una columna que contiene arrays de cadenas, donde cada array tiene un único elemento. Te gustaría transformar esta columna a una cadena.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Instrucciones del ejercicio

Crea una udf que devuelva verdadero si y solo si el valor es un vector no vacío, usando numNonzeros().
Crea una udf que devuelva el primer elemento del array y retorne su representación en cadena.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Returns true if the value is a nonempty vector
nonempty_udf = udf(lambda x:  
    True if (x and hasattr(x, "toArray") and x.____())
    else False, ____())

# Returns first element of the array as string
s_udf = udf(lambda x: ____(x[0]) if (x and type(x) is list and len(x) > 0)
    else '', ____())

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

AvanzadoNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo aprenderás a crear y consultar una tabla SQL en Spark. Spark SQL aporta la expresividad de SQL a Spark. También verás cómo usar funciones de ventana en SQL dentro de Spark. Las funciones de ventana realizan un cálculo sobre filas relacionadas con la fila actual. Simplifican mucho la obtención de resultados que son difíciles de expresar solo con joins y agregaciones tradicionales. Usaremos funciones de ventana para realizar sumas acumuladas, diferencias acumuladas y otras operaciones que son complejas en SQL básico.

Exercise 1: Crear y consultar una tabla SQL en Spark Exercise 2: Crear una tabla SQL a partir de un dataframe Exercise 3: Determinar los nombres de las columnas de una tabla Exercise 4: SQL con funciones de ventana Exercise 5: Sumas acumuladas con funciones de ventana en SQL Exercise 6: Corrige la consulta rota Exercise 7: Notación por puntos y SQL Exercise 8: Agregación, paso a paso Exercise 9: Agrupar agregando la misma columna dos veces Exercise 10: SQL de agregación con notación por puntos Exercise 11: Convierte la función window de notación de puntos a SQL

En este capítulo, cargarás texto en lenguaje natural. Luego aplicarás un análisis con ventana deslizante para encontrar secuencias de palabras frecuentes.

Exercise 1: Cargar texto de lenguaje natural Exercise 2: Cargar un dataframe desde un archivo parquet Exercise 3: Divide y expande una columna de texto Exercise 4: Uso de monotonically_increasing_id()Exercise 5: Análisis con ventana deslizante Exercise 6: Creación de datos de características de ventana de contexto Exercise 7: Reparticionar los datos Exercise 8: Secuencias de palabras frecuentes Exercise 9: ¿Qué tipo de datos son estos?Exercise 10: Encontrar secuencias de palabras comunes Exercise 11: 5-tuplos únicos en orden ascendente Exercise 12: Tríos de palabras más frecuentes por capítulo

En los capítulos anteriores aprendiste a usar la expresividad del SQL con funciones de ventana. Sin embargo, precisamente por esa expresividad, ahora es importante que sepas cómo almacenar correctamente en caché los dataframes y las tablas SQL. También es clave saber cómo evaluar tu aplicación. Aprenderás a hacerlo con la Spark UI. Además, verás una práctica recomendada para el registro (logging) en Spark. Spark SQL aporta otra herramienta útil para ajustar problemas de rendimiento en las consultas: el plan de ejecución. Aprenderás a usar el plan de ejecución para evaluar la procedencia de un dataframe.

Exercise 1: Caché Exercise 2: Practicando el uso de la caché: parte 1 Exercise 3: Practicar el cacheo: el SQL Exercise 4: Practicando el caché: juntándolo todo Exercise 5: Almacenar y quitar tablas del caché Exercise 6: La Spark UI Exercise 7: Pestaña Storage de la Spark UI Exercise 8: Inspeccionar la caché en la Spark UI Exercise 9: Registro de logs Exercise 10: Practica el registro (logging)Exercise 11: Practica el registro 2 Exercise 12: Planes de consulta Exercise 13: Practica con los planes de consulta Exercise 14: Practica la lectura de planes de consulta 2

Los capítulos anteriores te dieron las herramientas para cargar texto en bruto, tokenizarlo y extraer secuencias de palabras. Esto ya es muy útil para el análisis, pero también lo es para Machine Learning. Ahora pondrás todo en conjunto usando regresión logística para clasificar texto. Al finalizar este capítulo, habrás cargado datos de texto en lenguaje natural en bruto y los habrás usado para entrenar un clasificador de texto.

Exercise 1: Extraer, transformar y seleccionar Exercise 2: Practicar la creación de una UDF

Ejercicio actual

Exercise 3: Practicar con columnas array Exercise 4: Creación de datos de características para clasificación Exercise 5: Crear un UDF para datos vectoriales Exercise 6: Aplicar una UDF a datos vectoriales Exercise 7: Transformar texto a formato vectorial Exercise 8: Clasificación de texto Exercise 9: Etiquetar los datos Exercise 10: Divide los datos Exercise 11: Entrena el clasificador Exercise 12: Predicción y evaluación Exercise 13: Evalúa el clasificador Exercise 14: Predecir datos de prueba Exercise 15: Resumen