Etiquetar los datos

Tienes disponible un dataframe df con las columnas endword: string, features: vector y outvec: vector. Debes seleccionar las filas en las que endword sea igual a "him" y añadir una columna label con el valor entero 1. Luego, usa la operación union para añadir el mismo número de filas en las que endword no sea igual a him, de modo que estas filas adicionales tengan label = 0.

Recuerda que, en SQL, la comparación de distinto se hace con <>.

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

Instrucciones del ejercicio

Importa la función lit.
Selecciona las filas donde endword sea 'him' y añade una columna entera label con el valor 1.
Selecciona las filas donde endword no sea 'him' y añade una columna entera label con el valor 0.
Haz el union de ambos conjuntos, usando un número de ejemplos negativos igual al de ejemplos positivos.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import the lit function
from pyspark.____ import lit

# Select the rows where endword is 'him' and label 1
df_pos = df.where("____ = 'him'")\
           .withColumn('label', lit(____))

# Select the rows where endword is not 'him' and label 0
df_neg = df.where("endword <> '____'")\
           .withColumn('label', ____(0))

# Union pos and neg in equal number
df_examples = df_pos.____(df_neg.limit(df_pos.count()))
print("Number of examples: ", df_examples.count())
df_examples.where("endword <> 'him'").sample(False, .1, 42).show(5)

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción a Spark SQL en Python

AvanzadoNivel de habilidad

4.8+

Empieza el curso gratis

En este capítulo aprenderás a crear y consultar una tabla SQL en Spark. Spark SQL aporta la expresividad de SQL a Spark. También verás cómo usar funciones de ventana en SQL dentro de Spark. Las funciones de ventana realizan un cálculo sobre filas relacionadas con la fila actual. Simplifican mucho la obtención de resultados que son difíciles de expresar solo con joins y agregaciones tradicionales. Usaremos funciones de ventana para realizar sumas acumuladas, diferencias acumuladas y otras operaciones que son complejas en SQL básico.

Exercise 1: Crear y consultar una tabla SQL en Spark Exercise 2: Crear una tabla SQL a partir de un dataframe Exercise 3: Determinar los nombres de las columnas de una tabla Exercise 4: SQL con funciones de ventana Exercise 5: Sumas acumuladas con funciones de ventana en SQL Exercise 6: Corrige la consulta rota Exercise 7: Notación por puntos y SQL Exercise 8: Agregación, paso a paso Exercise 9: Agrupar agregando la misma columna dos veces Exercise 10: SQL de agregación con notación por puntos Exercise 11: Convierte la función window de notación de puntos a SQL

En este capítulo, cargarás texto en lenguaje natural. Luego aplicarás un análisis con ventana deslizante para encontrar secuencias de palabras frecuentes.

Exercise 1: Cargar texto de lenguaje natural Exercise 2: Cargar un dataframe desde un archivo parquet Exercise 3: Divide y expande una columna de texto Exercise 4: Uso de monotonically_increasing_id()Exercise 5: Análisis con ventana deslizante Exercise 6: Creación de datos de características de ventana de contexto Exercise 7: Reparticionar los datos Exercise 8: Secuencias de palabras frecuentes Exercise 9: ¿Qué tipo de datos son estos?Exercise 10: Encontrar secuencias de palabras comunes Exercise 11: 5-tuplos únicos en orden ascendente Exercise 12: Tríos de palabras más frecuentes por capítulo

En los capítulos anteriores aprendiste a usar la expresividad del SQL con funciones de ventana. Sin embargo, precisamente por esa expresividad, ahora es importante que sepas cómo almacenar correctamente en caché los dataframes y las tablas SQL. También es clave saber cómo evaluar tu aplicación. Aprenderás a hacerlo con la Spark UI. Además, verás una práctica recomendada para el registro (logging) en Spark. Spark SQL aporta otra herramienta útil para ajustar problemas de rendimiento en las consultas: el plan de ejecución. Aprenderás a usar el plan de ejecución para evaluar la procedencia de un dataframe.

Exercise 1: Caché Exercise 2: Practicando el uso de la caché: parte 1 Exercise 3: Practicar el cacheo: el SQL Exercise 4: Practicando el caché: juntándolo todo Exercise 5: Almacenar y quitar tablas del caché Exercise 6: La Spark UI Exercise 7: Pestaña Storage de la Spark UI Exercise 8: Inspeccionar la caché en la Spark UI Exercise 9: Registro de logs Exercise 10: Practica el registro (logging)Exercise 11: Practica el registro 2 Exercise 12: Planes de consulta Exercise 13: Practica con los planes de consulta Exercise 14: Practica la lectura de planes de consulta 2

Los capítulos anteriores te dieron las herramientas para cargar texto en bruto, tokenizarlo y extraer secuencias de palabras. Esto ya es muy útil para el análisis, pero también lo es para Machine Learning. Ahora pondrás todo en conjunto usando regresión logística para clasificar texto. Al finalizar este capítulo, habrás cargado datos de texto en lenguaje natural en bruto y los habrás usado para entrenar un clasificador de texto.

Exercise 1: Extraer, transformar y seleccionar Exercise 2: Practicar la creación de una UDF Exercise 3: Practicar con columnas array Exercise 4: Creación de datos de características para clasificación Exercise 5: Crear un UDF para datos vectoriales Exercise 6: Aplicar una UDF a datos vectoriales Exercise 7: Transformar texto a formato vectorial Exercise 8: Clasificación de texto Exercise 9: Etiquetar los datos

Ejercicio actual

Exercise 10: Divide los datos Exercise 11: Entrena el clasificador Exercise 12: Predicción y evaluación Exercise 13: Evalúa el clasificador Exercise 14: Predecir datos de prueba Exercise 15: Resumen