Créer des données de caractéristiques à partir d’une fenêtre de contexte

La technique de fenêtre glissante est utile pour les modèles de Machine Learning qui utilisent des données de caractéristiques basées sur une fenêtre de contexte.

Une table text avec les colonnes id, word, part, title est disponible dans votre espace de travail. Elle contient les chapitres 9, 10, 11 et 12 du livre Sherlock Holmes. Les mots ont déjà été traités et organisés en un mot par ligne. Chaque mot possède un identifiant entier unique fourni par la colonne id. La colonne id est plus petite pour les mots apparaissant plus tôt dans le texte et plus grande pour les mots apparaissant plus tard.

Les 10 premières lignes du jeu de données pour le chapitre 12 sont affichées dans la console sous le nom Table1. Les dix premières lignes du résultat attendu, limitées à la partie 12 (Chapitre 12), sont affichées dans la console sous le nom Table2. Dans Table2, le mot « donné » pour la ligne figure dans la colonne w3. Les colonnes w1 et w2 donnent les deux mots immédiatement avant le mot donné. Les colonnes w4 et w5 donnent les deux mots immédiatement après le mot donné.

Notez que w1 et w2 valent null pour la première ligne. C’est parce qu’il n’y a aucun mot avant w3 (ici, « xii ») qui soit dans la partie 12.

N’hésitez pas à consulter les diaporamas disponibles à droite de la console si vous avez oublié comment quelque chose a été fait dans la vidéo.

Cet exercice fait partie du cours

<cours>Introduction à Spark SQL en Python</cours>

Instructions de l’exercice

Récupérez le mot de chaque ligne, ainsi que les deux mots précédents et les deux mots suivants.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Word for each row, previous two and subsequent two words
query = """
SELECT
part,
LAG(word, 2) OVER(PARTITION BY ____ ORDER BY ____) AS w1,
LAG(word, ____) OVER(____ BY part ____ BY id) AS w2,
word AS w3,
____(word, 1) OVER(____ BY part ____ BY id) AS w4,
LEAD(word, 2) OVER(____ BY part ____ BY id) AS w5
FROM text
"""
spark.sql(query).where("part = 12").show(10)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Introduction à Spark SQL en Python</cours>

AvancéNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous apprendrez à créer et interroger une table SQL dans Spark. Spark SQL apporte l’expressivité de SQL à Spark. Vous verrez aussi comment utiliser les fonctions de fenêtre SQL dans Spark. Les fonctions de fenêtre effectuent des calculs sur des lignes liées à la ligne courante. Elles simplifient grandement des résultats difficiles à obtenir avec de simples jointures et agrégations classiques. Nous utiliserons des fonctions de fenêtre pour calculer des cumuls progressifs, des différences successives et d’autres opérations qui sont délicates en SQL de base.

Exercise 1: Créer et interroger une table SQL dans Spark Exercise 2: Créer une table SQL à partir d’un dataframe Exercise 3: Déterminer les noms des colonnes d’une table Exercise 4: Fonctions fenêtre en SQL Exercise 5: Sommes cumulatives avec les fonctions de fenêtre en SQL Exercise 6: Corriger la requête défectueuse Exercise 7: Notation par points et SQL Exercise 8: Agrégation, étape par étape Exercise 9: Agrégations multiples sur la même colonne Exercise 10: Agrégat SQL en notation par points Exercise 11: Convertir une fonction window de la notation par points vers SQL

Dans ce chapitre, vous chargerez du texte en langage naturel. Vous appliquerez ensuite une analyse avec fenêtre glissante pour trouver des séquences de mots fréquentes.

Exercise 1: Charger du texte en langage naturel Exercise 2: Charger un dataframe à partir d’un fichier Parquet Exercise 3: Scinder et éclater une colonne de texte Exercise 4: Utiliser monotonically_increasing_id()Exercise 5: Analyse par fenêtre glissante Exercise 6: Créer des données de caractéristiques à partir d’une fenêtre de contexte

Exercice actuel

Exercise 7: Répartir les données Exercise 8: Séquences de mots fréquentes Exercise 9: De quel type de données s’agit-il ?Exercise 10: Trouver des séquences de mots fréquentes Exercise 11: 5-uplets uniques en ordre trié Exercise 12: 3-uplets les plus fréquents par chapitre

Dans les chapitres précédents, vous avez appris à exploiter l’expressivité des fonctions de fenêtre en SQL. Cette expressivité rend désormais essentiel de savoir mettre correctement en cache les DataFrames et les tables SQL. Il est aussi important de savoir évaluer votre application. Vous apprendrez à le faire avec l’interface Spark. Vous verrez également une bonne pratique de journalisation dans Spark. Spark SQL apporte un autre outil utile pour optimiser les performances des requêtes : le plan d’exécution. Vous apprendrez à utiliser ce plan pour évaluer la provenance d’un DataFrame.

Exercise 1: Mise en cache Exercise 2: S’exercer au cache : partie 1 Exercise 3: S’exercer au cache : le SQL Exercise 4: S’entraîner au caching : tout rassembler Exercise 5: Mettre en cache et retirer du cache des tables Exercise 6: L’interface Spark Exercise 7: Onglet Storage de la Spark UI Exercise 8: Inspecter le cache dans l’interface Spark UI Exercise 9: Journalisation Exercise 10: S’entraîner au logging Exercise 11: S'entraîner au logging 2 Exercise 12: Plans de requête Exercise 13: S’entraîner avec les plans de requête Exercise 14: S’entraîner à lire des plans de requête 2

Les chapitres précédents vous ont donné les outils pour charger du texte brut, le tokeniser et extraire des séquences de mots. C’est déjà très utile pour l’analyse, mais cela l’est aussi pour le Machine Learning. Ce que vous avez appris se concrétise ici avec l’utilisation d’une régression logistique pour classer du texte. À la fin de ce chapitre, vous aurez chargé des données textuelles brutes en langage naturel et les aurez utilisées pour entraîner un classifieur de texte.

Exercise 1: Extraire, transformer, sélectionner Exercise 2: S’entraîner à créer une UDF Exercise 3: S’exercer avec une colonne de type array Exercise 4: Créer des données de caractéristiques pour la classification Exercise 5: Créer un UDF pour des données vectorielles Exercise 6: Appliquer une UDF à des données vectorielles Exercise 7: Transformer du texte en format vectoriel Exercise 8: Classification de texte Exercise 9: Attribuer un label aux données Exercise 10: Diviser les données Exercise 11: Entraîner le classifieur Exercise 12: Prédire et évaluer Exercise 13: Évaluer le classifieur Exercise 14: Prédire sur les données de test Exercise 15: Récapitulatif