Organiser des données d’appels téléphoniques transcrits

Nous sommes presque prêts à construire un classificateur de texte. Mais pour l’instant, toutes nos transcriptions sont réparties dans deux listes, pre_purchase_text et post_purchase_text.

Pour mieux les organiser, à la fois pour la création du classificateur et pour un usage futur, nous allons tout rassembler dans un DataFrame pandas.

Pour commencer, nous allons importer pandas sous le nom pd, puis créer un DataFrame pour l’après-achat, post_purchase_df, à l’aide de pd.DataFrame().

Nous passerons à pd.DataFrame() un dictionnaire contenant une clé "label" avec la valeur "post_purchase" et une clé "text" avec la valeur correspondant à notre liste post_purchase_text.

Nous ferons la même chose pour pre_purchase_df, mais avec pre_purchase_text.

Pour regrouper toutes les données au même endroit, nous utiliserons pd.concat() et lui passerons les DataFrames d’avant et d’après achat.

Cet exercice fait partie du cours

Traitement du langage parlé en Python

Afficher le cours

Instructions

Créez post_purchase_df à partir de la liste post_purchase_text.
Créez pre_purchase_df à partir de la liste pre_purchase_text.
Combinez les deux DataFrames avec pd.concat().

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

import pandas as pd

# Make dataframes with the text
post_purchase_df = pd.DataFrame({"label": "post_purchase",
                                 "text": ____})
pre_purchase_df = pd.____({"label": "pre_purchase",
                                "text": ____})

# Combine DataFrames
df = pd.____([post_purchase_df, pre_purchase_df])

# Print the combined DataFrame
print(df.head())

Modifier et exécuter le code