CommencerCommencer gratuitement

Du texte à DataFrame

Vous avez généré des caractéristiques basées sur les comptes sous forme de tableau ; vous devez maintenant les reformater pour pouvoir les combiner avec le reste du jeu de données. Pour cela, convertissez le tableau en un DataFrame pandas, en utilisant comme noms de colonnes les noms de variables identifiés précédemment, puis concaténez-le avec le DataFrame d’origine.

Le tableau numpy (cv_array) et le vectoriseur (cv) que vous avez ajusté dans l’exercice précédent sont disponibles dans votre espace de travail.

Cet exercice fait partie du cours

Feature engineering pour le Machine Learning en Python

Afficher le cours

Instructions

  • Créez un DataFrame cv_df contenant cv_array comme valeurs et les noms de variables comme noms de colonnes.
  • Ajoutez le préfixe Counts_ aux noms de colonnes pour faciliter l’identification.
  • Concaténez ce DataFrame (cv_df) au DataFrame d’origine (speech_df) horizontalement (par colonnes).

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a DataFrame with these features
cv_df = pd.DataFrame(____, 
                     columns=____).____('Counts_')

# Add the new columns to the original DataFrame
speech_df_new = ____([speech_df, cv_df], axis=1, sort=False)
print(speech_df_new.head())
Modifier et exécuter le code