Pulizia del testo
I dati testuali non strutturati non possono essere usati direttamente nella maggior parte delle analisi. Servono più passaggi per trasformare una lunga stringa libera in un insieme di colonne numeriche, nel formato corretto, che un modello di Machine Learning possa utilizzare. Il primo passo è standardizzare i dati ed eliminare qualsiasi carattere che potrebbe creare problemi più avanti nella pipeline analitica.
In questo capitolo lavorerai con un nuovo insieme di dati che contiene i discorsi di insediamento dei presidenti degli Stati Uniti, caricato come speech_df, con i testi salvati nella colonna text.
Questo esercizio fa parte del corso
Feature Engineering per il Machine Learning in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Print the first 5 rows of the text column
print(____)