Stemming

Ora che hai pulito il testo di review e rimosso stop word e punteggiatura, sei pronto a normalizzare le parole rimanenti usando lo stemming per ridurle alla loro forma radice. Questo aiuta a raggruppare parole simili, rendendo l’analisi più coerente ed efficiente.

Ti sono stati forniti la classe PorterStemmer e un elenco di clean_tokens.

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

Visualizza corso

Istruzioni dell'esercizio

Inizializza PorterStemmer().
Usa una list comprehension per applicare lo stemming a ciascun token della lista clean_tokens.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']

# Create stemmer
stemmer = ____()

# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]

print(stemmed_tokens)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Impara gli elementi essenziali dell’elaborazione del testo nel Natural Language Processing (NLP). Padroneggia tecniche come tokenization, rimozione di stop words e punteggiatura e normalizzazione del testo tramite conversione in minuscolo, stemming e lemmatization, per preparare i dati testuali ad analisi successive ed estrazione di insight.

Exercise 1: Introduzione all'elaborazione del linguaggio naturale Exercise 2: Tokenizzazione di frasi e parole Exercise 3: Flusso di lavoro NLP Exercise 4: Gestione delle stop word e della punteggiatura Exercise 5: Rimozione delle stop words Exercise 6: Rimozione della punteggiatura Exercise 7: Tecniche di normalizzazione del testo Exercise 8: Conversione in minuscolo Exercise 9: Stemming

Esercizio attuale

Exercise 10: Lemmatizzazione

Trasforma testo grezzo in potenti caratteristiche numeriche. Crea rappresentazioni Bag-of-Words e TF-IDF per catturare l’importanza delle parole nei documenti, quindi esplora word embeddings come Word2Vec e GloVe per scoprire pattern semantici profondi. Visualizza frequenza, rilevanza e similarità per dare vita ai tuoi dati testuali.

Exercise 1: Rappresentazione Bag-of-Words Exercise 2: Costruire il vocabolario dalle recensioni dei clienti Exercise 3: Trasformare il testo in numeri con BoW Exercise 4: Analisi di frequenza delle recensioni dei prodotti Exercise 5: Visualizzare le frequenze delle parole Exercise 6: Vettorizzazione TF-IDF Exercise 7: Rappresentazione TF-IDF del feedback sui prodotti Exercise 8: Confrontare le rappresentazioni BoW e TF‑IDF Exercise 9: Embeddings Exercise 10: Esplorare le relazioni tra parole con gli embeddings Exercise 11: Visualizzare e confrontare i word embedding

Sfrutta la potenza dei modelli pre-addestrati per svolgere attività avanzate di classificazione del testo. Usa le pipelines di Hugging Face per sentiment analysis, classificazione per argomenti e natural language inference. Valuta similarità semantica e correttezza grammaticale con modelli all’avanguardia, senza dover costruire nulla da zero.

Exercise 1: Pipeline di Hugging Face per l'analisi del sentimento Exercise 2: Analizzare il sentiment di una recensione Exercise 3: Classificare in batch più recensioni Exercise 4: Confrontare modelli su dati di recensioni etichettati Exercise 5: Zero-shot classification e QNLI Exercise 6: Classificazione zero-shot dei ticket di supporto Exercise 7: Il testo risponde alla domanda?Exercise 8: Somiglianza tra domande e correttezza grammaticale Exercise 9: Rilevare domande duplicate Exercise 10: Verificare la correttezza grammaticale

Immergiti nel cuore delle applicazioni NLP moderne con tecniche di token classification e generazione di testo. Impara a estrarre entità significative e strutture grammaticali usando NER e PoS tagging. Padroneggia il question answering sia estrattivo sia astrattivo ed esplora attività avanzate di generazione, tra cui riassunto, traduzione e language modeling tramite le pipelines di Hugging Face.

Exercise 1: Classificazione dei token Exercise 2: Identificare le entità nominate nei titoli di notizie Exercise 3: PoS tagging per l'analisi del testo Exercise 4: Question answering Exercise 5: Rispondere alle domande dalle descrizioni dei prodotti Exercise 6: Generare risposte naturali con QA astrattivo Exercise 7: Attività di generazione di sequenze Exercise 8: Riassumere articoli di news per insight rapidi Exercise 9: Tradurre le recensioni dei clienti in francese Exercise 10: Creare un sistema di completamento della ricerca Exercise 11: Congratulazioni