Conversione in minuscolo

Stai analizzando le recensioni degli utenti per un sito di viaggi. Queste recensioni spesso includono maiuscole incoerenti come "TRAVEL" e "travel". Per preparare il testo all'analisi del sentiment e all'estrazione degli argomenti, per prima cosa convertirai tutte le parole in minuscolo, poi le tokenizzerai e le pulirai rimuovendo stop word e punteggiatura.

Sono stati forniti la funzione word_tokenize() e un elenco stop_words. Le risorse NLTK sono già state scaricate.

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

Visualizza corso

Istruzioni dell'esercizio

Converti in minuscolo la review fornita.
Tokenizza lower_text in parole.
Usa una list comprehension per rimuovere stop word e punteggiatura utilizzando le liste stop_words e string.punctuation.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"

# Lowercase the review
lower_text = ____

# Tokenize the lower_text into words
tokens = ____

# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]

print(clean_tokens)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Natural Language Processing (NLP) in Python

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Impara gli elementi essenziali dell’elaborazione del testo nel Natural Language Processing (NLP). Padroneggia tecniche come tokenization, rimozione di stop words e punteggiatura e normalizzazione del testo tramite conversione in minuscolo, stemming e lemmatization, per preparare i dati testuali ad analisi successive ed estrazione di insight.

Exercise 1: Introduzione all'elaborazione del linguaggio naturale Exercise 2: Tokenizzazione di frasi e parole Exercise 3: Flusso di lavoro NLP Exercise 4: Gestione delle stop word e della punteggiatura Exercise 5: Rimozione delle stop words Exercise 6: Rimozione della punteggiatura Exercise 7: Tecniche di normalizzazione del testo Exercise 8: Conversione in minuscolo

Esercizio attuale

Exercise 9: Stemming Exercise 10: Lemmatizzazione

Trasforma testo grezzo in potenti caratteristiche numeriche. Crea rappresentazioni Bag-of-Words e TF-IDF per catturare l’importanza delle parole nei documenti, quindi esplora word embeddings come Word2Vec e GloVe per scoprire pattern semantici profondi. Visualizza frequenza, rilevanza e similarità per dare vita ai tuoi dati testuali.

Exercise 1: Rappresentazione Bag-of-Words Exercise 2: Costruire il vocabolario dalle recensioni dei clienti Exercise 3: Trasformare il testo in numeri con BoW Exercise 4: Analisi di frequenza delle recensioni dei prodotti Exercise 5: Visualizzare le frequenze delle parole Exercise 6: Vettorizzazione TF-IDF Exercise 7: Rappresentazione TF-IDF del feedback sui prodotti Exercise 8: Confrontare le rappresentazioni BoW e TF‑IDF Exercise 9: Embeddings Exercise 10: Esplorare le relazioni tra parole con gli embeddings Exercise 11: Visualizzare e confrontare i word embedding

Sfrutta la potenza dei modelli pre-addestrati per svolgere attività avanzate di classificazione del testo. Usa le pipelines di Hugging Face per sentiment analysis, classificazione per argomenti e natural language inference. Valuta similarità semantica e correttezza grammaticale con modelli all’avanguardia, senza dover costruire nulla da zero.

Exercise 1: Pipeline di Hugging Face per l'analisi del sentimento Exercise 2: Analizzare il sentiment di una recensione Exercise 3: Classificare in batch più recensioni Exercise 4: Confrontare modelli su dati di recensioni etichettati Exercise 5: Zero-shot classification e QNLI Exercise 6: Classificazione zero-shot dei ticket di supporto Exercise 7: Il testo risponde alla domanda?Exercise 8: Somiglianza tra domande e correttezza grammaticale Exercise 9: Rilevare domande duplicate Exercise 10: Verificare la correttezza grammaticale

Immergiti nel cuore delle applicazioni NLP moderne con tecniche di token classification e generazione di testo. Impara a estrarre entità significative e strutture grammaticali usando NER e PoS tagging. Padroneggia il question answering sia estrattivo sia astrattivo ed esplora attività avanzate di generazione, tra cui riassunto, traduzione e language modeling tramite le pipelines di Hugging Face.

Exercise 1: Classificazione dei token Exercise 2: Identificare le entità nominate nei titoli di notizie Exercise 3: PoS tagging per l'analisi del testo Exercise 4: Question answering Exercise 5: Rispondere alle domande dalle descrizioni dei prodotti Exercise 6: Generare risposte naturali con QA astrattivo Exercise 7: Attività di generazione di sequenze Exercise 8: Riassumere articoli di news per insight rapidi Exercise 9: Tradurre le recensioni dei clienti in francese Exercise 10: Creare un sistema di completamento della ricerca Exercise 11: Congratulazioni