Rimuovi stop word e spazi aggiuntivi

Un corpus testuale contiene spesso molte parole comuni come "a", "an", "the", "of" e "but". Nell'elaborazione del linguaggio naturale, queste sono chiamate stop word.

Le stop word vengono di solito rimosse durante l'elaborazione del testo per concentrarsi sulle parole più importanti del corpus e trarne informazioni utili.

Inoltre, gli spazi aggiuntivi creati durante la rimozione di caratteri speciali, punteggiatura, numeri e stop word devono essere eliminati dal corpus.

Il corpus che hai creato nell'esercizio precedente è stato caricato come twt_corpus_lwr.

La libreria tm è stata pre-caricata per questo esercizio.

Questo esercizio fa parte del corso

Analisi dei dati dei social media in R

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Remove English stop words from the corpus and view the corpus 
twt_corpus_stpwd <- ___(twt_corpus_lwr, ___, stopwords("___"))
head(twt_corpus_stpwd$content)

Modifica ed esegui il codice

Questo esercizio fa parte del corso

Analisi dei dati dei social media in R

IntermediárioNível de habilidade

4.9+

Inizia il corso gratuitamente

Inizia a comprendere la potenza dei dati di Twitter e ciò che puoi ottenere con l’analisi dei social media. In questo capitolo estrarrai il tuo primo set di tweet usando la Twitter API e le funzioni della potente libreria ‘rtweet’. Poi esplorerai come utilizzare i componenti dei dati di Twitter estratti per ricavare insight utili all’analisi dei social media.

Exercise 1: Analizzare i dati di Twitter Exercise 2: La potenza dei dati di Twitter Exercise 3: Pro e contro dei dati di Twitter Exercise 4: Estrazione dei dati da Twitter Exercise 5: Prerequisiti per configurare l'ambiente R Exercise 6: Cerca ed estrai tweet Exercise 7: Cerca ed estrai le timeline Exercise 8: Componenti dei dati di Twitter Exercise 9: Interesse degli utenti e conteggio dei tweet Exercise 10: Confronta il numero di follower Exercise 11: Conteggi dei retweet

È il momento di andare più a fondo. Impara ad applicare filtri ai tweet e ad analizzare i dati degli utenti Twitter usando il golden ratio e le liste Twitter a cui sono iscritti. Imparerai anche a estrarre gli argomenti di tendenza e ad analizzare i dati di Twitter nel tempo per individuare insight interessanti.

Exercise 1: Filtrare i tweet Exercise 2: Filtrare i tweet originali Exercise 3: Filtrare per lingua del tweet Exercise 4: Filtra in base alla popolarità del tweet Exercise 5: Analisi degli utenti di Twitter Exercise 6: Estrai le informazioni sugli utenti Exercise 7: Esplora gli utenti in base al golden ratio Exercise 8: Iscritti alle liste di Twitter Exercise 9: Trend di Twitter Exercise 10: Trend disponibili Exercise 11: Trend per nome del paese Exercise 12: Trend per città e trend più twittati Exercise 13: Rappresentare i dati di Twitter nel tempo Exercise 14: Visualizzare la frequenza dei tweet Exercise 15: Crea oggetti di serie temporali Exercise 16: Confronta la frequenza dei tweet per due brand

Un’immagine vale più di mille parole! In questo capitolo scoprirai come visualizzare il testo dei tweet usando grafici a barre e word cloud. Imparerai a processare il testo dei tweet e a preparare un corpus pulito per l’analisi. Immagina di poter estrarre gli argomenti chiave di discussione e le percezioni delle persone su un tema o un brand dai tweet che condividono. Potrai farlo proprio grazie al topic modeling e all’analisi del sentiment.

Exercise 1: Elaborare il testo di Twitter Exercise 2: Rimuovi URL e caratteri diversi dalle lettere Exercise 3: Crea un corpus e converti in minuscolo Exercise 4: Rimuovi stop word e spazi aggiuntivi

Esercizio attuale

Exercise 5: Visualizza i termini più popolari Exercise 6: Rimozione di stop word personalizzate Exercise 7: Visualizza i termini più popolari con i grafici a barre Exercise 8: Word cloud per la visualizzazione Exercise 9: Topic modeling dei tweet Exercise 10: L'algoritmo LDA Exercise 11: Crea una document term matrix Exercise 12: Crea un topic model Exercise 13: Analisi del sentiment su Twitter Exercise 14: Estrai i punteggi di sentiment Exercise 15: Esegui un'analisi del sentiment

Gli utenti di Twitter twittano, mettono like, seguono e ritwittano, creando strutture di rete complesse. In questo capitolo finale imparerai ad analizzare queste strutture di rete e a visualizzare le relazioni tra le singole persone come una rete di retweet. Estraendo i dati di geolocalizzazione dai tweet scoprirai anche come mostrare le posizioni dei tweet su una mappa e rispondere a domande potenti, come ad esempio quali stati o paesi parlano di più del tuo brand. I dati geografici aggiungono una nuova dimensione all’analisi dei dati di Twitter.

Exercise 1: Analisi delle reti su Twitter Exercise 2: Preparare i dati per una rete di retweet Exercise 3: Crea una rete di retweet Exercise 4: Misure di centralità della rete Exercise 5: Calcola gli out-degree Exercise 6: Calcola i punteggi di in-degree Exercise 7: Calcolare i punteggi di betweenness Exercise 8: Visualizzare le reti di Twitter Exercise 9: Crea un grafico di rete con attributi Exercise 10: Grafico di rete basato sulla misura di centralità Exercise 11: Conteggio dei follower per migliorare il grafico della rete Exercise 12: Mettere i dati di Twitter sulla mappa Exercise 13: Estrai le coordinate di geolocalizzazione Exercise 14: Dati di Twitter sulla mappa Exercise 15: Chiusura del corso