BaşlayınÜcretsiz Başlayın

Biraz metin yükle

Metin madenciliği, metin verilerini R'a yüklemekle başlar; bunu read.csv() işleviyle yapacağız.

En iyi uygulamalardan biri, içe aktardığın nesneyi inceleyerek hangi sütun(lar)ın önemli olduğunu belirlemektir. str() işlevi bunu yapmanın verimli bir yolunu sunar.

Veri çerçevesi metin olmayan sütunlar içeriyorsa, yalnızca doğru metin sütununu kullanarak yeni bir nesne oluşturmak isteyebilirsin (ör., some_object$column_name).

Dikkat: Bu, Twitter'dan alınmış gerçek veridir; bu nedenle küfür veya rahatsız edici başka içerikler içerebilir (bu egzersizde ve gerçek Twitter verisi kullanılan sonraki egzersizlerde).

Bu egzersiz

R ile Bag-of-Words ile Metin Madenciliği

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

Veriler senin için yüklendi ve coffee_data_file içinde hazır.

  • Kahveden bahseden tweet'leri içeren coffee_data_file dosyası üzerinde read.csv() kullanarak yeni bir tweets nesnesi oluştur.
  • Analiz etmek istediğin metnin hangi sütunda olduğunu belirlemek için tweets nesnesini str() ile incele.
  • Az önce belirlediğin yalnızca metin sütununu kullanarak yeni bir coffee_tweets nesnesi oluştur. Bunu yapmak için $ operatörünü ve sütun adını kullan.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import text data from CSV, no factors
tweets <- ___

# View the structure of tweets
___

# Isolate text from tweets
coffee_tweets <- ___
Kodu Düzenle ve Çalıştır