Biraz metin yükle
Metin madenciliği, metin verilerini R'a yüklemekle başlar; bunu read.csv() işleviyle yapacağız.
En iyi uygulamalardan biri, içe aktardığın nesneyi inceleyerek hangi sütun(lar)ın önemli olduğunu belirlemektir. str() işlevi bunu yapmanın verimli bir yolunu sunar.
Veri çerçevesi metin olmayan sütunlar içeriyorsa, yalnızca doğru metin sütununu kullanarak yeni bir nesne oluşturmak isteyebilirsin (ör., some_object$column_name).
Dikkat: Bu, Twitter'dan alınmış gerçek veridir; bu nedenle küfür veya rahatsız edici başka içerikler içerebilir (bu egzersizde ve gerçek Twitter verisi kullanılan sonraki egzersizlerde).
Bu egzersiz
R ile Bag-of-Words ile Metin Madenciliği
kursunun bir parçasıdırEgzersiz talimatları
Veriler senin için yüklendi ve coffee_data_file içinde hazır.
- Kahveden bahseden tweet'leri içeren
coffee_data_filedosyası üzerinderead.csv()kullanarak yeni birtweetsnesnesi oluştur. - Analiz etmek istediğin metnin hangi sütunda olduğunu belirlemek için
tweetsnesnesinistr()ile incele. - Az önce belirlediğin yalnızca metin sütununu kullanarak yeni bir
coffee_tweetsnesnesi oluştur. Bunu yapmak için$operatörünü ve sütun adını kullan.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import text data from CSV, no factors
tweets <- ___
# View the structure of tweets
___
# Isolate text from tweets
coffee_tweets <- ___