Kötü yapılandırılmış tablolarda html_table()'ın eksikleri
Bazen yalnızca bir üst öğenin doğrudan altındaki metni seçmek istersin. Ancak aşağıdaki örnek tabloda, rol adının kendisi bir em etiketiyle sarılmış. Dahası, örneğin "Voice" gibi işlevi de em kısmıyla aynı td öğesinin içinde yer alıyor; bu da veriyi sorgulamak için pek ideal değil.
HTML kodundan bir alıntı şöyle:
<table>
<tr>
<th>Actor</th>
<th>Role</th>
</tr>
<tr>
<td class = "actor">Jayden Carpenter</td>
<td class = "role"><em>Mickey Mouse</em> (Voice)</td>
</tr>
...
</table>
Bu egzersizde, bilinen bir rvest fonksiyonunu kullanarak tabloyu kazımayı deneyeceksin. Bunu yaparken, bu yaklaşımın sınırlarını da fark edeceksin.
roles_html değişkeni, tabloyu içeren belgeyi barındırıyor.
Bu egzersiz
R ile Web Kazıma
kursunun bir parçasıdırEgzersiz talimatları
- İlk bölümde öğrendiğin bir fonksiyonla tablodan bir veri çerçevesi çıkarmayı dene.
- Ortaya çıkan veri çerçevesine bir göz at.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Extract the data frame from the table using a known function from rvest
roles <- roles_html %>%
html_element(xpath = "//___") %>%
___()
# Print the contents of the role data frame
___