Kapsamlı Crawler
Bu egzersiz, öğrendiklerini sergilemen için bir fırsat! Bu egzersizde bir spider için parse fonksiyonunu yazacak ve ardından spider’ı tamamlamak için birkaç boşluğu dolduracaksın. DataCamp’in kurs dizini sayfasında, listelenen her kursun bir başlığı ve kısa bir kurs açıklaması vardır. Bu spider, kurs başlıklarını ve kısa kurs açıklamalarını çıkarmak için kurs dizinini kazımada kullanılacak. Bu sefer herhangi bir bağlantıyı takip etmene gerek yok. Bilmen gerekenler:
- Kurs başlıkları, sınıfı
block__title(çift alt çizgi) dizesini içeren birh4öğesinin içindeki metinle tanımlanır. - Kısa kurs açıklamaları, sınıfı
block__description(çift alt çizgi) dizesini içeren bir paragrafpöğesinin içindeki metinle tanımlanır.
Bu egzersiz
Python ile Web Scraping
kursunun bir parçasıdırUygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# parse method
def parse(self, response):
# Extracted course titles
crs_titles = response.xpath(____).extract()
# Extracted course descriptions
crs_descrs = response.xpath(____).extract()
# Fill in the dictionary: it is the spider output
for crs_title, crs_descr in zip(crs_titles, crs_descrs):
dc_dict[crs_title] = crs_descr