1. Nauka
  2. /
  3. Kursy
  4. /
  5. Web Scraping w Pythonie

Connected

ćwiczenie

Pająk – projekt końcowy

To ćwiczenie daje ci szansę, żeby pokazać, czego się nauczyłeś! Napiszesz funkcję parse dla pająka, a następnie uzupełnisz kilka luk, aby go ukończyć. Na stronie katalogu kursów DataCamp każdy kurs ma tytuł i krótki opis. Ten pająk posłuży do scrapowania katalogu kursów i wyodrębnienia tytułów oraz krótkich opisów. Tym razem nie będziesz śledzić żadnych linków. Oto wszystko, co musisz wiedzieć:

  • Tytuły kursów to tekst zawarty w elemencie h4, którego klasa zawiera ciąg block__title (podwójne podkreślenie).
  • Krótkie opisy kursów to tekst zawarty w elemencie akapitu p, którego klasa zawiera ciąg block__description (podwójne podkreślenie).

Instrukcje 1/2

undefined XP
    1
    2
  • Przypisz do zmiennej crs_titles wyodrębnioną listę tytułów kursów ze strony katalogu kursów DataCamp. Użyj wywołania contains w swoim wyrażeniu XPath, a sam ciąg XPath powinien wskazywać na tekst wybranych elementów.
  • Przypisz do zmiennej crs_descrs wyodrębnioną listę krótkich opisów kursów. Użyj wywołania contains w swoim wyrażeniu XPath, a sam ciąg XPath powinien wskazywać na tekst wybranych elementów.

(Ponieważ chcemy uzyskać listę wyodrębnionych danych, użyjemy wywołania extract() zamiast extract_first().)