1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Intermediate Regular Expressions in R

Connected

cvičení

Hledání shod na základě dvou podmínek

V tomto cvičení propojíš 2 datasety s odpovídajícími názvy filmů, které ale obsahují překlepy. V první tabulce movie_titles je deset filmů, které máš spárovat s druhou tabulkou movie_db. Obě tabulky pocházejí ze skenovaných dokumentů a obsahují chyby vzniklé softwarem pro optické rozpoznávání znaků (OCR).

Obě tabulky obsahují sloupce title a year. Použij je k nalezení shod.

Vytvoř 2 pomocné funkce, které identifikují podobné nebo shodné záznamy. Jednu pro názvy filmů (na základě stringdist()) a druhou pro porovnávání roků pomocí abs() (která vrací absolutní hodnotu rozdílu).

Instrukce 1/3

undefined XP
  • 1
    • Zajisti, aby funkce is_string_distance_below_three() vracela TRUE, pokud je stringdistance mezi left a right menší než 3.
  • 2
    • Zajisti, aby funkce is_closer_than_three_years() vracela TRUE, pokud je absolutní rozdíl mezi left a right menší než tři.
  • 3
    • Pomocí pomocných funkcí spoj oba datové rámce podle sloupců "title" a "year".