1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

cvičení

Hlasování většiny z více datových zdrojů

Tvůj tým vyvíjí model AI pro automatické generování zpráv o kontrole kvality (QC) chytrých telefonů. Za tímto účelem jste shromáždili preferenční data ze tří různých zdrojů kontroly kvality – „Automatizovaného vizuálního systému", „Lidského inspektora" a „Zpětné vazby od zákazníků". Každý zdroj označil dvojice textových vzorků jako „chosen" a „rejected". Každá dvojice má jedinečné „id" a každý záznam představuje preferovanou QC recenzi.

quality_df je kombinovaný DataFrame načtený pomocí pandas. Obsahuje data ze tří různých datových zdrojů. Třída Counter je navíc předem naimportována z modulu collections.

Pokyny

100 XP
  • Ve funkci vote spočítej výskyty každé dvojice (chosen, rejected).
  • Najdi dvojici (chosen, rejected) s nejvyšším počtem hlasů.