RegEx di Python
Ekstraksi informasi berbasis aturan berguna untuk banyak tugas NLP. Jenis entitas tertentu, seperti tanggal atau nomor telepon, memiliki format khas yang dapat dikenali dengan serangkaian aturan tanpa perlu melatih model. Pada latihan ini, Anda akan berlatih menggunakan paket re untuk RegEx. Tujuannya adalah menemukan nomor telepon dalam text yang diberikan.
Paket re sudah diimpor untuk Anda. Anda dapat menggunakan \d untuk mencocokkan pola string berupa metakarakter yang mencocokkan digit apa pun dari 0 hingga 9.
Latihan ini adalah bagian dari kursus
Pemrosesan Bahasa Alami dengan spaCy
Petunjuk latihan
- Definisikan pola untuk mencocokkan nomor telepon dengan format (111)-111-1111.
- Temukan semua pola yang cocok menggunakan metode
re.finditer(). - Untuk setiap kecocokan, cetak karakter awal dan akhir serta bagian yang cocok dari
textyang diberikan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
text = "Our phone number is (425)-123-4567."
# Define a pattern to match phone numbers
pattern = r"\((____){____}\)-(____){____}-(____){____}"
# Find all the matching patterns in the text
phones = re.____(pattern, text)
# Print start and end characters and matching section of the text
for match in phones:
start_char = match.____
end_char = match.____
print("Start character: ", ____, "| End character: ", ____, "| Matching text: ", text[____:____])