Mengambil Data dengan BeautifulSoup
Melalui kelas ini, kamu diajak untuk:
- Mengidentifikasi langkah-langkah mengambil data dengan BeautifulSoup
Memasukkan URL Halaman Web
Pertama-tama kita perlu mengakses url halaman web yang ingin kita ambil datanya. Untuk melakukan ini, kita menggunakan library requests. Lihat susunan kode di bawah ini.
Selanjutnya, kita akan menggunakan BeautifulSoup untuk melakukan parsing dari halaman web tersebut.
Menemukan Elemen HTML dan Mengambil Data
Tugas kita sekarang adalah mencari tag elemen HTML yang ingin kita ambil datanya. Misal kita ingin mengambil data artikel-artikel yang paling sering dibaca beserta jumlah pembacanya di kompas. Ikuti langkah-langkah ini:
- Gunakan BeautifulSoup untuk mencari seluruh elemen “div” dalam struktur HTML.
- Deklarasikan list kosong untuk menyimpan data ketika data sudah diambil.
- Gunakan Inspect Element untuk mencari tag, selector, dan atribut yang perlu kita identifikasi.
- Ubah datanya ke dalam bentuk teks.
- Ubah data ke integer untuk jumlah pembaca artikel.
- Masukkan kedua data ke list kosong yang sudah dideklarasikan di awal.
Lihat susunan kode di bawah ini.
Menyimpan Data
Langkah terakhir adalah menyimpan data. Kita bisa menggunakan library pandas untuk membuat data mudah dibaca dan disimpan dalam bentuk file .csv. Lihat susunan kode di bawah ini.
Pro Tips
- Elemen HTML dalam web biasanya berpola dengan nama class yang sama.
- Alur logika: cari divnya dahulu, kemudian masukkan sebagai function text.
- Gunakan method integer untuk merapikan teks yang kita ambil.
Kuis
Kita ingin mengambil h3 di dalam class 'artikel_trending'. Bagaimana susunan kodenya?