Pengenalan Library BeautifulSoup
Melalui kelas ini, kamu diajak untuk:
- Mengenal fungsi library BeautifulSoup dalam bahasa pemrograman Python untuk mengambil data halaman web
- Mengidentifikasi langkah-langkah menginstall dan mengaktifkan BeautifulSoup
Scraping Secara Terstruktur
Setiap website membuka akses data tampilan antar-muka. Coba saja klik kanan lalu inspect element, maka susunan kode HTML5 beserta CSS3nya akan muncul.
Namun, tampilan antar-muka bukan perkara desain semata. Jika dikulik lebih jauh, tampilan antar-muka dapat memberi insight tertentu. Misalnya sebuah website berita yang memberikan angka jumlah pembaca dalam satu artikel. Angka tersebut tidak didapat dari analytics yang canggih, tapi muncul sebagai sebuah tampilan. Lalu, bagaimana menarik datanya?
Mengambil data dari web bisa dilakukan dengan dua cara, yaitu melalui API (yg bisa diakses publik) atau melalui scraping. Web scraping sendiri merupakan cara mengambil data-data melalui elemen-elemen HTML dari halaman web yang dapat diakses, baik melalui inspect element atau view-source.
Tentang BeautifulSoup
Kita sebenarnya bisa melakukan web scraping secara manual. Namun, dengan request url sederhana, komputer akan memberikan data HTML yang nampak membingungkan. Lihat contoh tampilannya di bawah ini.
Untuk memudahkan scraping, kita bisa menggunakan BeautifulSoup. BeautifulSoup adalah library Python yang digunakan untuk mengambil data HTML dan XML. BeautifulSoup berfungsi sebagai parser untuk memisahkan komponen-komponen HTML menjadi rangkain elemen yang mudah dibaca.
Menginstall BeautifulSoup
Untuk menggunakan library BeautifulSoup, kita perlu menginstallnya terlebih dahulu. Ada dua cara umum menginstall BeautifulSoup, yakni dengan terminal atau jupyter lab/notebook.
Menggunakan terminal.
Menggunakan jupyter lab/notebook.
Menyiapkan Library Penunjang Web Scraping
Setelah berhasil menginstall BeautifulSoup, saatnya mengimpor BeautifulSoup untuk mengaktifkan library tersebut. Gunakan susunan kode di bawah ini.
Menggunakan terminal.
Dapat dilihat bahwa selain BeautifulSoup, kita mengimpor beberapa library lainnya yang akan membantu kita saat mengambil data nantinya.
Ketuk untuk mengetahui setiap fungsi library.
BeautifulSoup
BeautifulSoup akan digunakan untuk mengakses HTML dan mengambil data.
requests
requests akan digunakan untuk mengakses url web yang akan diambil datanya.
pandas
pandas akan digunakan untuk menampilkan dan menyimpan data.
datetime
datetime akan digunakan untuk menginput waktu (tanggal, bulan, tahun, serta jam) data diambil.
Selayang Pandang
- BeautifulSoup memudahkan proses scrapping secara fokus.
- Kombinasikan BeautifulSoup, Pandas, datetime, dan requests dan tempatkan di awal susunan kode.
Kuis
Bagaimana cara menginstall BeautifulSoup?