Pengenalan Library BeautifulSoup

Melalui kelas ini, kamu diajak untuk:

  • Mengenal fungsi library BeautifulSoup dalam bahasa pemrograman Python untuk mengambil data halaman web
  • Mengidentifikasi langkah-langkah menginstall dan mengaktifkan BeautifulSoup

Scraping Secara Terstruktur

Setiap website membuka akses data tampilan antar-muka. Coba saja klik kanan lalu inspect element, maka susunan kode HTML5 beserta CSS3nya akan muncul.

Namun, tampilan antar-muka bukan perkara desain semata. Jika dikulik lebih jauh, tampilan antar-muka dapat memberi insight tertentu. Misalnya sebuah website berita yang memberikan angka jumlah pembaca dalam satu artikel. Angka tersebut tidak didapat dari analytics yang canggih, tapi muncul sebagai sebuah tampilan. Lalu, bagaimana menarik datanya?

Mengambil data dari web bisa dilakukan dengan dua cara, yaitu melalui API (yg bisa diakses publik) atau melalui scraping. Web scraping sendiri merupakan cara mengambil data-data melalui elemen-elemen HTML dari halaman web yang dapat diakses, baik melalui inspect element atau view-source.

Tentang BeautifulSoup

Kita sebenarnya bisa melakukan web scraping secara manual. Namun, dengan request url sederhana, komputer akan memberikan data HTML yang nampak membingungkan. Lihat contoh tampilannya di bawah ini.

Untuk memudahkan scraping, kita bisa menggunakan BeautifulSoup. BeautifulSoup adalah library Python yang digunakan untuk mengambil data HTML dan XML. BeautifulSoup berfungsi sebagai parser untuk memisahkan komponen-komponen HTML menjadi rangkain elemen yang mudah dibaca.

Menginstall BeautifulSoup

Untuk menggunakan library BeautifulSoup, kita perlu menginstallnya terlebih dahulu. Ada dua cara umum menginstall BeautifulSoup, yakni dengan terminal atau jupyter lab/notebook.

Menggunakan terminal.

pip install beautifulsoup4

Menggunakan jupyter lab/notebook.


!pip install beautifulsoup4

Menyiapkan Library Penunjang Web Scraping

Setelah berhasil menginstall BeautifulSoup, saatnya mengimpor BeautifulSoup untuk mengaktifkan library tersebut. Gunakan susunan kode di bawah ini.

Menggunakan terminal.

from bs4 import BeautifulSoup
import requests
import pandas as pd
import datetime

Dapat dilihat bahwa selain BeautifulSoup, kita mengimpor beberapa library lainnya yang akan membantu kita saat mengambil data nantinya.

Ketuk untuk mengetahui setiap fungsi library.

BeautifulSoup

BeautifulSoup akan digunakan untuk mengakses HTML dan mengambil data.

requests

requests akan digunakan untuk mengakses url web yang akan diambil datanya.

pandas

pandas akan digunakan untuk menampilkan dan menyimpan data.

datetime

datetime akan digunakan untuk menginput waktu (tanggal, bulan, tahun, serta jam) data diambil.

Selayang Pandang

  • BeautifulSoup memudahkan proses scrapping secara fokus.
  • Kombinasikan BeautifulSoup, Pandas, datetime, dan requests dan tempatkan di awal susunan kode.

Kuis

Bagaimana cara menginstall BeautifulSoup?

Selamat, Anda telah menyelesaikan pelajaran ini
Klik untuk menyelesaikan