Merapikan Data

Melalui kelas ini, kamu diajak untuk:

  • Mengetahui dokumen apa saja yang bisa diakses Pandas.
  • Mengunduh dokumen offline di Microsoft Excell.
  • Mengintegrasikan dataset online seperti Google Sheet, SQL, dan JSON.

Membaca Data

Keseharian analis data adalah berhadapan dengan sebuah file dataset dengan kolom atau baris berderet. Mata manusia punya kelemahan untuk memelototinya satu demi satu, memindai menurut kebutuhan, kemudian masih harus mencatat dan menganalisa. Sekali saja pusing bukan main. Apalagi kalau berkali-kali? Rasanya mustahil

Fungsi data slicing di Pandas mungkin terlihat sederhana, namun berarti begitu besar. Bayangkan data yang tersedia terdiri dari 889 baris dan 12 kolom dengan kategori dan tipe data beragam seperti di bawah ini. Pandas menyediakan fitur khusus untuk menyortir nama kolom tertentu seperti berikut.

Pencarian Berdasar Kelompok

Hukum dasar file data adalah berikut: kolom bagi kelompok data, baris adalah detail data. Pandas memungkinkan pencarian kelompok data di kolom spesifik atau detail data di dalam baris. Ada beberapa jenis fungsi dalam Pandas. Mari kita bahas yang paling sering digunakan.

Terkadang, proses analisis membutuhkan data dari baris tertentu. Untuk membuatnya lebih spesifik, pandas menyediakan cara sebagai berikut:


df[:1]

Untuk dataset yang urutan barisnya memiliki orientasi tertentu (seperti tanggal atau abjad), Pandas menyediakan fungsi pengambilan data sebagai berikut.

Bagian baris awal.
df.head
Bagian baris awal.
df.tail

Bukan hanya yang paling atas atau bawah, Pandas dapat mengambil file baris atas/bawah dengan jumlah tertentu. Misalnya ingin mengambil 30 baris teratas, bisa digunakan cara berikut


df.head(30)

Menarget Kolom atau Baris Spesifik

Detail amat sering tampak begitu menarik. Pandas akan membantu pencarian data di kolom atau baris tertentu.

Ikuti cara berikut:


df["Nama Kolom"]

loc

Loc biasa dipakai untuk menyisir kolom dan baris spesifik. Misal kode di bawah bertujuan menarik 2 baris khusus di kolom b.


df.loc[:2, :'b']

iloc

iloc berfungsi untuk menarik data berdasarkan label di baris. Contoh sederhananya seperti ini:


df.iloc[1] 

Menyisir Kata atau Jumlah Spesifik

Dalam melihat dataset, seorang analis punya hipotesis awal beserta parameternya. Selalu ada angka spesifik yang dicari atau kalimat tertentu yang dituju.


df.loc[df["Nama Kolom"]==1]

Jika memindai kata spesifik dalam sebuah kolom, pakai code seperti ini:


df.loc[df["Nama Kolom"].str.contains("Kata Spesifik")]

Mengelola Tipe Data

Di beberapa kasus, terutama saat kita mengambil data eksternal (.xls atau .csv), tipe data dari setiap kolom kadang tak sesuai harapan. Misal, kita berharap data numerik seperti 3.5 adalah float. Namun ketika dicek menggunakan type(), tipe data justru menunjukkan object string.

Lihat tipe data dalam dataframe dengan cara berikut.

df.info()

Berikut tipe data dalam Pandas.


Untuk mengganti tipe data yang tidak sesuai, kita dapat menggunakan astype().

# menjadikan tipe data integer
df["kolom1"].astype("int")
# menjadikan tipe data float
df["kolom1"].astype("float")
# menjadikan tipe data boolean
df["kolom1"].astype("bool")
# menjadikan tipe data string
df["kolom1"].astype("str")

Mengelola Missing Value

Tak jarang, kita menemukan data-data seperti “NaN” atau “Tidak ada data”. Mereka dinamakan missing value. Missing value perlu dikelola, karena mereka dapat mengganggu proses analisis data.

Salah satu cara paling umum digunakan untuk mengelola missing value adalah menggunakan fungsi dropna(). Fungsi ini menghapus baris-baris yang memiliki missing value.

df.dropna()

Rangkuman

  • Pandas dapat menargetkan kolom atau baris tertentu.
  • Untuk menarget kata atau nilai spesifik, target kolom terlebih dahulu.

Kuis

Apa kegunaan fungsi (loc)?

Selamat, Anda telah menyelesaikan pelajaran ini
Klik untuk menyelesaikan