Merapikan Data
Melalui kelas ini, kamu diajak untuk:
- Mengetahui dokumen apa saja yang bisa diakses Pandas.
- Mengunduh dokumen offline di Microsoft Excell.
- Mengintegrasikan dataset online seperti Google Sheet, SQL, dan JSON.
Membaca Data
Keseharian analis data adalah berhadapan dengan sebuah file dataset dengan kolom atau baris berderet. Mata manusia punya kelemahan untuk memelototinya satu demi satu, memindai menurut kebutuhan, kemudian masih harus mencatat dan menganalisa. Sekali saja pusing bukan main. Apalagi kalau berkali-kali? Rasanya mustahil
Fungsi data slicing di Pandas mungkin terlihat sederhana, namun berarti begitu besar. Bayangkan data yang tersedia terdiri dari 889 baris dan 12 kolom dengan kategori dan tipe data beragam seperti di bawah ini. Pandas menyediakan fitur khusus untuk menyortir nama kolom tertentu seperti berikut.
Pencarian Berdasar Kelompok
Hukum dasar file data adalah berikut: kolom bagi kelompok data, baris adalah detail data. Pandas memungkinkan pencarian kelompok data di kolom spesifik atau detail data di dalam baris. Ada beberapa jenis fungsi dalam Pandas. Mari kita bahas yang paling sering digunakan.
Terkadang, proses analisis membutuhkan data dari baris tertentu. Untuk membuatnya lebih spesifik, pandas menyediakan cara sebagai berikut:
Untuk dataset yang urutan barisnya memiliki orientasi tertentu (seperti tanggal atau abjad), Pandas menyediakan fungsi pengambilan data sebagai berikut.
Bagian baris awal.Bagian baris awal.
Bukan hanya yang paling atas atau bawah, Pandas dapat mengambil file baris atas/bawah dengan jumlah tertentu. Misalnya ingin mengambil 30 baris teratas, bisa digunakan cara berikut
Menarget Kolom atau Baris Spesifik
Detail amat sering tampak begitu menarik. Pandas akan membantu pencarian data di kolom atau baris tertentu.
Ikuti cara berikut:
loc
Loc biasa dipakai untuk menyisir kolom dan baris spesifik. Misal kode di bawah bertujuan menarik 2 baris khusus di kolom b.
iloc
iloc berfungsi untuk menarik data berdasarkan label di baris. Contoh sederhananya seperti ini:
Menyisir Kata atau Jumlah Spesifik
Dalam melihat dataset, seorang analis punya hipotesis awal beserta parameternya. Selalu ada angka spesifik yang dicari atau kalimat tertentu yang dituju.
Jika memindai kata spesifik dalam sebuah kolom, pakai code seperti ini:
Mengelola Tipe Data
Di beberapa kasus, terutama saat kita mengambil data eksternal (.xls atau .csv), tipe data dari setiap kolom kadang tak sesuai harapan. Misal, kita berharap data numerik seperti 3.5 adalah float. Namun ketika dicek menggunakan type(), tipe data justru menunjukkan object string.
Lihat tipe data dalam dataframe dengan cara berikut.
Berikut tipe data dalam Pandas.
Untuk mengganti tipe data yang tidak sesuai, kita dapat menggunakan astype().
Mengelola Missing Value
Tak jarang, kita menemukan data-data seperti “NaN” atau “Tidak ada data”. Mereka dinamakan missing value. Missing value perlu dikelola, karena mereka dapat mengganggu proses analisis data.
Salah satu cara paling umum digunakan untuk mengelola missing value adalah menggunakan fungsi dropna(). Fungsi ini menghapus baris-baris yang memiliki missing value.
Rangkuman
- Pandas dapat menargetkan kolom atau baris tertentu.
- Untuk menarget kata atau nilai spesifik, target kolom terlebih dahulu.
Kuis
Apa kegunaan fungsi (loc)?