Algoritma dan Model
Melalui kelas ini, kamu diajak untuk:
- Mengidentifikasi model-model algoritma klasifikasi dan cara mengukur tingkat akurasinya.
- Mengetahui cara menggunakan model untuk mendapatkan hasil prediksi.
Algoritma dan Model Klasifikasi
Di materi sebelumnya, kita telah melatih dataset dan mendapatkan dataset yang akan diuji. Langkah selanjutnya adalah memilih algoritma dan model klasifikasi yang paling akurat. Algoritma klasifikasi dalam Python ada banyak modelnya, mulai dari RandomForestClassifier hingga Logistic Regression.
Ketuk untuk mengenali beberapa model-model klasifikasi.
Logistic Regression
Ekstensi dari regresi linier dengan menerapkan fungsi logistik dari hasil regresi linier.
Decision Tree
Membagi dataset berdasarkan kondisi bercabang yang menghasilkan keputusan akhir.
Random Forest
Improvisasi dari decision tree dengan mengambil rata-rata beberapa decision tree yang diturunkan dari subset data train.
K Neighbors
Klasifikasi berdasarkan jarak dan kedekatan titik data dengan titik-titik lainnya.
MLP Classifier
Klasifikasi yang bergantung pada neural network sebagai pembuat keputusan.
Support Vector Machine
Digunakan untuk klasifikasi linier dan non-linier dengan mencari hyperplane, atau pemisah antar kelas (label).
Naive Bayes
Metode probabilitas untuk mencari prediksi berdasarkan pengalaman sebelumnya.
Melihat Akurasi Model
Setiap model memiliki tingkat akurasi yang berbeda. Akurasi model amat dipengaruhi oleh dataset. Satu model dapat memiliki akurasi tinggi untuk kasus tertentu bisa saja tidak cukup akurat di kasus lain. Maka dari itu, untuk memilih model pada dataset penguin, kita perlu melihat tingkat akurasi masing-masing model dengan fungsi score().
Logistic Regression
Decision Tree
Random Forest
K Neighbors
MLP Classifier
Support Vector Machine
Naive Bayes
Dari hasil di atas, tingkat akurasi setiap model relatif tinggi dengan MLP Classifier sebagai pengecualian. Tugas kita adalah memilih model dengan tingkat akurasi tertinggi. Dalam kasus ini, kita akan menggunakan Random Forest.
Membuat Prediksi
Kita sampai pada pekerjaan utama, yaitu membuat prediksi. Mula-mula, mari buka kembali X_test atau dataset yang akan diprediksi oleh model.
Berikut tampilannya
Dapat dilihat bahwa X_test terdiri dari 69 baris tanpa label spesies. Label spesies untuk 69 baris ini akan diprediksi oleh model Random Forest dengan fungsi predict().
Kita juga dapat melakukan prediksi dengan nilai data di luar X_test. Lihat contohnya di bawah ini.
Pro Tips
- Algoritma klasifikasi terdiri dari banyak model dan setiap model punya tingkat akurasi yang berbeda tergantung pada dataset yang digunakan.
- Model untuk melakukan prediksi dipilih berdasarkan tingkat akurasi yang paling tinggi.
Kuis
Apa fungsi yang digunakan untuk mengukur tingkat akurasi model?