Dataset dan Variabel

Melalui kelas ini, kamu diajak untuk:

  • Mengetahui cara memuat dataset dalam R.
  • Mengidentifikasi langkah-langkah memasang variabel dan membuat scatterplot.

Mengapa Harus Dilatih?

Regresi linier adalah perhitungan soal korelasi, hubungan sebab-akibat, dan pengaruh. Ide utama dari konsep regresi linier adalah adanya hubungan linier antara dua variabel yang berhubungan. Misal korelasi antara jumlah iklan dan tingkat penjualan, warna buah dan tingkat kematangan, dan sebagainya.

R adalah bahasa pemrograman yang ideal untuk menerapkan analisis statistik, tak terkecuali regresi linier. Sepanjang kelas ini, kita akan mengulas langkah-langkah melakukan analisis regresi sekaligus cara menginterpretasikan hasil analisis.

Memuat Dataset

Mula-mula, tugas kita adalah memuat dataset yang akan dianalisis. Di materi ini, kita akan mencoba menganalisis dataset sederhana berisi berat badan (kg) atlet dan kecepatan lari (detik). Mari gunakan fungsi read.csv() seperti di bawah ini.

data <- read.csv("regresi_sederhana.csv")

[1]
   Berat.Badan Kecepatan.Lari
1           65           12.9
2           60           11.8
3           62           13.6
4           58           12.1
5           61           12.4
6           55           10.7
7           67           13.7
8           57           11.9
9           58           11.5
10          60           12.2
11          55           11.1
12          64           13.0
13          66           13.4
14          59           11.4
15          63           13.2
16          60           12.8
...

Mari lihat ada berapa jumlah kolom dan baris dalam dataset ini dengan fungsi dim().

dim(data)

[1] 51  2

Dari hasil di atas, dapat dilihat bahwa dataset memiliki 51 baris dan 2 kolom.

Algoritma dan Model Klasifikasi

Di materi sebelumnya, kita telah melatih dataset dan mendapatkan dataset yang akan diuji. Langkah selanjutnya adalah memilih algoritma dan model klasifikasi yang paling akurat. Algoritma klasifikasi dalam Python ada banyak modelnya, mulai dari RandomForestClassifier hingga Logistic Regression.

Ketuk untuk mengenali beberapa model-model klasifikasi.

Variabel Independen

Variabel pemberi efek atau variabel yang mempengaruhi variabel dependen, bisa juga disebut sebagai variabel eksplanatori.

Variabel Dependen

Variabel yang dipengaruhi oleh variabel independen, bisa juga disebut sebagai variabel respons.


Pada kasus kali ini, kita akan menetapkan berat badan sebagai variabel independen (x) dan kecepatan lari sebagai variabel dependen (y).

Membuat Scatterplot

Saatnya membuat visualisasi dengan scatterplot. Scatterplot adalah visualisasi yang menampilkan persebaran titik-titik data. Kita dapat menggunakan fungsi plot() untuk membuat scatterplot.

# mendefinisikan variabel x
x <- data$Berat.Badan
# mendefinisikan variabel y
y <- data$Kecepatan.Lari
# mengaplikasikan fungsi plot()
plot(x,y, xlab="Berat Badan", ylab="Kecepatan Lari")

Lihat visualisasinya:

Pro Tips

  • Regresi membutuhkan dua jenis variabel, yaitu variabel independen atau variabel pemberi pengaruh dan variabel dependen atau variabel yang dipengaruhi.
  • Scatterplot adalah visualisasi data dalam R yang menggambarkan persebaran titik-titik data.

Kuis

Apa fungsi yang digunakan untuk membuat scatterplot?

Selamat, Anda telah menyelesaikan pelajaran ini
Klik untuk menyelesaikan