Line of Best Fit

Melalui kelas ini, kamu diajak untuk:

  • Mengenal line of best fit dan residual sebagai komponen penting dalam analisis regresi linier.
  • Mengidentifikasi langkah-langkah menggunakan least square untuk mencari line of best fit di R.

Mengenal Line of Best Fit

Mari lihat kembali scatterplot dataset pada materi pertama.

Dalam regresi, kita perlu mengenal line of best fit. Line of best fit adalah garis lurus yang mampu menjelaskan persebaran data. Selain itu, garis ini juga berfungsi untuk memperlihatkan kecenderungan tren.

Garis dan Residual

Untuk lebih memahami line of best fit, kita perlu mengetahui dua hal, garis itu sendiri dan residual.

Ketuk untuk memahami lebih lanjut.

Garis Fit

Garis yang menggambarkan korelasi data. Kesesuaian garis ini dihitung dengan memperhatikan residual.

Residual

Jarak antara setiap titik data yang tersebar dengan garis.


Bagaimana cara mengetahui garis itu sesuai dengan persebaran data? Kita bisa menggambar garis secara acak, lalu hitung SUM dari residual yang dipangkatkan. Semakin dekat hasil dengan angka 0, semakin sesuai garis tersebut.

Least Square

Untuk menemukan garis yang tepat, kita dapat menggunakan least square dengan rumus y = a + bX. y adalah variabel dependen, a adalah konstanta atau intercept, b adalah kemiringan garis, dan X adalah variabel independen. Dalam R sendiri, kita dapat menggunakan fungsi linear model dengan lm().

# membuat model, formula adalah y ~ x, data merujuk pada dataset yang digunakan
regresi <- lm(formula = Kecepatan.Lari ~ Berat.Badan, data=data)
# memanggil model
regresi

[1]
Call:
lm(formula = Kecepatan.Lari ~ Berat.Badan, data = data)

Coefficients:
(Intercept)  Berat.Badan  
    -1.8116       0.2342

Mari fokus pada intercept dan kecepatan lari. Intercept atau konstanta adalah a, sementara angka 0.2342 merepresentasikan b. Maka dapat disimpulkan bahwa Kecepatan Lari = -1.8116 + 0.2342 * Berat Badan.

Sekarang, saatnya buat visualisasi garis berdasarkan hasil linear model yang telah kita terapkan.

# plot data seperti di materi pertama
plot(data, xlab="Berat Badan", ylab="Kecepatan Lari")
# gunakan fungsi abline() dan isi parameter dengan fungsi linear model untuk membuat garis
abline(regresi)

Tampilannya:

Pro Tips

  • Line of best fit adalah garis yang menjelaskan persebaran data dan kecenderungan tren.
  • Residual adalah jarak antara setiap titik data dengan garis.
  • Least square adalah rumus untuk mencari kemiringan garis yang tepat untuk menjelaskan persebaran data.

Kuis

Apa parameter yang perlu dimasukkan ke dalam fungsi lm()?

Selamat, Anda telah menyelesaikan pelajaran ini
Klik untuk menyelesaikan