Statistika Deskriptif

Melalui kelas ini, kamu diajak untuk:

  • Mengenal statistika deskriptif untuk meringkas data di R.
  • Mengidentifikasi susunan-susunan kode statistika deskriptif.

Tentang Statistika Deskriptif

Setelah memahami cara mengakses dan mengelola data, saatnya beranjak ke analisis statistik sederhana. Analisis ini sering disebut statistika deskriptif. Sesuai namanya, statistika deskriptif digunakan untuk menghadirkan ringkasan data.

Min & Max

Mari buka kembali dataset mobil di materi pertama. Untuk mencari min dan max di R, kita dapat menggunakan min() atau max(). Misal kita ingin mencari min dan max dari variabel berat mobil. Lihat susunan kode di bawah ini.

min(Data$wt)
[1] 1.513

max(Data$wt)
[1] 5.424

Kita juga dapat mencari indeks di mana nilai min dan max ditemukan. Fungsi yang digunakan adalah which.min() dan which.max()

which.min(Data$wt)
[1] 28

which.max(Data$wt)
[1] 16

Dari hasil di atas, dapat dilihat bahwa nomor urut 28 memiliki berat mobil minimal, sementara indeks nomor 16 memiliki berat mobil maksimal. Nomor indeks mungkin tak enak dilihat ketimbang nama. Sekarang, kita menggunakan which.min() dan which.max() dan mengkombinasikannya dengan rownames().

rownames(Data)[which.max(Data$wt)]
[1] "Lincoln Continental"

rownames(Data)[which.min(Data$wt)]
[1] "Lotus Europa"

Mean, Median, dan Modus

Selanjutnya, kita akan mengulas mean, median, dan modus. Mari kenali makna dari ketiganya.

Mean

Rata-rata dari sekumpulan data.

Median

Nilai tengah dari data.

Modus

Nilai yang paling sering muncul.


Kode untuk mencari mean:

mean(Data$wt)


[1] 3.21725

Kode untuk mencari median:

median(Data$wt)


[1] 3.325

Modus sedikit berbeda dengan dua kawannya, karena R tidak memiliki kode khusus untuk modus. Tapi bukan berarti kita tak dapat menyusun kode sendiri. Untuk mencari modus, kita akan menggunakan function sort atau pengurut. Lihat susunan kodenya di bawah ini:

names(sort(-table(Data$wt)))[1]

[1] "3.44"

Standar Deviasi

Terakhir, kita akan mencari standar deviasi. Standar deviasi adalah variabilitas untuk memberi gambaran lebih luas soal distribusi data. Kode R untuk mencari standar deviasi adalah sd().

sd(Data$wt)

[1] 0.9784574

Pro Tips

  • Min() dan max() digunakan untuk mencari nilai terendah dan tertinggi dari variabel.
  • mean() digunakan untuk mencari mean atau rata-rata, sementara median() digunakan untuk mencari nilai tengah.
  • Untuk mencari modus, kita menggunakan sort() karena R tidak memiliki fungsi khusus.
  • sd() digunakan untuk mencari standar deviasi atau bentuk variabilitas dari data.

Kuis

Bagaimana cara mencari tahu nomor indeks mana yang memiliki nilai terendah?

Selamat, Anda telah menyelesaikan pelajaran ini
Klik untuk menyelesaikan