🍐Simple Linear Regression
Pengantar
Regresi linier sederhana (simple linear regession) adalah suatu teknik analisis statistik yang digunakan untuk memahami dan memodelkan hubungan linier antara dua variabel: variabel independen (X) dan variabel dependen (Y). Teknik ini bermanfaat ketika kita ingin memprediksi atau menjelaskan bagaimana perubahan dalam variabel independen dapat memengaruhi variabel dependen.
Simple linear regression memodelkan hubungan antara satu variable independen (X) dengan satu variable dependen (Y). Hubungan linear dalam bentuk persamaan garis lurus antara dua variable ini dapat dirumuskan sebagai berikut ini:
Y=β0+β1X
Y adalah variabel dependen yang ingin diprediksi atau dimengerti.
X adalah variabel independen yang digunakan untuk melakukan prediksi atau menjelaskan variasi dalam Y.
β0 adalah intercept (konstanta), yaitu nilai Y ketika X sama dengan 0.
β1 adalah koefisien regresi, yang mengukur sejauh mana perubahan dalam X memengaruhi perubahan dalam Y. Ini adalah kemiringan (slope) dari garis regresi.
Dalam rumus ini, kita menyederhanakan model menjadi hubungan linier antara X dan Y yang membantu kita memahami dan memprediksi variabel dependen berdasarkan variabel independen.
Estimasi Parameter Model Simple Linear Regression
Dalam Simple Linear Regression, kita perlu mengestimasi dua parameter utama: intercept β0 dan koefisien regresi β1. Berikut adalah bagaimana kita dapat mengestimasi parameter-parameter ini:
Intercept β0: intercept β0 adalah nilai dari Y ketika X sama dengan 0. Untuk mengestimasinya, kita dapat menggunakan rumus berikut:
β0=Y−β1⋅X
Di mana Y adalah rata-rata dari variabel dependen (Y), X adalah rata-rata dari variabel independen (X), dan β1 adalah koefisien regresi.
Koefisien Regresi β1: Koefisien regresi (β1) mengukur sejauh mana perubahan dalam X memengaruhi perubahan dalam Y. Untuk mengestimasinya, kita dapat menggunakan rumus berikut:
[β1=∑i=1n(Xi−X)2∑i=1n(Xi−X)(Yi−Y)]
Di mana Xi dan Yi adalah nilai-nilai individu dari X dan Y dalam dataset, X adalah rata-rata dari X, Y adalah rata-rata dari Y, dan n adalah jumlah pengamatan.
Contoh Penerapan: Hubungan Diameter Pizza dengan Harga Pizza
Misalkan kita ingin memahami hubungan antara diameter pizza (dalam inci) dan harga pizza (dalam dolar). Kita mengumpulkan data dari beberapa toko pizza dan memutuskan untuk menggunakan Simple Linear Regression untuk memodelkan hubungan ini. Berikut adalah data yang kita miliki:
6
7
8
9
10
13
14
17.5
18
18
Langkah-langkah Estimasi Parameter & Prediksi Harga:
Hitung rata-rata dari Diameter Pizza X dan Harga Pizza Y.
X=56+8+10+14+18=11.2 inci Y=57+9+13+17.5+18=12.7 dollar
Hitung koefisien regresi β1 menggunakan rumus di atas dengan menggunakan nilai-nilai dari X dan Y dalam dataset, Rumus untuk menghitung β1 adalah:
β1=∑i=1n(Xi−X)2∑i=1n(Xi−X)(Yi−Y)
Kita memiliki data sebagai berikut:
X (Diameter Pizza) dalam inci: [6, 8, 10, 14, 18]
Y (Harga Pizza) dalam dolar: [7, 9, 13, 17.5, 18]
Rata-rata X=11.2 inci Rata-rata Y=12.7 dolar
Mari kita hitung β1:
Jadi,β1≈0.974
Setelah mendapatkan nilai β1, kita dapat mengestimasi intercept β0 menggunakan rumus berikut β0=Y−β1⋅X
Kita sudah memiliki β1≈0.974,X=11.2, dan Y=12.7.
Mari kita hitung β0:
Jadi, hasil estimasi parameter untuk model Simple Linear Regression antara diameter pizza (X) dan harga pizza (Y) adalah:
β0≈1.82 (intercept)
β1≈0.974 (koefisien regresi)
Setelah estimasi ini selesai, kita memiliki model Simple Linear Regression yang memungkinkan kita untuk memprediksi harga pizza berdasarkan diameter pizza. Misalnya, jika diameter pizza adalah 12 inci, kita dapat menggunakan model ini untuk memprediksi harga pizza yang sesuai berdasarkan estimasi β0 dan β1
Dengan nilai estimasi parameter β0≈1.82 (intercept) dan β1≈0.974 (koefisien regresi), kita dapat membentuk model Simple Linear Regression antara diameter pizza (X) dan harga pizza (Y) sebagai berikut:
HargaPizza=1.82+0.974×DiameterPizza
Dalam model ini:
(HargaPizza) adalah harga pizza yang ingin diprediksi.
(DiameterPizza) adalah diameter pizza dalam inci yang digunakan sebagai variabel independen.
Dengan model ini, kita dapat memasukkan nilai (DiameterPizza) untuk memprediksi (HargaPizza). Ini memungkinkan kita untuk memahami bagaimana perubahan dalam diameter pizza memengaruhi harga pizza secara linier.
Sebagai contoh, jika kita memiliki pizza dengan diameter 12 inci, kita dapat menggunakan model ini untuk memprediksi harganya:
HargaPizza=1.82+0.974×12
HargaPizza≈14.58 dolar
Jadi, menurut model ini, pizza dengan diameter 12 inci kemungkinan memiliki harga sekitar 14.58 dolar. Model ini dapat digunakan untuk memprediksi harga pizza berdasarkan diameter yang berbeda.
jika di visualisasikan ke dalam grafik menggunakan code python berikut maka didapatkan hasil grafik Simple Linier Regression sebagaimana pada Gambar 7.1

Berdasarkan gambar dapat dilihat bahwa ada hubungan antara diameter pizza dan harganya, Ketika diameter pizza bertambah maka harga dari pizza juga akan naik.
Pada simple linear regression mengasumsikan bahwa ada hubungan linier antara independent / explanatory variabel dengan dependent variabel melalui garis linier yang disebut sebagai hyperplane. Pada gambar 3.1 hyperplane divisualisasikan dengan warna merah.
Evaluasi Model dengan Cost Function
Garis regresi yang dihasilkan oleh beberapa nilai parameter (α dan β) yang berbeda diplot pada Gambar 7.2. Berbeda nilai α dan β maka akan menghasilkan garis regresi yang berbeda. Bagaimana menentukan parameter yang tepat yang menghasilkan garis regresi yang paling sesuai?

Untuk meminimalkan kesalahan prediksi dapat dihitung terlebih dahulu cost function dihasilkan oleh model yang telah dibuat. Cost function digunakan untuk mendefinisikan dan mengukur kesalahan model, atau ukuran seberapa salah model dalam hal kemampuannya untuk memperkirakan hubungan antara X dan y. Perbedaan antara harga yang diprediksi oleh model dan harga pizza yang sebenarnya (actual data) dalam data training disebut sebagai residual. Sedangkan Perbedaan antara nilai yang diprediksi dan harga pizza yang sebenarnya (actual data) dalam data testing disebut sebagai kesalahan prediksi (prediction errors). Perhatikan gambar 3.3 dibawah ini, garis hijau adalah garis regresi yang dihasilkan dari data training. Titik-titik hitam adalah data actual sehingga garis merah vertical merupakan residual perbedaan antara nilai yang diprediksi dan harga pizza yang sebenarnya (actual data) pada data training.

Model terbaik dapat dihasilkan dengan meminimalkan sum of the residual dalam artian bahwa model yang dibuat tepat jika nilai yang diprediksi mendekati nilai actual untuk keseluruhan data training. Ukuran mengukur ketepatan model yang dibuat dapat menggunakan cost function yaitu Residual sum of squares (RSS). RRS merupakan salah satu cost function yang dapat digunkan untuk mengukur kesesuaian model yang telah dibuat dengan cara menjumlahkan kuadrat residual untuk semua data training. RSS dihitung dengan rumus dalam persamaan berikut, di mana yi adalah nilai yang diamati dan f (xi) adalah nilai prediksi:
RSS (Residual Sum of Squares) adalah salah satu metrik evaluasi yang digunakan dalam Simple Linear Regression untuk mengukur seberapa baik model regresi sesuai dengan data observasi yang sebenarnya. RSS mengukur jumlah kuadrat dari selisih antara nilai sebenarnya (Y) dan nilai yang diprediksi oleh model (Y prediksi). Berikut adalah rumus RSS:
RSS=∑i=1n(Yi−Y^i)2
Di mana:
n adalah jumlah pengamatan.
Yi adalah nilai sebenarnya dari variabel dependen (harga pizza) untuk pengamatan ke-i.
Y^i adalah nilai yang diprediksi oleh model regresi (harga pizza yang diprediksi) untuk pengamatan ke-i.
RSS mengukur seberapa besar kesalahan prediksi model terhadap data sebenarnya. Semakin kecil nilai RSS, semakin baik model kita dalam menjelaskan variasi dalam data.
Berikut adalah contoh cara menghitung RSS menggunakan Python beserta output hasilnya:
Dalam contoh ini, kita memiliki data harga pizza yang sebenarnya harga_pizza_asli dan harga pizza yang diprediksi oleh model harga_pizza_prediksi. Semakin kecil nilai RSS, semakin baik model regresi dalam memprediksi data sebenarnya. RSS adalah salah satu metrik evaluasi yang digunakan untuk mengevaluasi kualitas model regresi.
Evaluasi Model Dengan R-squared (R2)
Evaluasi model dengan menggunakan R-squared R2 adalah salah satu cara yang lebih umum digunakan untuk mengukur seberapa baik model regresi cocok dengan data. R2 mengukur sejauh mana variasi dalam variabel dependen (Y) yang dapat dijelaskan oleh variabel independen (X) dalam model. Semakin tinggi R2, semakin baik model dalam menjelaskan variasi dalam data.
R2 memiliki nilai antara 0 hingga 1, dengan nilai 1 menunjukkan bahwa model cocok sempurna dengan data, dan nilai 0 menunjukkan bahwa model tidak menjelaskan variasi sama sekali. Secara matematis, R2 dapat dihitung dengan rumus berikut:
R2=1−TSSRSS
Di mana:
(
RSS) adalah Residual Sum of Squares, yang telah dijelaskan sebelumnya.(
TSS) adalah Total Sum of Squares, yang merupakan jumlah kuadrat deviasi nilai sebenarnya dari rata-rata variabel dependen.
Berikut adalah contoh penggunaan Python untuk menghitung R2 dari model regresi yang telah kita estimasi sebelumnya dan melakukan prediksi dapat menggunakan metod predict. Nilai R-squared R2 mendekati 1 maka dianggap model dapat memprediksi dengan baik. Selain menggunakan R-squared R2 maka juga dapat digunakan matrix MAE dan MSE.
Output
Last updated