🍊Multiple Linear Regression

Regresi Linier Majemuk (Berganda)

Pengantar

Multiple linear Regression merupakan turunan dari simple linear regression, multiple linear juga menghasilkan prediksi dalam bentuk angka continyu, perbedaan antara simple dan multiple adalah pada data variable independent/penjelas/bebas (X) dimana dalam multiple linear terdapat beberapa fitur / variable independent. Hubungan linear antara variable independent dan variable dependent pada multiple regression ini dapat dirumuskan sebagai berikut ini

y=Ξ±+Ξ²1x1+Ξ²2x2+β‹―+Ξ²nxny=Ξ±+Ξ²_1 x_1+Ξ²_2 x_2+β‹―+Ξ²_n x_n Y=Ξ²XY=Ξ²X

Pada persamaan diatas dapat dilihat bahwa pada multiple linear regression terdapat lebih dari variable independent sehingga parameter beta jumlahnya akan menyesuaikan dengan jumlah variable independent, dimana :

  • 𝑦 adalah vektor kolom nilai variabel respon/dependent.

  • 𝛼 adalah nilai intercept

  • 𝛽 adalah vektor kemiringan (slope)

  • x adalah matriks berdimensi π’Ž kali 𝒏 dari nilai variabel independent pada data training

  • π‘š adalah jumlah data training.

  • 𝑛 adalah jumlah fitur.

Sama halnya dengan simple linear regression, tantangan pada multiple linear regression adalah penetuan parameter (Ξ± dan Ξ²). Penentuan parameter Ξ± dan Ξ² dengan menggunakan metode least square dengan menggunakan dua variable independent. Tabel berikut adalah Contoh data training dan data testing untuk multiple linear regression dengan menggunakan dua buah fitur.

Data Training

DiameterPizza (inci)
JumlahTopping
HargaPizza (dolar)

6

2

7

8

1

9

10

0

13

14

2

17.5

18

3

18

Data Testing

DiameterPizza (inci)
JumlahTopping
HargaPizza (dolar)

8

2

11

9

0

8.5

11

2

15

16

2

18

12

0

11

Selanjutnya kita buat kode program untuk melakukan prediksi mengguakan data training dan data testing diatas sebagai berikut:

didapatkan hasil,

dari hasil tersebut maka didapatkan beberapa point, yaitu:

  1. Hasil Prediksi Harga Pizza: Bagian ini menampilkan hasil prediksi harga pizza untuk setiap data testing. Terdapat lima data testing (Data Test 1 hingga Data Test 5). Di samping setiap data testing, terdapat dua angka: prediksi harga pizza (Prediksi) dan harga pizza yang sebenarnya (Target). Misalnya, pada Data Test 1, model memprediksi harga pizza sebesar $9.00, sementara harga pizza yang sebenarnya adalah $11.00.

  2. R-squared R2R^2: Nilai R2R^2(R-squared) adalah metrik evaluasi untuk mengukur sejauh mana model Linear Regression yang telah dilatih cocok dengan data. Nilai R2R^2 berkisar antara 0 hingga 1. Dalam kasus ini, nilai R2R^2 sebesar 0.27 menunjukkan bahwa model yang telah dilatih mampu menjelaskan sekitar 27% dari variasi dalam data testing. Nilai yang lebih tinggi dari R2R^2 akan menunjukkan bahwa model memiliki kemampuan yang lebih baik dalam menjelaskan variasi data.

Poin utama dari hasil ini adalah bahwa model Linear Regression yang telah dilatih memiliki R2R^2 sebesar 0.27, yang berarti model ini cukup baik dalam menjelaskan variasi dalam data, meskipun masih ada variasi yang tidak dapat dijelaskan oleh model. Semakin tinggi nilai R2R^2, menunjukan bahawa semakin baik model.

Last updated