📊Naive Bayes
Last updated
Last updated
Sebelum kita mempelajari tentang model naïve bayes, ada baiknya kita memahami apa itu kaidah bayes. Konsep utama dari kaidah bayes adalah mencari nilai probabilitas (peluang) dari sebuah kejadian berdasarkan nilai probabilitas kejadian lain yang diketahui. Secara matematis, kaidah bayes dapat digambarkan dengan menggunakan Persamaan 11.
Dimana A dan B adalah sebuah kejadian dan nilai P(A) merupakan peluang kejadian A dan P(B) merupakan peluang kejadian B. P(A|B) adalah peluang kejadian A setelah kita mengetahui kejadian B, begitu juga sebaliknya untuk nilai peluang P(B|A).
Sebagai contoh, kita akan merencanakan untuk pergi untuk melakukan kegiatan piknik. Kondisi saat ini didapati cuaca sedang berawan. Kita juga mendapatkan fakta bahwa,
o 50% dari hari hujan diawali dengan cuaca berawan
o Keadaan berawan sering terjadi pada pagi hari dengan peluang 40%
o Kondisi umum saat ini cenderung kering dan jarang terjadi hujan. Hujan hanya terjadi 3 hari sepanjang 30 hari.
Kemudian kita ingin mengetahui peluang terjadinya hujan pada siang hari ini sebelum kita memutuskan untuk pergi piknik.
Berdasarkan fakta-fakta tersebut, kita dapat memformulasikannya ke dalam bentuk bayes, yaitu,
o Menentukan kejadian A dan kejadian B. Pada kasus ini, kita berasumsi bahwa kejadian A adalah hujan, sedangkan kejadian B adalah kondisi berawan. Sehingga didapatkan P(Hujan)=P(A) dan P(Berawan)=P(B).
o 50% dari hari hujan diawali cuaca berawan P(Berawan│Hujan)=P(B│A)=50%=0.5.
o Keadaan berawan sering terjadi di pagi hari dengan peluang 40% P(B)=40%=0.4
o Kondisi kering dan jarang terjadi hujan dapat kita modelkan menjadi P(A) dengan peluang 3/30=10%=0.1 P(A)=0.1
o Sehingga untuk menghitung peluang terjadinya hujan pada siang hari, kita dapat modelkan menjadi P(A|B)
Didapatkan nilai P(A|B) adalah,
Dengan demikian, didapatkan peluang terjadinya hujan pada siang hari adalah 12.5%.
Lalu apa hubungan contoh tersebut dengan model naïve bayes?
Pada model naïve bayes kita dapat menghitung peluang sebuah label pada kelas dalam kasus klasifikasi berdasarkan peluang setiap fitur untuk label tersebut. Sehingga, untuk menghitung peluang label y berdasarkan fitur-fitur x_n pada naïve bayes dilakukan dengan Persamaan 12.
Setelah mendapatkan peluang dari label y berdasarkan fitur-fitur x_n, maka proses terakhir dari model naïve bayes adalah membandingkan peluang untuk setiap label yang dimiliki. Label dengan peluang terbesar adalah hasil prediksi dari model naïve bayes.
Lalu mengapa naïve bayes dikatakan naif? Hal ini dikarenakan naïve bayes tidak memperhitungkan hubungan atau korelasi antar fitur. Dalam praktiknya, terdapat beberapa jenis model naïve bayes berdasarkan sumber data yang digunakan. Jika data yang digunakan bersifat diskrit, maka model naïve bayes yang paling cocok digunakan adalah multinomial naïve bayes. Jika data kita berupa data kategorikal, maka kita dapat menggunakan model categorical naïve bayes. Sedangkan jika data yang digunakan bersifat kontinu, maka kita dapat menggunakan model gaussian naïve bayes. Akan tetapi perlu dicatat, pada model gaussian naïve bayes, model berasumsi bahwa data pada fitur terdistrubusi secara normal (distribusi gaus)