# JS09 - Klasifikasi

## Pengantar

Klasifikasi merupakan salah satu tugas utama dalam pembelajaran mesin (machine learning) yang bertujuan untuk mengelompokkan data ke dalam kategori tertentu berdasarkan karakteristik atau fitur yang dimilikinya. Pada dasarnya, proses klasifikasi berupaya mempelajari pola dari data berlabel, kemudian menggunakan pola tersebut untuk memprediksi label dari data baru yang belum diketahui.

Dalam modul ini, kita akan mempelajari dua algoritma klasifikasi dasar namun sangat penting, yaitu **K-Nearest Neighbors (KNN)** dan **Naive Bayes**. Kedua metode ini memiliki pendekatan yang berbeda dalam menentukan kelas suatu data:

1. **K-Nearest Neighbors (KNN)** adalah algoritma berbasis jarak (distance-based) yang menentukan kelas suatu data baru berdasarkan mayoritas label dari sejumlah *tetangga terdekat* (neighbors) di sekitar titik tersebut. Semakin kecil nilai *k*, maka model lebih sensitif terhadap noise; sebaliknya, nilai *k* yang terlalu besar dapat menyebabkan hasil klasifikasi menjadi kurang spesifik.
2. **Naive Bayes**, di sisi lain, adalah algoritma berbasis probabilistik yang menggunakan Teorema Bayes untuk memperkirakan kemungkinan suatu data termasuk dalam kelas tertentu. Asumsi utama metode ini adalah bahwa antar fitur bersifat independen, sebuah simplifikasi yang sering kali tetap memberikan hasil yang efektif terutama pada data berdimensi tinggi, seperti teks.

Kedua algoritma ini menjadi dasar penting sebelum mahasiswa mempelajari model klasifikasi yang lebih kompleks seperti *Decision Tree*, *Random Forest*, atau *Support Vector Machine*. Dengan memahami KNN dan Naive Bayes, mahasiswa akan memiliki fondasi yang kuat dalam mengenali pola, mengukur kesamaan antar data, serta menalar keputusan berdasarkan probabilitas.

## Tujuan

Melalui praktikum ini, mahasiswa diharapkan dapat:

* Memahami konsep dasar dan prinsip kerja kedua algoritma.
* Membuat model dengan menggunakan KNN dan Naive Bayes
* Melakukan evaluasi performa model dengan metrik seperti akurasi, presisi, dan recall.
* Membandingkan kelebihan dan keterbatasan antara pendekatan berbasis jarak dan berbasis probabilitas.