πLab 2
Bagaimana jika data non-linear?
Pengantar
Pada pratikum sebelumnya kita telah mengetahui proses klasterisasi dengan menggunakan metode KMeans. Kebetulan, data yang digunakan dapat dengan mudah dipisahkan secara linear. Bagaimana jika data tidak dalam bentuk sebaran yang dapat dipisahkan secara linier (setidaknya pada visualisasi 2 dimensi)?

KMeans tidak dapat melakukan tugas ini dengan baik. Oleh karena itu, pada praktikum ini, kita akan menggunakan algoritma DBSCAN untuk melakukan klasterisasi pada data non-linear.
Langkah 0 - Import Library
Import library yang dibutuhkan
Langkah 1 - Membuat Dataset Sintentis
Kali ini kita akan membuat data sintentis untuk tujuan pembelajaran. Data yang akan kita buat akan berbentuk spiral untuk menyimulasikan kondisi non linear.
Lakukan proses plotting data untuk mengetahui hasil dataset yang telah dibuat.
Maka Anda akan mendapatkan hasil,

Jika diamati secara visual, terdapat dua cluster di dalam dataset. Namun apakah KMeans dapat bekerja dengan baiki dalam kasus ini, mari kita buktikan.
Langkah 2 - Klasterisasi dengan K-Means
Buat model KMeans dan lakukan plotting ulang hasil klasterisasi
Anda akan mendapatkan hasil seperti,

Terdapat beberapa data yang tidak terklasterisasi secara tepat. Anda dapat dengan mudah membayangkan garis imager linear yang digunakan untuk memisahkan 2 cluster data. Lakukan evaluasi lebih lanjut dengan menggunakan silhouette coefficient.
Anda akan mendapatkan nilai berkisar,
Nilai ini menunjukkan bahwa data tidak terklasterisasi dengan cukup baik.
Langkah 3 - Klasterisasi dengan DBSCAN
Selanjutnya, kita akan melakukan klasterisasi dengan DBSCAN. Ingat, DBSCAN sangat sensitif terhadap parameter epsilon dan minimal sampel!
Hasilnya adalah,

Berdasarkan scatterplot, data dapat terklasterisasi dengan sangat baik. Untuk memastikannya, kita perlu melakukan evaluasi kembali dengan silhouette score.
Hasil silhouette score menunjukkan hasil yang tidak optimal. Padahal cluster terbentuk dengan baik secara visual. Mengapa demikian? Silhouette coefficient berasumsi cluster dapat terpisah dengan baik dalam bentuk linier, sehingga jika bentuknya distribusi data acak, evaluasi silhouette coefficient tidak dapat bekerja dengan baik. Lalu evaluasi apa yang bisa kita lakukan? Secara sederhana,
Prosentase data noise
Inspeksi visual
Secara metric dapat menggunakan,
Davies-Bouldin Index (DBI) --> fokus pada separasi indeks, semakin kecil semakin baik, rentang 0 hingga tak hingga.
Last updated