πŸ“šJS05 - Klasterisasi

Pengantar

Pada materi sebelumnya, Anda telah mempelajari konsep-konsep dasar fitur dan ekstraksi fitur. Permasalahan selanjutnya adalah, bagaimana kita bisa memanfaatkan fitur tersebut? Salah satu permasalahan dalam pembelajaran mesin adalah kita akan lebih sering bersinggungan dengan data yang tidak memiliki label. Kita memiliki fitur "X" tetapi kita tidak memiliki label "Y". Pada kasus seperti inilah klasterisasi (clustering) memiliki peranan yang penting. Peneliti bidang komputer yang terkenal, Yann LeCun berkata,

"if intelligence was a cake, unsupervised learning would be the cake, supervised learning would be the icing on the cake, and reinforcement learning would be the cherry on the cake"

Dengan kata lain, terdapat potensi yang sangat besar dalam pengembangan teori maupun praktik dari konsep klasterisasi. Lalu apa itu klasterisasi?

Mudahnya adalah,

Proses mengelompokkan data berdasarkan kesamaan ciri (fitur)

Bayangkan jika Anda sedang pergi ke sebuah hutan yang memiliki banyak tumbuhan di dalamnya. Kemudian Anda melihat tumbuhan yang mungkin belum pernah Anda lihat sebelumnya. Anda terus berjalan masuk ke dalam hutan dan menemukan tumbuhan yang serupa tumbuh di sepanjang perjalanan Anda. Meskipun mereka tidak sama persis "plek", Anda dapat berasumsi tumbuhan tersebut merupakan tumbuhan merupakan spesies yang sama, atau paling tidak dalam satu genus yang sama. Anda mungkin perlu ahli tanaman untuk mengidentifikasi spesies tanaman tersebut. Namun, jika hanya membutuhkan untuk tahu bahwa tanaman tersebut serupa, maka Anda tidak memerlukan ahli. Konsep ini yang dinamakan klasterisasi (clustering).

Klasterisasi dapat dimanfaatkan dalam berbagai bidang, diantaranya adalah,

  1. Segmentasi konsumen β†’ Pengelompokkan konsumen berdasarkan aktivitas pembelian dan aktivitas belanja lainnya. Metode ini dapat dimanfaatkan untuk lebih mengetahui kebiasaan (behaviour) konsumen sehingga kita dapat menyusun strategi promoso yang lebih sesuai berdasarkan kelompoknya.

  2. Analisis data β†’ Analisis dataset ke dalam kelompok untuk proses analisis yang mendalam untuk setiap kelompok secara terpisah.

  3. Reduksi dimensi β†’ Melihat kesamaan (affinity) untuk setiap data di dalam kelompok yang sama. Fitur yang serupa pada setiap data dapat digantikan dengan fitur yang mewakili secara kelompok.

  4. Deteksi anomali β†’ Melihat data yang berbeda dengan data dalam satu kelompok

  5. Mesin pencari β†’ Banyak mesin pencari saat ini yang memungkinkan kita untuk melakukan pencarian berdasarkan gambar (search by images). Mesin pencari menampilkan hasil pencarian menggunakan metode klasterisasi untuk mencarikan gambar yang sejenis atau serupa.

  6. Segmentasi citra β†’ Memperloreh area yang menjadi fokus deteksi, contohnya adalah mencari area sel kanker pada citra organ tubuh.

Selanjutnya, pada materi ini kita akan berfokus pada dua metode klasterisasi yaitu KMeans, dan DBSCAN.

Tujuan

  1. Mampu memahami konsep klasterisasi.

  2. Mampu membuat model klasterisasi dengan KMeans.

  3. Mampu membuat model klasterisasi dengan DBSCAN.

  4. Mampu melakukan evaluasi performa model klasterisasi.

Last updated