🥇Klasterisasi Hierarki

Definisi & Konsep Dasar

Klasterisasi hierarki adalah salah satu metode dalam analisis data yang bertujuan untuk mengelompokkan data ke dalam struktur hierarkis, di mana setiap kelompok atau klaster memiliki hubungan dengan kelompok lainnya. Algoritma ini menghasilkan struktur data berbentuk pohon atau dendrogram, yang menggambarkan hubungan antar klaster berdasarkan kedekatannya. Klasterisasi hierarki dapat dibagi menjadi dua pendekatan utama: agglomerative (bottom-up) dan divisive (top-down).

Sebagai contoh pada Gambar 1, Bayangkan kita memiliki empat buah dengan berat yang berbeda: sebuah apel (100g), sebuah pisang (120g), sebuah ceri (50g), dan sebuah anggur (30g). Klasterisasi hierarki dimulai dengan memperlakukan setiap buah sebagai kelompoknya sendiri. Mulailah dengan setiap buah sebagai klaster tersendiri.

  1. Gabungkan item yang paling dekat: anggur (30g) dan ceri (50g) digabungkan terlebih dahulu.

  2. Selanjutnya, apel (100g) dan pisang (120g) digabungkan.

  3. Kemudian, kedua klaster ini digabung menjadi satu.

  4. Akhirnya semua buah digabung menjadi satu kelompok besar, menunjukkan bagaimana klasterisasi hierarki secara progresif menggabungkan titik data yang paling mirip.

Gambar 1

Pada Gambar 1 memperlihatkan konsep klasterisasi hierarkis (Hierarchical Clustering) dengan ilustrasi berbagai jenis buah sebagai titik data. Pada Level 1, terlihat bahwa buah-buahan yang sangat mirip, seperti Strawberry dan Cherry, dikelompokkan bersama, membentuk klaster inti. Level ini menunjukkan hubungan terdekat antar data dan menekankan kesamaan karakteristik seperti bentuk dan ukuran.

Pada Level 2, klaster-klaster dari Level 1 digabung menjadi kelompok yang lebih besar berdasarkan kesamaan relatif. Misalnya, klaster Strawberry-Cherry digabung dengan klaster Blueberry-Raspberry, membentuk klaster menengah. Level ini memperlihatkan pola hierarki yang lebih luas, sehingga hubungan antar kelompok buah yang berbeda dapat terlihat dengan jelas.

Akhirnya, pada Level 3, seluruh klaster dari Level 2 digabung menjadi satu klaster global, mencakup semua buah. Level tertinggi ini menunjukkan struktur keseluruhan data, memperlihatkan bagaimana seluruh klaster saling terkait dari yang paling spesifik hingga yang paling umum.

Dengan melihat setiap level, kita dapat memahami bagaimana titik-titik data digabung secara bertahap, mengenali pola kemiripan, dan menentukan jumlah klaster yang sesuai untuk analisis lebih lanjut. Secara keseluruhan, gambar ini menekankan sifat bersarang dan bertingkat dari klasterisasi hierarkis, sehingga memudahkan interpretasi struktur dan relasi dalam dataset.

Dendogram

Proses klasterisasi hierarki dilakukan dengan membangun klaster secara bertahap, baik dengan menggabungkan klaster-klaster yang lebih kecil secara progresif maupun dengan memecah klaster besar menjadi beberapa klaster yang lebih kecil. Proses ini biasanya divisualisasikan menggunakan dendrogram, yaitu sebuah diagram berbentuk pohon yang menggambarkan hubungan antar klaster. Visualisasi ini sangat berguna untuk memahami tingkat kemiripan antar data, karena dendrogram menunjukkan bagaimana titik-titik data atau klaster-klaster digabungkan atau dipisahkan pada setiap tahap, sehingga mempermudah analisis struktur dan pola dalam dataset.

Dendrogram dapat dianalogikan sebagai pohon keluarga klaster.

  • Bagian bawah: setiap titik data masih berdiri sendiri.

  • Naik ke atas: titik-titik yang mirip mulai bergabung.

  • Tinggi garis penghubung: menunjukkan tingkat kemiripan (semakin pendek garis = semakin mirip).

Gambar 2

Gambar 2 menampilkan dendrogram yang merepresentasikan proses penggabungan klaster dalam klasterisasi hierarkis. Pada bagian paling bawah, setiap titik data, yaitu A, B, C, D, E, dan F, awalnya dianggap sebagai klaster terpisah. Titik-titik ini merepresentasikan unit data individu sebelum penggabungan.

Proses penggabungan dimulai dari titik-titik yang memiliki kemiripan paling tinggi. Misalnya, titik A dan B digabung terlebih dahulu karena jarak atau tingkat kesamaan mereka paling dekat. Secara paralel, titik C dan D juga membentuk klaster awal yang terpisah karena kemiripan internal mereka. Selanjutnya, klaster C-D digabung dengan E-F, membentuk klaster yang lebih besar pada level berikutnya.

Ketinggian cabang pada dendrogram menunjukkan tingkat jarak atau perbedaan antar klaster; semakin tinggi cabang tempat dua klaster digabung, semakin besar perbedaan antar klaster tersebut. Dengan memotong dendrogram pada ketinggian tertentu, kita dapat menentukan jumlah klaster akhir yang diinginkan. Misalnya, pemotongan di ketinggian menengah menghasilkan dua atau tiga klaster utama, tergantung pada jarak antar cabang.

Jenis Klasterisasi Hierarki

Terdapat dua jenis utama:

  1. Agglomerative (Bottom-Up / HAC).

  2. Divisive (Top-Down).

1. Agglomerative Hierarchical Clustering (Bottom-Up / HAC)

Pada metode Agglomerative (Bottom-Up), proses dimulai dengan setiap titik data dianggap sebagai klaster individual. Secara bertahap, klaster-klaster yang paling mirip digabung menjadi klaster yang lebih besar. Gambar menunjukkan bahwa titik-titik yang memiliki kemiripan tinggi digabung terlebih dahulu, kemudian klaster-klaster tersebut digabung lagi hingga akhirnya membentuk satu klaster global yang mencakup seluruh data. Pendekatan ini bersifat progresif dan fokus pada penggabungan bertahap dari unit terkecil ke level yang lebih tinggi.

Gambar 3

Sebagaimana terlihat pada Gambar 3, tahap awal (Step 1) menampilkan enam data tunggal, yaitu A, B, C, D, E, dan F, yang masing-masing diperlakukan sebagai klaster individu. Pada Step 2. Pada tahap kedua, B dan C bergabung menjadi BC, serta D dan E membentuk DE. Selanjutnya, DE digabung dengan F menjadi DEF, kemudian klaster BC dan DEF digabung menjadi BCDEF. Akhirnya, klaster A menyatu dengan BCDEF, sehingga terbentuk satu klaster global ABCDEF.

Alur kerja dari Hierarchical Agglomerative Clustering dapat dijelaskan sebagai berikut:

  1. Start with individual points – Proses dimulai dengan setiap data sebagai klaster terpisah. Jika terdapat lima data, maka akan terbentuk lima klaster, masing-masing berisi satu data.

  2. Calculate distances between clusters – Menghitung jarak antara setiap pasangan klaster. Pada tahap awal, karena setiap klaster hanya berisi satu titik, perhitungan ini setara dengan menghitung jarak antar titik data.

  3. Merge the closest clusters – Menentukan dua klaster dengan jarak paling kecil, kemudian menggabungkannya menjadi satu klaster baru.

  4. Update distance matrix – Setelah penggabungan, jumlah klaster berkurang. Maka, jarak antara klaster baru dan klaster yang tersisa perlu dihitung ulang.

  5. Repeat steps 3 and 4 – Proses penggabungan dan perhitungan ulang jarak ini terus berlanjut hingga hanya tersisa satu klaster besar.

  6. Create a dendrogram – Sepanjang proses, hasil penggabungan dapat divisualisasikan dalam bentuk dendrogram, yaitu diagram berbentuk pohon yang menggambarkan urutan serta tingkat kemiripan antar klaster pada setiap tahap.

Proses ini menggambarkan prinsip agglomerative clustering yang membangun hierarki dari unit terkecil hingga menjadi klaster tunggal yang merepresentasikan keseluruhan data, sebagaimana divisualisasikan melalui dendrogram.

2. Divisive Hierarchical Clustering

Metode Divisive (Top-Down) dimulai dari satu klaster besar yang mencakup semua titik data. Klaster ini kemudian dibagi secara bertahap menjadi klaster-klaster yang lebih kecil berdasarkan ketidakmiripan antar data. Gambar menunjukkan bagaimana klaster besar pertama dibagi menjadi dua klaster utama, kemudian masing-masing klaster dibagi lagi menjadi subklaster hingga terbentuk titik-titik data individual. Pendekatan ini menekankan pemecahan secara iteratif dari struktur global ke unit yang lebih spesifik.

Berbeda dengan pendekatan agglomerative yang dimulai dari unit terkecil, metode Divisive (Top-Down) bekerja dengan arah yang berlawanan. Proses dimulai dengan menganggap seluruh data sebagai satu klaster besar, kemudian klaster tersebut secara bertahap dipisahkan menjadi sub-klaster yang lebih kecil. Proses pemisahan ini terus berlangsung hingga setiap data dapat berdiri sebagai klaster individual.

Pada Gambar 2, alur divisive clustering dapat diamati melalui lima tahap utama:

  • Step 1: Seluruh data (A, B, C, D, E, F) berada dalam satu klaster besar ABCDEF.

  • Step 2: Klaster global dipisahkan menjadi dua kelompok besar, yaitu BCDEF dan A.

  • Step 3: Klaster BCDEF kemudian dibagi menjadi BC dan DEF.

  • Step 4: Klaster DEF dipisahkan lebih lanjut menjadi DE dan F.

  • Step 5: Klaster DE akhirnya dipisahkan menjadi data individual D dan E, sehingga seluruh data kembali ke bentuk klaster tunggal pada level terendah.

Proses ini memperlihatkan karakteristik top-down, di mana pembentukan klaster dilakukan dengan membagi kelompok besar ke dalam sub-klaster berdasarkan perbedaan atau heterogenitas data. Visualisasi ini pada dasarnya merupakan kebalikan dari agglomerative clustering, namun keduanya sama-sama dapat divisualisasikan melalui dendrogram yang menggambarkan hierarki hubungan antar data.

Kelemahan dan Tantangan dalam Klasterisasi Hierarki

Meskipun klasterisasi hierarki memiliki banyak keunggulan, terdapat beberapa kelemahan dan tantangan yang perlu diperhatikan:

  • Kompleksitas Komputasional: Klasterisasi hierarki, terutama pada pendekatan agglomerative, dapat menjadi sangat kompleks dan memerlukan banyak sumber daya komputasi, terutama saat menangani dataset besar. Proses perhitungan jarak antar klaster yang harus dilakukan pada setiap tahap penggabungan atau pembagian sangat mahal secara komputasi.

  • Kesulitan dalam Menangani Noise: Salah satu tantangan utama dalam klasterisasi hierarki adalah penanganan noise atau data yang tidak sesuai dengan pola utama dalam dataset. Noise dapat menyebabkan klasterisasi yang tidak akurat dan mengganggu proses pengelompokan.

  • Pemilihan Metrik Jarak: Hasil klasterisasi sangat dipengaruhi oleh pemilihan metrik jarak yang digunakan, seperti Euclidean distance atau Manhattan distance. Pemilihan metrik yang tidak tepat dapat menyebabkan hasil klasterisasi yang kurang representatif.

  • Kesulitan dalam Mengelola Data dengan Kepadatan Tidak Seragam: Klasterisasi hierarki sering kali kesulitan dalam menangani data dengan kepadatan yang tidak merata. Ini bisa mengarah pada pembentukan klaster yang tidak akurat atau tidak relevan, terutama pada data yang memiliki variabilitas tinggi dalam hal distribusi.

Karena tantangan-tantangan ini, banyak penelitian yang mengarah pada pengembangan algoritma klasterisasi yang lebih robust dan mampu mengatasi masalah tersebut, salah satunya adalah HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise), yang menggabungkan kekuatan klasterisasi berbasis kepadatan dengan pendekatan hierarki.

Pada bahasan berikut nya akan dibahas terkait HDBSCAN, yang merupakan salah satu algoritma yang mengatasi masalah khususnya dalam menangani noise dan data dengan kepadatan tidak seragam. HDBSCAN menggabungkan keuntungan dari pendekatan berbasis kepadatan dan hierarki, serta memberikan solusi yang lebih fleksibel dan robust dalam konteks dataset yang kompleks. Pada bagian selanjutnya, kita akan membahas bagaimana HDBSCAN bekerja dan mengapa algoritma ini menjadi pilihan yang lebih baik untuk banyak jenis data.

Last updated