๐ Seleksi Fitur
Dengan banyaknya teknik atau metode dalam membuat sebuah fitur, mungkin kita secara tidak sadar memiliki keinginan untuk melakukan ekstraksi fitur dengan menggunakan berbegai macam metode. Kita sebetulnya bermaksud untuk meningkatkan detail dari data agar mudah untuk dipelajari oleh mesin. Namun, pemikiran ini dapat menimbulkan efek sebaliknya. Peningkatan jumlah fitur akan menjadikan kompleksitas pembelajaran pada model dan berpotensi untuk overfitting. Peningkatan jumlah fitur ini juga berarti peningkatan dimensi. Semakin tinggi dimensi fitur semakin kompleks komputasi dan semakin besar juga biaya komputasi yang harus digunakan.
Oleh karena itu, pada praktiknya, kita membutuhkan proses seleksi fitur dan atau reduksi dimensi untuk mendapatkan fitur-fitur yang penting saja. Proses ini menjadikan dimensi fitur yang kita gunakan lebih sederhana, namun tetap mempertahankan proses generalisasi yang dilakukan oleh model. Sehingga model dapat mengenali objek dengan lebih baik dengan biaya komputasi yang relevan.
Pada bagian ini kita akan fokus terhadap seleksi fitur. Seleksi fitur adalah memilih fitur-fitur yang revelan untuk menggambarkan sebuah objek tanpa harus membuat fitur baru (seperti yang dilakukan pada reduksi dimensi). Beberapa metode umum yang dapat digunakan dalam proses seleksi fitur adalah, univariate statistics, model based feature selection, dan iterative feature selection.
Univariate Statistics
Salah satu metode yang paling sering digunakan adalah univariate statistics. Metode ini menggunakan uji statistika untuk mengetahui hubungan antara variabel independen (fitur) dengan variabel dependen-nya (target). Namun, metode ini melakukan uji terhadap satu per satu variabel independen dengan targetnya. Padahal, fitur yang bergantung dengan fitur yang lain (dalam statistika terdapat fenomena bernama multicolinearity) akan dibuang. Meskipun demikian, univariate statistics menawarkan proses analisis yang cepat dengan biaya komputasi yang rendah.
Beberapa metode univariate statistics yang biasa digunakan adalah,
ANOVA
Uji korelasi
Ukuran kecenderungan menengah
Sebaran data
Skewness dan kurtosis
Model Based Feature Selection
Seperti namanya, metode ini menggunakan model pembelajaran mesin untuk proses seleksi fitur. Model yang digunakan adalah model supervised learning. Model yang digunakan untuk proses seleksi fitur tidak harus sama dengan model yang digunakan pada saat pelatihan. Hal ini dikarenakan, pada tahap ini model hanya digunakan untuk memilih fitur yang paling relevan saja. Model pembelajaran mesin yang sering digunakan untuk proses pemilihan fitur adalah,
Decision Tree (DT)
Random Forest (RF)
Model tersebut akan memberikan ranking berdasarkan tingkat kepentingan dari sebuah fitur berdasarkan pengukuran tertentu.
Iterative Feature Selection
Pada univariate statistics, kita tidak menggunakan model sama sekali. Pada model based kita menggunakan satu model saja. Pada iterative feature selection, kita akan menggunakan beberapa model untuk melakukan seleksi fitur. Terdapat dua pendekatan dalam proses iterasinya,
Dimulai dengan tidak ada fitur sama sekali lalu menambahkan satu per satu hingga mendapatkan fitur yang diinginkan
Dimulai dengan semua fitur lalu membuang satu per satu fitur yang tidak revelan.
Dikarenakan teknik ini menggunakan beberapa model, maka proses dan biaya komputasinya akan lebih lama dan besar jika dibandingkan dengan dua metode sebelumnya. Salah satu model yang dapat digunakan adalah Random Forest.
Last updated