๐ Proses Ekstraksi Fitur
Pada bagian ini kita akan mempelajari secara singkat proses ekstraksi fitur pada berbagai jenis data, yaitu data tabular, data teks, dan data citra
Ekstraksi Fitur Pada Data Tabular
Ekstraksi fitur pada tabular sebetulnya merupakan proses yang straight forward atau langsung. Mengapa demikian? Hal ini dikarenakan nilai-nilai yang disimpan pada kolom-kolom data tabular biasanya dapat diidentifikasi secara langsung mana yang variabel independen dan mana yang merupakan variabel dependen. Kita kembali kepada contoh dataset Titanic.

Dataset ini dapat digunakan untuk menjawab pertanyaan "penumpang seperti apa yang selamat dari tragedi Titanic?". Seluruh kolom pada dataset tersebut dapat menjadi fitur. Akan tetapi kita terlebih dahulu harus menentukan, kolom maka yang akan menjadi target atau variabel dependen. Langkah sederhananya,
Tentukan variabel (kolom) yang menjadi target atau dependen variabel. Dalam hal ini adalah informasi terkait selamat atau tidaknya penumpang. Kita dapat menggunakan kolom Survived.
Selanjutnya, terdapat kolom yang sangat tidak relevan sebagai fitu, yaitu PassengerId. Mengapa? Jika diamati, PassengerId hanya berisi informasi urutan data.
Kolom yang lain dapat kita asumsikan sebagai fitur.
Namun fitur menggunakan langkah sederhana ini dapat langsung kita gunakan untuk melatih model? Belum tentu! Oleh karena itu pada bab sebelumnya kita melakukan proses EDA untuk mengetahui dengan lebih baik fitur-fitur yang dianggap relevan, dan dilanjutkan dengan proses pra pengolahan data.
Ekstraksi Fitur Pada Data Teks
Banyak permasalahan yang diselesaikan dengan pembelajaran mesin menggunakan data teks sebagai sumber data utama, contohnya adalah natural language processing (NLP) atau dalam bahasa Indonesia dikenal sebagai pemrosesan bahasa alami. NLP banyak digunakan dibanyak kasus, seperti sentimen analisis hingga chatbot berbasis large language model (LLM) yang saat ini sangat populer.
Berbeda dengan data tabulan, dikarenakan data teks merupakan data tidak terstruktur, maka proses ekstraksi fitur harus dilakukan dengan melakukan proses transformasi ke dalam bentuk vektor untuk menencode berbagai aspek dalam teks yang memiliki makna.
Proses ekstraksi fitur pada data teks secara umum (dan konvensional) adalah,
Representasi vektor dengan model bag-of-words.
Stop word removal.
Stemming dan lemmatization
Pembobotan dengan Term Frequency-Inverse Document Frequency (TF-IDF).
Selain itu, terdapat pendekatan lain dalam pembuatan vektor dari data teks, yaitu dengan konsep word embedding.
Ekstraksi Fitur Pada Data Citra
Data tidak terstruktur lain yang sangat sering digunakan untuk penyelesaian masalah dengan menggunakan pendekatan pembelajaran mesin adalah citra. Proses ekstraksi fitur pada citra lebih mendalam dapat dipelajari pada cabang ilmu komputer yaitu pengolahan citra atau computer vision.
Sebelum melakukan proses ekstraksi fitur pada citra, terdapat beberapa hal yang perlu dipahami,
Citra digital merupakan sebuah raster atau pixmap yang memetakan warna ke dalam titik-titik koordinat sebuah grid yang kita sebut sebagai pixel.
Teknik tersebut memungkinkan kita memandang citra digital sebagai sebuah matriks dimana setiap elemen merepresentasikan sebuah warna.
Fitur dasar dari citra digitil secara paling sederhana dapat direpresentasikan dengan vektor yang didapatkan dari penggabungan nilai setiap baris dari vektor (concatinate).
Ilustrasi citra di bawah ini merupakan bentuk citra digital untuk sebuah digit 0 dari tulisan tangan.

Jika diamati, kita dapat mengenali pola citra tersebut berdasarkan tingkat intensisat warnanya. Dalam kasus ini, intensitas warna di kodekan mulai 0 hingga 16. 0 untuk intensistas warna putih tertinggi dan 16 untuk intensitas warna hitam tertinggi. Jika diolah maka kita akan mendapatkan hasil seperti gambar potongan kode berikut,

Pada gambar, output merupakan nilai intensitas setiap pixel dari citra digital.
Terdapat metode lain dalam proses ekstraksi fitur pada citra, diantaranya adalah,
Berbasis warna โ Histogram dari setiap channel warna yang digunakan (RGB, HSV, Lab).
Berdasarkan tekstur
Local Binary Pattern (LBP)
Gray Level Co-occurance Matrix (GLCM)
Filter Gabor
Berbasis konvolusi dan neural network
Neural network (NN)
Convolutional neural network (CNN)
Cabang ilmu pengolahan citra merupakan cabang yang masih sangat berkembang hingga saat ini, sehingga masih banyak metode-metode ekstraksi fitur yang lebih baik dimasa mendatang.
Last updated