πData Latih, Validasi, dan Uji
Strategi Pembuatan Data Latih, Validasi, dan Uji
Random Split dan Stratified Split
Pemisahan antar jenis data yaitu data latih, data validasi, dan data uji untuk kebutuhan pembuatan model pembelajaran mesin sudah kita bahas pada modul sebelumnya. Pada modul yang lalu, kita telah mengenal random split untuk melakukan hal tersebut. Akan tetapi, terdapat teknik lain yang dapat kita gunakan untuk melakukan splitting data, yaitu stratified split atau stratified random split. Sedikit berbeda dengan random split, dimana kita langsung memilih secara acak data yang akan kita gunakan sebagai data latih, validasi, maupun uji, pada stratified split, teknik ini mengenal strata pada prosesnya.
Apa maksud dari strata (stratified)? Strata dalam konteks ini adalah kelompok, atau kita dapat menganologikannya sebagai label. Stratified split akan membagi data kedalam porsi latih, validasi, dan uji sesuai dengan proporsi setiap label atau kelas. Hal ini menyebabkan jumlah tiap label akan memiliki rasio yang sama. Pada ilmu statistika, teknik ini juga masuk dalam teknik sampling. Gambar 2.4 merupakan ilustrasi dari stratified sampling yang digunakan pada ilmu statistika.

Cross Validation
Setelah kita memahami bagaimana cara melakukan spliting data training, validasi, dan testing, pada bagian ini kita akan belajar terkait dengan teknik lain dalam melakukan splitting data, yaitu cross validation. Apa itu cross validation? cross validation adalah teknik pada machine leanring untuk mengevaluasi model dengan cara melakukan evaluasi berganda (multiple evaluation). Evaluasi berganda dilakukan dengan cara membagi data menjadi data latih dan uji, yang diistilahkan sebagai fold sedemiakan sehingga setiap data pernah menjadi data latih ataupun data uji. Hasil pengujian pada model ini adalah rata-rata hasil untuk setiap fold. Besaran spliting data akan ditentukan oleh nilai k-nya. Sebagai contoh, jika kita menggunakan nilai , maka data akan dibagi menjadi 4 bagian. Salah satu dari bagian tersebut akan menjadi data validasi. Kemudian, untuk setiap iterasi, data validasi akan diganti sesuai dengan jumlah fold. Untuk memudahkan pemahaman, perhatikan Gambar 2.5.

Last updated