🔭Exploratory Data Analysis (EDA)

Apa itu EDA?

Exploratory Data Analysis (EDA) adalah suatu proses analisis awal di mana data dianalisis secara visual dan statistik untuk memahami pola, menemukan anomali, memeriksa asumsi, dan memeriksa hubungan antar variabel. EDA penting dalam alur (pipeline) pembuatan model pembelajaran mesin karena membantu memastikan kualitas data, mengidentifikasi data yang mungkin perlu diubah atau dibersihkan, serta memberikan wawasan awal yang dapat memandu pemilihan dan pengembangan model secara lebih tepat.

Inspeksi Visual

Salah satu tahap penting dalam Exploratory Data Analysis (EDA) adalah melakukan inspeksi visual. Tujuan dari inspeksi visual adalah untuk melihat pola, distribusi, serta anomali dalam data dengan bantuan grafik. Melalui visualisasi, informasi yang terkandung dalam angka-angka dapat ditangkap secara lebih intuitif dan cepat.

Sebagai contoh, mari kita ambil kasus dataset Titanic yang sangat terkenal di dunia data science. Dataset ini berisi informasi penumpang Titanic seperti umur, tarif tiket (fare), dan status keselamatan (survived).

Pertama, kita bisa melihat distribusi umur penumpang dengan menggunakan histogram. Grafik ini memperlihatkan bahwa sebagian besar penumpang berada pada rentang usia 20–40 tahun. Informasi ini membantu kita memahami komposisi umur penumpang, apakah data seimbang atau lebih condong pada kelompok usia tertentu.

Selanjutnya, kita dapat menggunakan boxplot untuk menganalisis tarif tiket. Dari hasil visualisasi, terlihat adanya beberapa penumpang yang membeli tiket dengan harga jauh lebih mahal dibanding rata-rata. Nilai-nilai ekstrem ini disebut outlier, dan bisa menunjukkan kelas sosial yang berbeda. Informasi ini penting karena kelas sosial diduga memengaruhi peluang keselamatan pada tragedi Titanic.

Kemudian, dengan menggunakan scatter plot antara umur dan tarif tiket, kita dapat melihat hubungan antara kedua variabel tersebut. Jika kita warnai titik-titik berdasarkan status keselamatan, tampak bahwa penumpang yang lebih muda dengan tiket relatif mahal memiliki peluang selamat lebih tinggi. Dari sini, kita mulai mendapatkan gambaran bahwa faktor umur dan kelas sosial (dilihat dari harga tiket) berhubungan dengan peluang selamat.

Melalui ketiga contoh visualisasi ini, kita dapat memahami data dengan lebih baik. Inspeksi visual membantu mengungkap pola yang tidak terlihat hanya dengan melihat angka-angka. Selain itu, visualisasi juga mempermudah kita dalam menjelaskan temuan kepada orang lain yang mungkin tidak memiliki latar belakang statistika yang kuat.

Inspeksi Korelasi

Setelah kita memahami distribusi data dan menemukan adanya outlier melalui histogram dan boxplot, tahap selanjutnya dalam Exploratory Data Analysis (EDA) adalah melakukan inspeksi korelasi. Tujuan dari langkah ini adalah untuk melihat sejauh mana dua variabel saling berhubungan. Korelasi dapat memberikan gambaran awal tentang apakah suatu variabel berpotensi berpengaruh terhadap variabel target.

Secara umum, ada tiga jenis hubungan yang bisa terjadi:

  • Korelasi positif, ketika kenaikan nilai satu variabel cenderung diikuti kenaikan variabel lain.

  • Korelasi negatif, ketika kenaikan nilai satu variabel cenderung diikuti penurunan variabel lain.

  • Tidak ada korelasi, ketika perubahan satu variabel tidak memberikan pengaruh yang jelas terhadap variabel lain.

Mari kita ambil contoh dataset Titanic sederhana, dengan tiga variabel: Age (Umur penumpang), Fare (Tarif tiket), dan Survived (Keselamatan).

Dengan menghitung korelasi, kita menemukan bahwa Fare memiliki korelasi positif dengan Survived. Artinya, penumpang yang membeli tiket lebih mahal cenderung memiliki peluang selamat lebih besar. Hal ini sesuai dengan kenyataan bahwa tiket mahal biasanya dimiliki oleh penumpang kelas satu yang mendapat akses lebih cepat ke sekoci penyelamat.

Sementara itu, variabel Age tidak menunjukkan hubungan yang kuat dengan Survived. Jadi, meskipun usia penting untuk dipahami dalam distribusi data, ternyata tidak memiliki peran besar dalam memengaruhi peluang keselamatan.

Untuk membantu memahami hubungan antar variabel, kita bisa menggunakan dua bentuk visualisasi populer:

  1. Heatmap Korelasi Heatmap menampilkan matriks korelasi antar semua variabel numerik. Warna pada heatmap menunjukkan kekuatan dan arah hubungan. Dalam kasus Titanic, terlihat bahwa Fare dan Survived memiliki hubungan yang lebih jelas dibandingkan variabel lainnya.

  2. Scatter Plot Scatter plot digunakan untuk melihat hubungan langsung antara dua variabel. Misalnya, dengan memplot Age pada sumbu-x dan Fare pada sumbu-y, serta memberi warna berdasarkan status Survived, kita dapat mengamati bahwa beberapa penumpang dengan tarif tinggi lebih sering selamat. Sebaliknya, pada tarif rendah, peluang selamat terlihat lebih acak.

Last updated