๐Praktikum 2
Pra Pengolahan Data - Data Terstruktur
Data Imputation
Pada praktikum ini kita akan mencoba melakukan data imputation terhadap data yang hilang (missing value). Dataset yang digunakan adalah dataset Titanic.
Langkah 0 - Persiapan
Lakukan import library yang dibutuhkan.
import pandas as pd
import numpy as np
Langkah 1 - Memuat Data
Lakukan loading data Titanic pada notebook.
df = pd.read_csv('Titanic-Dataset.csv')
# Tampilkan 5 data teratas
df.head()
Langkah 2 - Inspeksi Data
Anda dapat melakukan inspeksi singkat pada data untuk mendapatkan informasi ringkas yang diperlukan seperti pada Langkah 2 - Inspeksi Data.
Langkah 3 - Data Imputation
Pada langkah ini kita akan melakukan imputasi terdapat data yang hilang pada "Age", "Cabin", dan "Embarked".
Strategi yang akan kita gunakan adalah,
"Age" โ Dikarenakan "Age" adalah data nominal, maka kita akan menggunakan strategi mean.
"Cabin" โ "Cabin" merupakan informasi terkait dengan nomor kabin penumpang. Disini kita akan berasumsi bahwa, seluruh penumpang yang tidak memiliki nomor kabin, merupakan penumpang yang tinggal di dek-dek kapal. Sehingga kita akan mensubtitusi data yang hilang dengan informasi "DECK".
"Embarked" โ "Embarked" merupakan informasi lokasi embarkasi penumpang. Hanya ada 2 data yang hilang disini. Dikarenakan data merupakan data nominal, maka kita dapat menggunakan modus (mode) untuk mensubtitusi data yang hilang.
# Age - mean
df['Age'].fillna(value=df['Age'].mean(), inplace=True)
# Cabin - "DECK"
df['Cabin'].fillna(value="DECK", inplace=True)
# Embarked - modus
df['Embarked'].fillna(value=df['Embarked'].mode, inplace=True)
Langkah 4 - Validasi Hasil
Lakukan pengecekan kembali dengan df.info()
. Selanjutnya, kita juga dapat memastikan kembali apakah nilai yang diisikan sudah benar dengan melakukan pencekan data secara langsung. Hasil dari proses imputasi adalah sebagai berikut,

Last updated