๐Ÿ“Praktikum 2

Pra Pengolahan Data - Data Terstruktur

Data Imputation

Pada praktikum ini kita akan mencoba melakukan data imputation terhadap data yang hilang (missing value). Dataset yang digunakan adalah dataset Titanic.

Langkah 0 - Persiapan

Lakukan import library yang dibutuhkan.

import pandas as pd
import numpy as np

Langkah 1 - Memuat Data

Lakukan loading data Titanic pada notebook.

df = pd.read_csv('Titanic-Dataset.csv')

# Tampilkan 5 data teratas
df.head()

Langkah 2 - Inspeksi Data

Anda dapat melakukan inspeksi singkat pada data untuk mendapatkan informasi ringkas yang diperlukan seperti pada Langkah 2 - Inspeksi Data.

Langkah 3 - Data Imputation

Pada langkah ini kita akan melakukan imputasi terdapat data yang hilang pada "Age", "Cabin", dan "Embarked".

Strategi yang akan kita gunakan adalah,

  • "Age" โ†’ Dikarenakan "Age" adalah data nominal, maka kita akan menggunakan strategi mean.

  • "Cabin" โ†’ "Cabin" merupakan informasi terkait dengan nomor kabin penumpang. Disini kita akan berasumsi bahwa, seluruh penumpang yang tidak memiliki nomor kabin, merupakan penumpang yang tinggal di dek-dek kapal. Sehingga kita akan mensubtitusi data yang hilang dengan informasi "DECK".

  • "Embarked" โ†’ "Embarked" merupakan informasi lokasi embarkasi penumpang. Hanya ada 2 data yang hilang disini. Dikarenakan data merupakan data nominal, maka kita dapat menggunakan modus (mode) untuk mensubtitusi data yang hilang.

# Age - mean
df['Age'].fillna(value=df['Age'].mean(), inplace=True)

# Cabin - "DECK"
df['Cabin'].fillna(value="DECK", inplace=True)

# Embarked - modus
df['Embarked'].fillna(value=df['Embarked'].mode, inplace=True)

Langkah 4 - Validasi Hasil

Lakukan pengecekan kembali dengan df.info(). Selanjutnya, kita juga dapat memastikan kembali apakah nilai yang diisikan sudah benar dengan melakukan pencekan data secara langsung. Hasil dari proses imputasi adalah sebagai berikut,

Last updated