๐ฝJenis-Jenis Data
Perspektif Statistika dan Bentuk Data
Jenis-Jenis Variabel
Dalam ilmu statistika, variabel dapat didefinisikan sebagai faktor-faktor yang berperan dalam peristiwa atau gejala yang akan diamati. Sedangkan data, merupakan nilai asli dari variabel. Dalam pembelajaran mesin, kita dapat mendefinisikan variabel sebagai pola-pola awal yang menggambarkan karakteristik sebuah objek atau data.
Berdasarkan jenis datanya, variabel dapat diklasifikasikan menjadi,
Variabel Kuantitatif โ Berbentuk angka; didapatkan dari proses perhitungan atau pengukuran
Variabel Diskrit โ Didapatkan dari proses perhitungan; tidak ada nilai diantara dua nilai. Contoh: Jumlah mahasiswa Polinema
Variabel Kontinu โ Didapatkan dari proses pengukuran; terdapat nilai diantara dua nilai. Contoh: Panjang meja, berat badan, tinggi badan
Variabel Kualitatif โ Berbentuk kategorikal, klasifikasi, atau deskripsi atribut
Variabel Ordinal โ Secara alamiah memilih urutan atau tingkatan. Contoh: Tinggi, sedang, pendek.
Variabel Nominal โ Secara alamiah tidak memiliki tingkatan. Contoh: Merah, kuning, hijau.
Jenis-Jenis Data
Setelah kita memahami jenis-jenis variabel, kita juga perlu memahami jenis-jenis data. Jenis data dalam konteks ini adalah berdasarkan format dan skema. Secara umum terdapat 3 jenis data, yaitu,
Data terstruktur
Data tidak terstruktur
Data semi-terstruktur
Data Terstruktur
Seperti namanya, data terstruktur merupakan data dengan format dan skema yang jelas. Biasanya data akan dimasukkan ke dalam baris dan kolom yang berisi informasi. Kolom-kolom tersebut mendefinisikan model dari datanya. Data terstruktur juga dikenal sebagai data tabular. Biasanya, skema atau struktur dari data terstruktur sudah didefinisikan dari awal. Skema dari data terstruktur bergantung dari designer yang mendefinisikan model skema datanya. Contoh dari data terstruktur adalah data pada spreadsheet ataupun pada database SQL. Gambar di bawah ini merupakan ilustrasi dari contoh data terstruktur.
Keunggulan utama dari data testruktur adalah kemudahan dalam pengolahan data dikenarkan format dan skemanya yang jelas. Akan tetapi, data jenis ini sulit untuk beradaptasi dengan perubahan dikarenakan skema atau strukturnya sudah sudah ditetapkan dari awal.
Data Tidak Terstruktur
Kebalikan dari data terstruktur, data tidak testruktur tidak memiliki memiliki format atau skema yang baku. Data ini dapat berupa text pada email, gambar, video, ataupun audio. Data ini lebih sulit untuk dianalisis dikarenakan tidak memiliki skema yang baku. Diperlukan proses kognitif untuk mengolah data tidak terstruktur. Keunggulan dari data tidak terstruktur adalah fleksibilitas dalam menyimpan informasi.
Data Semi-Terstruktur
Merupakan data dengan skema diantara terstruktur dan tidak terstruktur. Beberapa bagian dari data dapat memiliki struktur tertentu dan sebagian lainnya tidak. Biasanya informasi didalam data ditandai dengan "keys" ataupun "tags". Dokumen Javascript Object Notation (JSON) merupakan contoh dari data semi-terstruktur. Contoh lain dari jenis ini adalah dokumen Extensible Markup Language (XML).
Kode dibawah ini merupakan contoh dokumen JSON yang menggambarkan data semi-terstruktur.
[
"mahasiswa": {
"nim": "52101000175",
"nama": "Alex Gorgon",
"jenis_kelamin": "L",
"dosen_wali": "Raiden Kolomogorov",
"ipk": 3.5,
"perkuliahan": [
"Dasar Pemrograman",
"Pemrograman Berbasis Objek",
"Statistika",
"Pembelajaran Mesin"
]
},
"mahasiswa": {
"nim": "52101000199",
"nama": "Kenkei Reinan",
"jenis_kelamin": "P",
"dosen_wali": "Raiden Kolomogorov",
"ipk": 3.75,
"perkuliahan": [
"Dasar Pemrograman",
"Pemrograman Berbasis Objek",
"Statistika",
"Pembelajaran Mesin"
],
"prestasi": [
"Juara 1 GEMASTIK",
"Puteri Indoensia 2045",
"Juara 1 Liga Voli Mahasiswa"
]
}
]
Dokumen JSON tersebut berisi informasi tentang profil mahasiswa pada sebuah kampus. Berdasarkan dokumen tersebut kita dapat mengambil berbagai macam informasi sesuai dengan keys yang diberikan, seperti "nim" ataupun "nama". Dari dokumen JSON tersebut kita juga dapat dengan jelas mengetahui bahwa perbedaan antara data satu dengan data yang lainnya tidak dibedakan berdasarkan baris ataupun kolom, melainkan menggunakan bentuk array ataupun dictionary. Strukturnya-pun sangat memungkinkan berbeda antara satu data dengan yang lain.
Keunggulan utama dari data jenis ini adalah lebih fleksibel dibandingkan dengan data terstruktur. Namun, dikarenakan strukturnya yang memungkinkan berbeda antara data satu dengan yang lain, proses query dan analisis menjadi lebih kompleks.
Last updated