๐ŸŒ‡Lab 2

Sekilas Ekstraksi Fitur TF-IDF

Pengantar

Pada praktikum ini kita akan melakukan proses ekstraksi fitur dengan menggunakan metode TF-IDF dengan data yang sangat sederhana. Dokumen-dokumen teks yang dicontohkan hanya memiliki beberapa kalimat. Dokumen ini dikumpulkan ke dalam corpus. Selanjutnya setiap dokumen didalam corpus akan dilakukan proses eksktraksi fitur.

Langkah 0 - Siapkan Corpus

corpus = [
    'the house had a tiny little mouse',
    'the cat saw the mouse',
    'the mouse ran away from the house',
    'the cat finally ate the mouse',
    'the end of the mouse story'
]

Langkah 1 - Buat Model TF-IDF

from sklearn.feature_extraction.text import TfidfVectorizer

# Inisiasi obyek TFidfVectorizer
vect = TfidfVectorizer(stop_words='english')

# Pembobotan TF-IDF
resp = vect.fit_transform(corpus)

# Cetak hasil
print(resp)

Anda akan mendapatkan hasil representasi vektor dari setiap kata didalam dokumen.

(0, 7)	0.2808823162882302
(0, 6)	0.5894630806320427
(0, 11)	0.5894630806320427
(0, 5)	0.47557510189256375
(1, 9)	0.7297183669435993
(1, 2)	0.5887321837696324
(1, 7)	0.3477147117091919
(2, 1)	0.5894630806320427
(2, 8)	0.5894630806320427
(2, 7)	0.2808823162882302
(2, 5)	0.47557510189256375
(3, 0)	0.5894630806320427
(3, 4)	0.5894630806320427
(3, 2)	0.47557510189256375
(3, 7)	0.2808823162882302
(4, 10)	0.6700917930430479
(4, 3)	0.6700917930430479
(4, 7)	0.3193023297639811

Hasil tersebut menunjukkan,

  1. (row, column) -> Row indeksmerupakan dokumen didalam corpus, sedangkan column merupakan indeks kata didalam fitur

  2. Values -> bobot hasil proses vektorisasi pada TF-IDF

Langkah 2 - Cek Kata yang Digunakan

print(vect.get_feature_names_out())

Menghasilkan

['ate' 'away' 'cat' 'end' 'finally' 'house' 'little' 'mouse' 'ran' 'saw'
 'story' 'tiny']

Indeks kata dari list tersebut yang digunakan pada hasil sebelumnya.

Last updated