๐Lab 2
Sekilas Ekstraksi Fitur TF-IDF
Pengantar
Pada praktikum ini kita akan melakukan proses ekstraksi fitur dengan menggunakan metode TF-IDF dengan data yang sangat sederhana. Dokumen-dokumen teks yang dicontohkan hanya memiliki beberapa kalimat. Dokumen ini dikumpulkan ke dalam corpus. Selanjutnya setiap dokumen didalam corpus akan dilakukan proses eksktraksi fitur.
Langkah 0 - Siapkan Corpus
corpus = [
'the house had a tiny little mouse',
'the cat saw the mouse',
'the mouse ran away from the house',
'the cat finally ate the mouse',
'the end of the mouse story'
]Langkah 1 - Buat Model TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
# Inisiasi obyek TFidfVectorizer
vect = TfidfVectorizer(stop_words='english')
# Pembobotan TF-IDF
resp = vect.fit_transform(corpus)
# Cetak hasil
print(resp)Anda akan mendapatkan hasil representasi vektor dari setiap kata didalam dokumen.
(0, 7) 0.2808823162882302
(0, 6) 0.5894630806320427
(0, 11) 0.5894630806320427
(0, 5) 0.47557510189256375
(1, 9) 0.7297183669435993
(1, 2) 0.5887321837696324
(1, 7) 0.3477147117091919
(2, 1) 0.5894630806320427
(2, 8) 0.5894630806320427
(2, 7) 0.2808823162882302
(2, 5) 0.47557510189256375
(3, 0) 0.5894630806320427
(3, 4) 0.5894630806320427
(3, 2) 0.47557510189256375
(3, 7) 0.2808823162882302
(4, 10) 0.6700917930430479
(4, 3) 0.6700917930430479
(4, 7) 0.3193023297639811Hasil tersebut menunjukkan,
(row, column) -> Row indeksmerupakan dokumen didalam corpus, sedangkan column merupakan indeks kata didalam fitur
Values -> bobot hasil proses vektorisasi pada TF-IDF
Langkah 2 - Cek Kata yang Digunakan
print(vect.get_feature_names_out())Menghasilkan
['ate' 'away' 'cat' 'end' 'finally' 'house' 'little' 'mouse' 'ran' 'saw'
'story' 'tiny']Indeks kata dari list tersebut yang digunakan pada hasil sebelumnya.
Last updated