πŸŒ‡Lab 2

Sekilas Ekstraksi Fitur TF-IDF

Pengantar

Pada praktikum ini kita akan melakukan proses ekstraksi fitur dengan menggunakan metode TF-IDF dengan data yang sangat sederhana. Dokumen-dokumen teks yang dicontohkan hanya memiliki beberapa kalimat. Dokumen ini dikumpulkan ke dalam corpus. Selanjutnya setiap dokumen didalam corpus akan dilakukan proses eksktraksi fitur.

Langkah 0 - Siapkan Corpus

corpus = [
    'the house had a tiny little mouse',
    'the cat saw the mouse',
    'the mouse ran away from the house',
    'the cat finally ate the mouse',
    'the end of the mouse story'
]

Langkah 1 - Buat Model TF-IDF

from sklearn.feature_extraction.text import TfidfVectorizer

# Inisiasi obyek TFidfVectorizer
vect = TfidfVectorizer(stop_words='english')

# Pembobotan TF-IDF
resp = vect.fit_transform(corpus)

# Cetak hasil
print(resp)

Anda akan mendapatkan hasil representasi vektor dari setiap kata didalam dokumen.

Hasil tersebut menunjukkan,

  1. (row, column) -> Row indeksmerupakan dokumen didalam corpus, sedangkan column merupakan indeks kata didalam fitur

  2. Values -> bobot hasil proses vektorisasi pada TF-IDF

Langkah 2 - Cek Kata yang Digunakan

Menghasilkan

Indeks kata dari list tersebut yang digunakan pada hasil sebelumnya.

Last updated