π΅πΈPraktikum 1
OCR with Pytesseract and OpenCV
Deskripsi
Pada praktikum ini kita akan menerapkan teknik OCR dengan menggunakan tesseract dan openCV. Pytesseract or Python-tesseract merupakan alat OCR untuk Python yang juga berfungsi sebagai pembungkus untuk Mesin OCR Tesseract. Ia dapat membaca dan mengenali teks dalam gambar dan umumnya digunakan dalam kasus penggunaan ocr gambar ke teks menggunakan Python.
Selain itu juga berguna sebagai skrip panggilan mandiri untuk tesseract, karena dapat membaca semua jenis gambar yang didukung oleh perpustakaan gambar Pillow dan Leptonica, termasuk jpeg, png, gif, bmp, tiff, dan lainnya.
referensi lebih lengkap terkait pendekatan Python-tesseract dapat dibaca di sini.
Dataset
Dataset merupakan data citra yang digunakan dalam praktikum ini, pastikan koneksi Anda sebelum mengunduh dataset.
βΆοΈDOWNLOADβ¬ οΈ
Instalasi dan Import Library
!sudo apt install tesseract-ocr
!pip install pytesseract
!pip install opencv-pythonimport re
import cv2
import numpy as np
import pytesseract
from pytesseract import Output
from matplotlib import pyplot as pltPreprocessing images dengan OpenCV
Pada tahap ini kita akan akan menulis fungsi dasar untuk metode prapemrosesan yang berbeda, meliputi:
grayscaling
thresholding
dilating
eroding
opening
canny edge detection
noise removal
deskwing
template matching
Metode yang berbeda dapat berguna untuk jenis gambar yang berbeda
Mari kita bekerja dengan sebuah contoh Image untuk melihat segalanya dengan lebih baik. Seperti inilah gambar asli sebelum di proses

Selanjutnya lakukan pre-processing, dan setelah dilakukan preprocessing dengan kode berikut, makan akan didapatkan hasil imgae baru

Langkah selanjutnya akan kita lakukan ekstraksi data dari images tersebut dengan teknik OCR melalui code berikut
dari hasil OCR dengan tesseract, maka di dapatkan hasil dari masing image yang telah di pre-processing sebagai berikut
Last updated
Was this helpful?