πŸ‡΅πŸ‡ΈPraktikum 1

OCR with Pytesseract and OpenCV

Deskripsi

Pada praktikum ini kita akan menerapkan teknik OCR dengan menggunakan tesseract dan openCV. Pytesseract or Python-tesseract merupakan alat OCR untuk Python yang juga berfungsi sebagai pembungkus untuk Mesin OCR Tesseract. Ia dapat membaca dan mengenali teks dalam gambar dan umumnya digunakan dalam kasus penggunaan ocr gambar ke teks menggunakan Python.

Selain itu juga berguna sebagai skrip panggilan mandiri untuk tesseract, karena dapat membaca semua jenis gambar yang didukung oleh perpustakaan gambar Pillow dan Leptonica, termasuk jpeg, png, gif, bmp, tiff, dan lainnya.

referensi lebih lengkap terkait pendekatan Python-tesseract dapat dibaca di sini.

Dataset

Dataset merupakan data citra yang digunakan dalam praktikum ini, pastikan koneksi Anda sebelum mengunduh dataset.

▢️DOWNLOAD⬅️

Instalasi dan Import Library

!sudo apt install tesseract-ocr
!pip install pytesseract
!pip install opencv-python
import re
import cv2 
import numpy as np
import pytesseract
from pytesseract import Output
from matplotlib import pyplot as plt

Preprocessing images dengan OpenCV

Pada tahap ini kita akan akan menulis fungsi dasar untuk metode prapemrosesan yang berbeda, meliputi:

  • grayscaling

  • thresholding

  • dilating

  • eroding

  • opening

  • canny edge detection

  • noise removal

  • deskwing

  • template matching

Metode yang berbeda dapat berguna untuk jenis gambar yang berbeda

Mari kita bekerja dengan sebuah contoh Image untuk melihat segalanya dengan lebih baik. Seperti inilah gambar asli sebelum di proses

original image

Selanjutnya lakukan pre-processing, dan setelah dilakukan preprocessing dengan kode berikut, makan akan didapatkan hasil imgae baru

Setelah pre-processing

Langkah selanjutnya akan kita lakukan ekstraksi data dari images tersebut dengan teknik OCR melalui code berikut

dari hasil OCR dengan tesseract, maka di dapatkan hasil dari masing image yang telah di pre-processing sebagai berikut

Last updated

Was this helpful?