Implementasi Hirarki Dataset Dalam Membangun Model Language Aksara Bali Menggunakan Framework Tesseract OCR

Authors

  • Ahmad Asroni Universitas Pendidikan Ganesha
  • Gede Indrawan
  • Luh Joni Erawati Dewi

DOI:

https://doi.org/10.31598/jurnalresistor.v6i1.1345

Keywords:

aksara bali, optical character recognition, tesseract ocr, web scraping, hirarki dataset

Abstract

Penurunan penggunaan Aksara Bali saat ini disebabkan oleh kurangnya minat masyarakat Bali dalam mempelajarinya, karena proses pengenalan Aksara Bali relatif rumit. Oleh karena itu, teknologi Optical Character Recognition (OCR) telah dikembangkan untuk membantu mengatasi masalah ini. Penelitian ini bertujuan untuk mengimplementasikan salah satu mesin OCR terkemuka, yaitu Tesseract OCR, untuk mengenali karakter Aksara Bali. Proses percobaan terdiri dari empat tahap, yaitu menyusun dataset, membangkitkan dataset menggunakan metode Web Scraping, melatih dataset, dan mengimplementasikan bahasa model ke dalam platform berbasis mobile. Hasil penelitian menunjukkan bahwa penggunaan metode Web Scraping untuk pembangkitan dataset lebih unggul dibandingkan dengan dataset training tradisional, yang membutuhkan dataset yang besar. Hasil bahasa model terbaik yang dihasilkan adalah kombinasi dataset karakter, kata, kalimat, dan paragraf dengan tingkat ketepatan sebesar 66,67%. Tingkat kecocokan semakin tinggi jika dataset semakin beragam dan terstruktur hirarkinya. Penelitian ini dapat memberikan solusi untuk mengatasi masalah penurunan penggunaan Aksara Bali dengan memanfaatkan teknologi OCR untuk memudahkan proses pengenalan karakter Aksara Bali. Selain itu, hasil penelitian ini juga dapat digunakan sebagai acuan untuk pengembangan teknologi OCR yang lebih baik di masa depan.

Downloads

Download data is not yet available.

References

I. M. D. R. Mudiarta et al., “Balinese character recognition on mobile application based on tesseract open source OCR engine,” J. Phys. Conf. Ser., vol. 1516, no. 1, 2020, doi: 10.1088/1742-6596/1516/1/012017.

Gubernur Bali, Peraturan Gubernur Bali Nomor 80. Indonesia, 2018.

A. Qaroush, A. Awad, M. Modallal, and M. Ziq, “Segmentation-based, omnifont printed Arabic character recognition without font identification,” J. King Saud Univ. - Comput. Inf. Sci., no. xxxx, 2020, doi: 10.1016/j.jksuci.2020.10.001.

G. Abdul Robby, A. Tandra, I. Susanto, J. Harefa, and A. Chowanda, “Implementation of optical character recognition using tesseract with the javanese script target in android application,” Procedia Comput. Sci., vol. 157, pp. 499–505, 2019, doi: 10.1016/j.procs.2019.09.006.

S. Idrees and H. Hassani, “Exploiting script similarities to compensate for the large amount of data in training tesseract lstm: Towards kurdish ocr,” Appl. Sci., vol. 11, no. 20, 2021, doi: 10.3390/app11209752.

G. Indrawan, N. N. H. Puspita, I. K. Paramarta, and Sariyasa, “LBtrans-bot: A Latin-to-Balinese script transliteration robotic system based on noto sans Balinese font,” Indones. J. Electr. Eng. Comput. Sci., vol. 12, no. 3, pp. 1247–1256, 2018, doi: 10.11591/ijeecs.v12.i3.pp1247-1256.

S. Chaudhari, R. Aparna, V. G. Tekkur, G. L. Pavan, and S. R. Karki, “Ingredient/Recipe Algorithm using Web Mining and Web Scraping for Smart Chef,” Proc. CONECCT 2020 - 6th IEEE Int. Conf. Electron. Comput. Commun. Technol., no. 3, pp. 22–25, 2020, doi: 10.1109/CONECCT50063.2020.9198450.

W. Uriawan, A. Wahana, D. Wulandari, W. Darmalaksana, and R. Anwar, “Pearson correlation method and web scraping for analysis of islamic content on instagram videos,” Proc. - 2020 6th Int. Conf. Wirel. Telemat. ICWT 2020, 2020, doi: 10.1109/ICWT50448.2020.9243626.

G. Adomavicius and A. Tuzhilin, “Web Scraping:State of the art,” IEEE Trans. Knowl. Data Eng., vol. 17, no. 6, pp. 734–749, 2019.

T. OCR, “Tesseract User Manual,” Github, 2018. https://tesseract-ocr.github.io/tessdoc/ (accessed Jul. 08, 2022).

R. Bassam et al., “Autonomous Assistance System for Visually Impaired using Tesseract OCR & gTTS Autonomous Assistance System for Visually Impaired using Tesseract OCR & gTTS,” 2022, doi: 10.1088/1742-6596/2327/1/012065.

C. Clausner, A. Antonacopoulos, and S. Pletschacher, “Efficient and effective OCR engine training,” Int. J. Doc. Anal. Recognit., vol. 23, no. 1, pp. 73–88, 2020, doi: 10.1007/s10032-019-00347-8.

V. K. Kaliappan, S. Yu, R. Soundararajan, S. Jeon, D. Min, and E. Choi, “High-Secured Data Communication for Cloud Enabled Secure Docker Image Sharing Technique Using Blockchain-Based Homomorphic Encryption,” Energies, vol. 15, no. 15, 2022, doi: 10.3390/en15155544.

B. Y. Panchal and G. Chauhan, “Design and implementation of android application to extract text from images by using tesseract for English and Hindi,” J. Phys. Conf. Ser., vol. 1973, no. 1, 2021, doi: 10.1088/1742-6596/1973/1/012008.

N. H. Khan and A. Adnan, “Urdu optical character recognition systems: Present contributions and future directions,” IEEE Access, vol. 6, pp. 46019–46046, 2018, doi: 10.1109/ACCESS.2018.2865532.

K. O. Mohammed Aarif and S. Poruran, “OCR-Nets: Variants of Pre-trained CNN for Urdu Handwritten Character Recognition via Transfer Learning,” Procedia Comput. Sci., vol. 171, no. 2019, pp. 2294–2301, 2020, doi: 10.1016/j.procs.2020.04.248.

B. Wang, Y. W. Ma, and H. T. Hu, “Hybrid model for Chinese character recognition based on Tesseract-OCR,” Int. J. Internet Protoc. Technol., vol. 13, no. 2, pp. 102–108, 2020, doi: 10.1504/IJIPT.2020.106316.

D. Sporici, E. Cus, and C. Boiangiu, “SS symmetry Using Convolution-Based Preprocessing,” 2020.

Downloads

Published

2023-04-30

How to Cite

Asroni, A., Indrawan, G., & Erawati Dewi, L. J. (2023). Implementasi Hirarki Dataset Dalam Membangun Model Language Aksara Bali Menggunakan Framework Tesseract OCR. Jurnal RESISTOR (Rekayasa Sistem Komputer), 6(1), 20-28. https://doi.org/10.31598/jurnalresistor.v6i1.1345