Derin sinir ağlarıyla Osmanlıca optik karakter tanıma

DÖLEK, İshak; KURT, ATAKAN

doi:10.17341/gazimmfd.1062596

Derin sinir ağlarıyla Osmanlıca optik karakter tanıma

Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi, cilt.38, sa.4, ss.2579-2593, 2023 (SCI-Expanded, Scopus, TRDizin)

Yayın Türü: Makale / Tam Makale
Cilt numarası: 38 Sayı: 4
Basım Tarihi: 2023
Doi Numarası: 10.17341/gazimmfd.1062596
Dergi Adı: Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi
Derginin Tarandığı İndeksler: Science Citation Index Expanded (SCI-EXPANDED), Scopus, Academic Search Premier, Art Source, Compendex, TR DİZİN (ULAKBİM)
Sayfa Sayıları: ss.2579-2593
Açık Arşiv Koleksiyonu: AVESİS Açık Erişim Koleksiyonu
İstanbul Üniversitesi-Cerrahpaşa Adresli: Evet

Bu makalede nesih hattıyla basılmış Osmanlıca doküman görüntülerini CNN+RNN tabanlı derin sinir ağı modelleriyle metne dönüştüren web tabanlı bir optik karakter tanıma (OCR) sistemi sunulmuştur. Eğitim için orijinal, sentetik ve hibrit olmak üzere 3 veri kümesi hazırlanmış ve 3 farklı OCR modeli oluşturulmuştur. Orijinal veri seti yaklaşık 1.000 sayfadan, sentetik veri seti ise yaklaşık 23.000 sayfadan oluşmaktadır. Eğitilen modeller Tesseract’ın Arapça ve Farsça, Google Docs’ın Arapça, Abby FineReader’ın Arapça ve Miletos’un OCR model/araçlarıyla 21 sayfalık bir test setiyle karşılaştırılmıştır. Karşılaştırma ham, normalize ve bitişik olmak üzere 3 farklı metin ve karakter, katar ve kelime tanıma olmak üzere 3 farklı ölçüt ile yapılmıştır. Osmanlica.com Hibrit modeli karakter tanımada %88,86 ham, %96,12 normalize ve %97,37 bitişik doğruluk oranlarıyla; bağlı karakter katarı tanımada %80,48 ham, %91,60 normalize ve %97,37 bitişik doğruluk oranlarıyla; kelime tanımada %44.08 ham ve %66.45 normalize doğruluk oranlarıyla diğerlerinden belirgin şekilde daha iyi sonuçlar üretmiştir. Alfabenin kendine özgü karakteristiklerinin OCR’a etkilerini araştırmak için Osmanlıcanın karakter, katar ve kelime sıklık analizleri yapılmıştır. Bu analizde alfabedeki karakterler bitişebilme, harf gövdesi, noktaların konumu ve sayıları, karakterin türü, kaynak dil vb. ayırt edici özelliklere göre gruplandırılmış grup bazında sıklıklar ve tanıma doğruluk incelenmiştir. OCR sonuçları ayrıca harf bazında ortaya konulmuştur.

In this paper, we present a web-based optical character recognition (OCR) system that converts images of Ottoman documents printed with naskh font into text using CNN+RNN-based deep neural network models. For training, three datasets - original, synthetic, and hybrid - were prepared and three different OCR models were created. The original data set consists of 1,000 pages and the synthetic data set consists of 23,000 pages. Hybrid data set contains both. The trained models were compared with Tesseract's Arabic and Persian, Google Docs' Arabic, Abby FineReader's Arabic, and Miletos OCR model/tools with a 21-page test set. The comparison was made with 3 different texts (raw, normalized, and joined) and using 3 different criteria (character, ligature, and word recognition). The Osmanlica.com Hybrid model produced significantly better results than the others with 88.86% raw, 96.12% normalized, and 97.37% joined accuracy in character recognition; 80.48% raw, 91.60% normalized, and 97.37% joined accuracy in ligature recognition; and 44.08% raw and 66.45% normalized accuracy in word recognition. To investigate the effects of the characteristics of the alphabet on OCR, character, ligature, and word frequency analyses of Ottoman was performed. In this analysis, the characters in the alphabet were grouped according to distinctive features such as connectedness, letter body, position and number of dots, type of character, and source language; and frequencies and recognition accuracies were examined for each group. OCR results are also reported for each character.