Combining Trigram and Winnow in Thai OCR Error Correction

Surapant Meknavin
National Electronics and Computer Technology Center
73/1 Rama VI Road, Rajthevi, Bangkok, Thailand
surapan@nectec.or.th

Boonserm Kijsirikul, Ananlada Chotimongkol Cholwich Nuttee
Department of Computer Engineering
Chulalongkorn University, Thailand
fengbks@chulkn.chula.ac.th


ABSTRACT -- For languages that have no explicit word boundary such as Thai, Chinese and Japanese, correcting words in text is harder than in English because of additional ambiguities in locating error words. The traditional method handles this by hypothesizing that every substrings in the input sentence could be error words and trying to correct all of them. In this paper, we propose the idea of reducing the scope of spelling correction by focusing only on dubious areas in the input sentence. Boundaries of these dubious areas could be obtained approximately by applying word segmentation algorithm and finding word sequences with low probability. Next, to generate the candidate correction words, we used a modified edit distance which reflects the characteristic of Thai OCR errors. Finally, a part-of-speech trigram model and Winnow algorithm are combined to determine the most probable correction.
Keywords -- Thai OCR, error correction, Winnow, Trigram

บทคัดย่อ -- การแก้คำผิดในข้อความของภาษากลุ่มที่ไม่มีเครื่องหมายแบ่งคำชัดเจน เช่น ภาษาไทย, ภาษาจีน และภาษาญี่ปุ่น ยากกว่าในภาษาอังกฤษ เพราะมีความกำกวมเพิ่มขี้นจากการกำหนดขอบเขตของคำผิด วิธีทั่วไปจัดการกับปัญหานี้โดยการตั้งสมมุติฐานว่าทุกสตริงย่อยในประโยคอาจเป็นคำผิดได้ และพยายามแก้ไขทุกสตริงย่อยนั้น บทความนี้เสนอความคิดในการลดขอบเขตการแก้ไขลงให้เหลือเฉพาะบริเวณที่ต้องสงสัย ซึ่งเป็นบริเวณที่เมื่อตัดคำแล้วมีค่าความน่าจะเป็นในการเรียงตัวของกลุ่มคำต่ำ คำที่เป็นตัวเลือกในการแก้ไขถูกสร้างขึ้นโดยใช้ ระยะแก้ไขแบบดัดแปลง ซึ่งสะท้อนคุณลักษณะของความผิดพลาดในโอซีอาร์ภาษาไทย นอกจากนี้ โมเดลไตรแกรมของหมวดคำ และอัลกอริธึมวินโนว์ ถูกนำมาใช้ร่วมกันในการตัดสินการแก้ไขที่เหมาะสมที่สุด
คำสำคัญ -- โอซีอาร์ภาษาไทย, การแก้ไขความผิดพลาด, วินโนว์, ไตรแกรม


National Electronics and Computer Technology Center (NECTEC)
Copyright  © 2001 By Information System Service Section. All right reserved.