การเรียงลำดับคำทวิภาษา ไทย-อังกฤษ

เทพพิทักษ์ การุญบุญญานันท์
สัมพันธ์ ระรื่นรมย์
พฤษภ์ บุญมา


ABSTRACT -- The standard principle for Thai string ordering has been described in the Royal Institute Dictionary 2525 B.E. Edition. However, it is not sufficient to be the thorough specification for computerized Thai string ordering process, given the standard Thai character sets being used, i.e. TIS 620-2533 and ISO/IEC 10646-1. This paper proposes to enhance the Royal Institute Principle, so that the Thai-English bilingual text, with digits and punctuation marks in TIS 620-2533, could be properly collated.
The international standard ISO/IEC 14651 is taken as the framework. And, after the discussion upon the ordering rationales, an LC_COLLATE category for Thai cultural convention, proved to work with GNU LibC 2.1.1, is defined.

บทคัดย่อ -- การเรียงลำดับคำไทยมีหลักที่เป็นมาตรฐานกำหนดไว้แล้วในพจนานุกรมฉบับราชบัณฑิตยสถาน พ.ศ. ๒๕๒๕ อย่างไรก็ดี ในการกำหนดหลักการเรียงลำดับที่ครบถ้วนเพื่อใช้กับชุดอักขระคอมพิวเตอร์ที่ใช้งานจริง คือรหัส มอก. 620-2533 และ ISO/IEC 10646-1 นั้น หลักของราชบัณฑิตยสถานนับว่ายังไม่เพียงพอ บทความนี้จึงเสนอแนวทางหนึ่งในการขยายขอบเขตเพื่อให้สามารถเรียงลำดับข้อความใดๆ ที่ใช้รหัส มอก. 620-2533 ซึ่งประกอบด้วยอักขระสองภาษา คือไทย-อังกฤษ ตัวเลข และเครื่องหมายวรรคตอน ได้อย่างถูกต้อง
หลักการที่เสนอในบทความนี้ใช้ร่างมาตรฐาน ISO/IEC 14651 เป็นต้นแบบ และหลังจากการอภิปรายถึงเหตุผลต่างๆ ของการจัดลำดับ ก็จะสร้างเป็นข้อกำหนดในภาค LC_COLLATE สำหรับโลแคลไทย ซึ่งได้ทดสอบกับ GNU LibC 2.1.1 แล้ว


National Electronics and Computer Technology Center (NECTEC)
Copyright  © 2001 By Information System Service Section. All right reserved.