Share on Facebook
Lexitron Dictionary Online
โดยหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ

 

lexitron_3

หลักการสำคัญของการพัฒนา LEXiTRON คือ การนำเทคโนโลยีฐานข้อมูลขนาดใหญ่เข้ามาช่วยในการวิจัยและพัฒนา ร่วมกับศาสตร์ในสาขาการประมวลผลภาษาธรรมชาติ เรียกว่า การสร้างพจนานุกรมจากฐานข้อมูลขนาดใหญ่ (Corpus-Based Dictionary) และใช้เทคโนโลยีคอมพิวเตอร์รวบรวมและคัดเลือกคำ ประโยค หรือข้อความ ที่มีใช้จริงและมีอัตราการปรากฏสูงในบริบทต่างๆ ของการใช้ภาษา จากแหล่งข้อมูลและข่าวสารที่เผยแพร่ทางอินเทอร์เน็ตและแหล่งข้อมูลอื่นๆ ที่เชื่อถือได้ เช่น วรรณกรรม บทความ เอกสารทางวิชาการ ข้อมูลข่าวสารจากหนังสือพิมพ์ เป็นต้น

ลักษณะเด่นของ LEXiTRON คือ แสดงความหมายและประเภทของคำพร้อมทั้งประโยคตัวอย่างที่มีใช้จริงและ มีอัตราการปรากฏสูงในบริบทต่างๆ ของการใช้ภาษา เพราะมีการพัฒนาในด้านต่างๆ คือ

ฐานข้อมูลพจนานุกรม

  • อังกฤษ-ไทย (79,000 คำ) ประกอบด้วย คำศัพท์ภาษาอังกฤษ คำแปลภาษาไทย คำอ่าน คำหลัก คำค้นหา คำพ้องและคำตรงข้ามความหมายภาษาไทย คำพ้องและคำตรงข้ามความหมายภาษาอังกฤษ และตัวอย่างประโยคภาษาอังกฤษที่อ้างอิงจากคลังข้อความขนาดใหญ่ (Corpus-Based Sentence)
  • ไทย-อังกฤษ (51,000 คำ) ประกอบด้วย คำศัพท์ภาษาไทย คำแปลภาษาอังกฤษ คำพ้องความหมายภาษาไทย คำตรงข้ามความหมายภาษาไทย คำนิยามศัพท์ คำลักษณนาม และตัวอย่างประโยคภาษาไทยLexitron

lexitronการพัฒนาโปรแกรม

  • คลังข้อมูลประโยค คือ Orchid Corpus ที่พัฒนาโดย ฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ
  • โปรแกรมสำหรับการพัฒนาคือ J builder และ Apache Acknowledgements
    • เสียงภาษาอังกฤษ สร้างจาก Microsoft Concatenative Speech Synthesis Engine
    • เสียงภาษาไทย สร้างจาก Vaja Text-to-Speech Engine พัฒนาโดย RDI, NECTEC
  • คลังข้อมูลประโยค คือ Orchid Corpus ที่พัฒนาโดย ฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ

นอกจากนี้ Lexitron ยังมีพันธมิตรที่เกี่ยวข้อง คือ จุฬาลงกรณ์มหาวิทยาลัย, มหาวิทยาเกษตรศาสตร์, สถาบันเทคโนโลยีนานาชาติสิรินธร, มหาวิทยาลัยธรรมศาสตร์ศูนย์รังสิต, สถาบันเทคโนโลยีแห่งเอเชีย, มหาสงขลานครินทร์, มหาวิทยาลัยโตเกียว, ธนาคารทหารไทย จำกัด (มหาชน), บริษัท ปูนซิเมนต์ไทยจำกัด (มหาชน), เมกาติก, สตาร์ดิก, บริษัทซีแอนด์เอ็นโซลูชั่น, ลองดูดิก, http://lightlex.com และ http://www.sanook.com

ปัจจุบันมีการพัฒนาระบบ ให้มีคุณลักษณะที่สำคัญๆ เพื่อสนับสนุนผู้ใช้ เล็กซิตรอน คือ แนะนำคำศัพท์และจัดระดับคำศัพท์ เพื่อให้ได้คำศัพท์ที่ครอบคลุม และตรงตามความต้องการของผู้ใช้