LexToPlus

Facebook
Twitter
lextoplus

 

โปรแกรมตัดคำภาษาไทยแบบอิงพจนานุกรม (Dictionary based) โดยใช้เทคนิค Longest matching ในการตัดคำ (LexToPlus: A Thai Lexeme Tokenization and Normalization Tool)

LexToPlus คือ ระบบแบ่งคำสำหรับภาษาไทยที่ให้ความแม่นยำสูง แบบอิงพจนานุกรม (Dictionary based) โดยใช้เทคนิคการแบ่งคำแบบ Longest matching ผู้ใช้สามารถเพิ่มรายการ คำศัพท์ได้ตามต้องการ เพื่อให้การตัดคำเหมาะสมกับงานที่นำไปใช้ เช่น งานทางด้านการวิเคราะห์ อารมณ์ของข้อความ ซึ่งคำที่แสดงอารมณ์บางคำอาจจะยังไม่มีอยู่ในพจนานุกรม หรืองานที่มี คำศัพท์เฉพาะทาง เป็นต้น นอกจากนี้ระบบยังรองรับการทำ Normalize คำในภาษาโซเชียล เช่น ดีมากกก จะถูกแปลงเป็น ดีมาก อีกทั้งยังมีโมดูลสำหรับจัดการคำที่ไม่อยู่ในพจนานุกรม เพื่อให้การแบ่งคำเป็นไปอย่างถูกต้อง

lextoplus

 

lextoplus

 

 

คุณสมบัติ:

  • สามารถทำงานได้กับทุกระบบปฏิบัติการ (Windows, Unix based, OSX)
  • รองรับการทำงานในรูปแบบเซอร์วิส (REST Full Service)
  • ประมวลผลได้อย่างรวดเร็วเฉลี่ย 435,596 คำต่อวินาที
  • แสดงผลลัพธ์ในรูปแบบ JSON ซึ่งทำให้ง่ายต่อการนำไปใช้งาน
  • รองรับการทำ Normalize คำในภาษาโซเชียล เช่น ดีมากกก จะถูกแปลงเป็น ดีมาก
  • รองรับการจัดการคำที่ไม่อยู่ในพจนานุกรมอย่างชาญฉลาด
  • ชุดคำศัพท์มากกว่า 60,000 คำ และสามารถเพิ่มได้ตามต้องการ

ทดลองใช้งานโปรแกรมได้ที่ :

www.sansarn.com

วิจัยพัฒนาโดย :

ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง (SPT)

ติดต่อสอบถามข้อมูลเพิ่มเติมได้ที่ :

ฝ่ายพัฒนาธุรกิจและถ่ายทอดเทคโนโลยี (BTT)
โทร. 0 2564 6900 ต่อ 2346, 2351-2354, 2357, 2382, 2383, 2399
email : business[at]nectec.or.th