ทีมวิจัยการเข้าใจเสียงและข้อความ (STU)

Facebook
Twitter

ทีมวิจัยการเข้าใจเสียงและข้อความ หรือ Speech and Text Understanding (STU) ดำเนินการค้นคว้าวิจัยและพัฒนาเทคโนโลยีที่เกี่ยวข้องกับ ภาษาพูดและภาษาเขียนของมนุษย์ ซึ่งถือเป็นสื่อพื้นฐานที่ขาดไม่ได้สำหรับการติดต่อสื่อสารของมนุษย์ แต่คงไว้ซึ่งความซับซ้อน ความหลากหลาย และความสวยงาม ที่เกิดจากการสร้างสรรค์และสืบทอดต่อกันมา เป็นองค์ความรู้และวัฒนธรรมที่แตกต่างกันในแต่ละภูมิภาค การประมวลผลภาษาจึงมีความน่าสนใจและท้าทาย ผลลัพธ์ของการวิจัยและพัฒนานี้ ถือเป็นนวัตกรรมที่ช่วยอำนวยความสะดวกในการติดต่อสื่อสารระหว่างมนุษย์กับเครื่องจักร และระหว่างมนุษย์ด้วยกัน ซึ่งสามารถนำไปประยุกต์ใช้ในงานต่างๆ ได้อย่างกว้างขวาง อาทิ การสั่งการด้วยเสียงในโทรศัพท์มือถือ การสืบค้นข้อมูลในเครือข่ายอินเตอร์เน็ต และการวิเคราะห์ข้อความบนโซเชียลมีเดีย เป็นต้น

สารบัญ

วิสัยทัศน์

ผู้นำทางด้านงานวิจัยและพัฒนาเทคโนโลยีภาษาพูดและภาษาเขียนสำหรับภาษาไทย

พันธกิจ

  • ความเป็นเลิศด้านการวิจัยและพัฒนา
  • สร้างเครือข่ายและขยายกลุ่มผู้ร่วมวิจัย พันธมิตรและผู้ใช้งาน
  • สร้างสภาพแวดล้อมพื้นฐานเพื่องานวิจัยสำหรับประเทศ
  • ถ่ายทอดงานวิจัยเพื่อสร้างผลกระทบด้านเศรษฐกิจและสังคมอย่างยั่งยืน

เทคโนโลยีหลัก

  • เทคโนโลยีการประมวลผลเสียงพูด (Speech Processing Technology)
    • เทคโนโลยีการรู้จำเสียงพูด (Speech Recognition)
    • เทคโนโลยีการสังเคราะห์เสียงพูด (Speech Synthesis)
    • เทคโนโลยีภาพและเสียง (Audio-visual technology)
  • เทคโนโลยีการประมวลผลและวิเคราะห์ข้อความ (Text Processing and Mining Technology)
    • เทคโนโลยีการตัดคำ (Word Segmentation)
    • เทคโนโลยีการค้นคืนและสืบค้นข้อความ (Information Retrieval and Search Engine)
    • เทคโนโลยีการวิเคราะห์ข้อความ (Text Mining)

ผลงานเด่น

  • 1. วาจา (VAJA): โปรแกรมสังเคราะห์เสียงพูดภาษาไทย
    โปรแกรมสังเคราะห์เสียงพูดภาษาไทย ทำหน้าที่แปลงข้อความภาษาไทยให้เป็นเสียงพูด ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาวาจาอย่างต่อเนื่องมาตั้งแต่ปี พ.ศ. 2540 จนมาถึงเวอร์ชั่นล่าสุด วาจา 8.0 ซึ่งมีคุณสมบัติดังต่อไปนี้
      • สามารถสร้างเสียงคำพูดได้ครอบคลุมคำในภาษาไทย เนื่องจากมีส่วนวิเคราะห์คำอ่านที่สามารถวิเคราะห์ได้แม้แต่คำที่ไม่ปรากฎในพจนานุกรม
      • ผู้ใช้สามารถเพิ่มคำเฉพาะ เช่น ชื่อบุคคล พร้อมทั้งกำหนดคำอ่านได้อย่างอิสระ เพื่อให้ซอฟต์แวร์สามารถแปลงข้อความมาเป็นเสียงพูดได้ตรงกับความต้องการของผู้ใช้
      • รองรับการอ่านแบบสองภาษาไทย-อังกฤษ โดยเป็นเสียงของคนเดียวกัน
      • รองรับการทำงานบนหลายแพลตฟอร์ม เช่น Windows (Microsoft Speech APIs), Linux Enterprise (Web APIs) และ Android (Android APIs)
    2. พาที (Partii): โปรแกรมรู้จำเสียงพูดภาษาไทย
    เป็นโปรแกรมที่แปลงเสียงพูดภาษาไทยให้เป็นข้อความ ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาพาทีมาตั้งแต่ปี พ.ศ. 2556 และในเวอร์ชั่นปัจจุบัน มีคุณสมบัติดังต่อไปนี้
      • ไม่จำกัดเนื้อหา (Open domain)
      • ความแม่นยำอยู่ที่ 80% (Accuracy) ภายใต้การทดสอบกับเสียงพูดผ่านช่องทางข้อมูล (data channel) ด้วยสมาร์ทโฟน โดยไม่กำหนดเนื้อหา ผู้พูด หรือรูปแบบการพูด
      • การทดสอบความเร็วในการตอบสนองภายใต้เครือข่าย WiFi และเครือข่าย 3G จำลอง พบว่าพาทีสามารถตอบสนองได้ภายในเวลาไม่เกิน 1.5 เท่าของความยาวของเสียงอินพุต
      • รองรับการทํางานแบบ Server/Client ซึ่งการติดต่อจาก Client ถึง Server จะทําผ่าน gRPC โปรโตคอล แบบสัญญาณเสียงต่อเนื่อง (Streaming)
      • ​​สามารถปรับแต่งระบบตามความต้องการของผู้ใช้งาน อาทิเช่น ขยายระบบเพื่อขยายการรองรับการเชื่อมต่อ พร้อมกัน (ความต้องการ  CPU, RAM, Network เพิ่มเติม), เพิ่มความถูกต้องของการรู้จํา ในเนื้อหาและสภาพแวดลอมที่กําหนด โดยใช้คลังข้อมูลเพิ่มเติม
    3. เอสเซนส์ (S-sense): โปรแกรมวิเคราะห์ข้อความโซเชียลมีเดีย
    เป็นระบบวิเคราะห์ความคิดเห็นของบุคคลทั่วไปหรือกลุ่มลูกค้าบน โซเชียลมีเดีย ว่ารู้สึกอย่างไรต่อผลิตภัณฑ์ บริการ และยี่ห้อสินค้า โดยระบบจะรวบรวมข้อความจาก โซเชียลมีเดีย แล้วนำมาประมวลผลทางภาษาเพื่อแยกแยะ วิเคราะห์และแสดงผลด้วยรูปแบบที่เข้าใจง่าย ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาระบบ S-Sense มาตั้งแต่ปี พ.ศ. 2555 และในเวอร์ชั่นปัจจุบัน S-Sense 2.0 มีคุณสมบัติดังต่อไปนี้
      • วิเคราะห์คำสำคัญที่เกี่ยวข้อง คำบ่งบอกคุณลักษณะของสินค้าหรือบริการ หรือคำที่มีการกล่าวถึงบ่อยครั้ง
      • วิเคราะห์จุดประสงค์ของข้อความที่รวบรวมมาเป็นข้อความประเภทใด เช่น สอบถามปัญหา ร้องขอ หรือแสดงความคิดเห็น
      • วิเคราะห์ความคิดเห็นของข้อความว่าเป็นเชิงบวกหรือลบ
      • วิเคราะห์ประโยคเชิงเปรียบเทียบ
    4. CopyCatch: โปรแกรมตรวจความเหมือนของข้อความในเอกสาร
    CopyCatch เป็นระบบตรวจสอบการคัดลอกและลอกเลียนเอกสารอิเล็กทรอนิกส์แบบอัตโนมัติ ซึ่งมีคุณสมบัติของระบบดังต่อไปนี้
      • สนับสนุนการตรวจสอบเอกสารที่อยู่ในรูปแบบของ Plain Text (txt), Microsoft Word Document (doc, docx), Portable Document Format (pdf)
      • สนับสนุนการตรวจสอบเอกสารท้ังภาษาไทยและภาษาอังกฤษ
      • สามารถตรวจสอบเอกสารท่ีถูกเปลี่ยนแปลงบางส่วนได้ เช่น ลบคำ เพิ่มคำ หรือการสลับประโยค เป็นต้น
      • สามารถตรวจสอบกับคลังเอกสารจำเพาะได้
      • สามารถแสดงแถบสีของข้อความที่คล้ายกันพร้อมท้ังเปอร์เซ็นต์ความคล้าย

บุคลากรและความเชี่ยวชาญ

  • ดร.วาทยา ชุณห์วิจิตรา : Automatic Speech Recognition, HMM-based Speech Synthesis
  • ดร.ชัยอนันต์ ดำรงรัตน์ : Information Retrieval, Computer Vision, Augmented Reality, Knowledge Management, Mobile Application, Location-Based technology
  • ดร.อัษฎางค์ แตงไทย : Speech processing, Thai Text processing, Audiovisual Speech Synthesis
  • ดร.ขวัญชีวา แตงไทย : Multi-Modal Speech Recognition, Statistical Language Modeling
  • นางสาว พรพิมล ผลินกูล : Linguistics, Corpus Linguistics, Lexicography
  • นางสุมนมาศ ทัดพิทักษ์กุล : ภาษาศาสตร์และสัทศาสตร์
  • นายศราวุธ คงยัง : Big Data Analytic, Text Mining and Machine Learning, Sentiment Analysis and Opinion Mining, Information Retrieval and Search Engine, Natural Language Processing, Software Engineering, Visualization
  • นายสุพล ไกลถิ่น : Database Management System, Web Programming, Natural Language Processing
  • ดร.สุรศักดิ์ บุญกล้า : Speech Processing, Voice Biometrics
  • นายชัชวาล สังคีตตระการ : Information Retrieval, Search Engine, Question- Answering, Natural Language Processing, Mobile Application
  • นางสาวกนกอร ตระกูลทวีคูณ : Web Programming and Design, Database Management System, Visualization
  • นายสิทธิพงษ์ สายชุม : Speech Synthesis Technology, Text analysis, Natural Language Processing, Embedded software development
  • นายพุทธพงศ์ เสริฐศรี : Speech Recognition, Computer Programming, Mobile App Development
  • นายณัฐพงษ์ เครือภักดี : Speech Synthesis, Text analysis, Computer Programming, Business Software Development, System and Database Administrator
  • ดร.วัฒนศักดิ์ เจียมวัฒนชัย : Smart Agent
  •  

ติดต่อ

ทีมวิจัยการเข้าใจเสียงและข้อความ(STU)
กลุ่มวิจัยปัญญาประดิษฐ์ (AINRG)
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค)
อีเมล : stu[at]nectec.or.thโทร. 0 2564 6900 ext. 2232