งานวิจัย

ทีมวิจัยการเข้าใจเสียงและข้อความ (STU)

Share to...

ทีมวิจัยการเข้าใจเสียงและข้อความ หรือ Speech and Text Understanding (STU) ดำเนินการค้นคว้าวิจัยและพัฒนาเทคโนโลยีที่เกี่ยวข้องกับ ภาษาพูดและภาษาเขียนของมนุษย์ ซึ่งถือเป็นสื่อพื้นฐานที่ขาดไม่ได้สำหรับการติดต่อสื่อสารของมนุษย์ แต่คงไว้ซึ่งความซับซ้อน ความหลากหลาย และความสวยงาม ที่เกิดจากการสร้างสรรค์และสืบทอดต่อกันมา เป็นองค์ความรู้และวัฒนธรรมที่แตกต่างกันในแต่ละภูมิภาค การประมวลผลภาษาจึงมีความน่าสนใจและท้าทาย ผลลัพธ์ของการวิจัยและพัฒนานี้ ถือเป็นนวัตกรรมที่ช่วยอำนวยความสะดวกในการติดต่อสื่อสารระหว่างมนุษย์กับเครื่องจักร และระหว่างมนุษย์ด้วยกัน ซึ่งสามารถนำไปประยุกต์ใช้ในงานต่างๆ ได้อย่างกว้างขวาง อาทิ การสั่งการด้วยเสียงในโทรศัพท์มือถือ การสืบค้นข้อมูลในเครือข่ายอินเตอร์เน็ต และการวิเคราะห์ข้อความบนโซเชียลมีเดีย เป็นต้น

วิสัยทัศน์

ผู้นำทางด้านงานวิจัยและพัฒนาเทคโนโลยีภาษาพูดและภาษาเขียนสำหรับภาษาไทย

พันธกิจ

ความเป็นเลิศด้านการวิจัยและพัฒนา
สร้างเครือข่ายและขยายกลุ่มผู้ร่วมวิจัย พันธมิตรและผู้ใช้งาน
สร้างสภาพแวดล้อมพื้นฐานเพื่องานวิจัยสำหรับประเทศ
ถ่ายทอดงานวิจัยเพื่อสร้างผลกระทบด้านเศรษฐกิจและสังคมอย่างยั่งยืน

เทคโนโลยีหลัก

เทคโนโลยีการประมวลผลเสียงพูด (Speech Processing Technology)
- เทคโนโลยีการรู้จำเสียงพูด (Speech Recognition)
- เทคโนโลยีการสังเคราะห์เสียงพูด (Speech Synthesis)
- เทคโนโลยีภาพและเสียง (Audio-visual technology)
เทคโนโลยีการประมวลผลและวิเคราะห์ข้อความ (Text Processing and Mining Technology)
- เทคโนโลยีการตัดคำ (Word Segmentation)
- เทคโนโลยีการค้นคืนและสืบค้นข้อความ (Information Retrieval and Search Engine)
- เทคโนโลยีการวิเคราะห์ข้อความ (Text Mining)

ผลงานเด่น

1. วาจา (VAJA): โปรแกรมสังเคราะห์เสียงพูดภาษาไทย
โปรแกรมสังเคราะห์เสียงพูดภาษาไทย ทำหน้าที่แปลงข้อความภาษาไทยให้เป็นเสียงพูด ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาวาจาอย่างต่อเนื่องมาตั้งแต่ปี พ.ศ. 2540 จนมาถึงเวอร์ชั่นล่าสุด วาจา 8.0 ซึ่งมีคุณสมบัติดังต่อไปนี้
- - สามารถสร้างเสียงคำพูดได้ครอบคลุมคำในภาษาไทย เนื่องจากมีส่วนวิเคราะห์คำอ่านที่สามารถวิเคราะห์ได้แม้แต่คำที่ไม่ปรากฎในพจนานุกรม
  - ผู้ใช้สามารถเพิ่มคำเฉพาะ เช่น ชื่อบุคคล พร้อมทั้งกำหนดคำอ่านได้อย่างอิสระ เพื่อให้ซอฟต์แวร์สามารถแปลงข้อความมาเป็นเสียงพูดได้ตรงกับความต้องการของผู้ใช้
  - รองรับการอ่านแบบสองภาษาไทย-อังกฤษ โดยเป็นเสียงของคนเดียวกัน
  - รองรับการทำงานบนหลายแพลตฟอร์ม เช่น Windows (Microsoft Speech APIs), Linux Enterprise (Web APIs) และ Android (Android APIs)
2. พาที (Partii): โปรแกรมรู้จำเสียงพูดภาษาไทย
เป็นโปรแกรมที่แปลงเสียงพูดภาษาไทยให้เป็นข้อความ ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาพาทีมาตั้งแต่ปี พ.ศ. 2556 และในเวอร์ชั่นปัจจุบัน มีคุณสมบัติดังต่อไปนี้
- - ไม่จำกัดเนื้อหา (Open domain)
  - ความแม่นยำอยู่ที่ 80% (Accuracy) ภายใต้การทดสอบกับเสียงพูดผ่านช่องทางข้อมูล (data channel) ด้วยสมาร์ทโฟน โดยไม่กำหนดเนื้อหา ผู้พูด หรือรูปแบบการพูด
  - การทดสอบความเร็วในการตอบสนองภายใต้เครือข่าย WiFi และเครือข่าย 3G จำลอง พบว่าพาทีสามารถตอบสนองได้ภายในเวลาไม่เกิน 1.5 เท่าของความยาวของเสียงอินพุต
  - รองรับการทํางานแบบ Server/Client ซึ่งการติดต่อจาก Client ถึง Server จะทําผ่าน gRPC โปรโตคอล แบบสัญญาณเสียงต่อเนื่อง (Streaming)
  - สามารถปรับแต่งระบบตามความต้องการของผู้ใช้งาน อาทิเช่น ขยายระบบเพื่อขยายการรองรับการเชื่อมต่อ พร้อมกัน (ความต้องการ CPU, RAM, Network เพิ่มเติม), เพิ่มความถูกต้องของการรู้จํา ในเนื้อหาและสภาพแวดลอมที่กําหนด โดยใช้คลังข้อมูลเพิ่มเติม
3. เอสเซนส์ (S-sense): โปรแกรมวิเคราะห์ข้อความโซเชียลมีเดีย
เป็นระบบวิเคราะห์ความคิดเห็นของบุคคลทั่วไปหรือกลุ่มลูกค้าบน โซเชียลมีเดีย ว่ารู้สึกอย่างไรต่อผลิตภัณฑ์ บริการ และยี่ห้อสินค้า โดยระบบจะรวบรวมข้อความจาก โซเชียลมีเดีย แล้วนำมาประมวลผลทางภาษาเพื่อแยกแยะ วิเคราะห์และแสดงผลด้วยรูปแบบที่เข้าใจง่าย ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาระบบ S-Sense มาตั้งแต่ปี พ.ศ. 2555 และในเวอร์ชั่นปัจจุบัน S-Sense 2.0 มีคุณสมบัติดังต่อไปนี้
- - วิเคราะห์คำสำคัญที่เกี่ยวข้อง คำบ่งบอกคุณลักษณะของสินค้าหรือบริการ หรือคำที่มีการกล่าวถึงบ่อยครั้ง
  - วิเคราะห์จุดประสงค์ของข้อความที่รวบรวมมาเป็นข้อความประเภทใด เช่น สอบถามปัญหา ร้องขอ หรือแสดงความคิดเห็น
  - วิเคราะห์ความคิดเห็นของข้อความว่าเป็นเชิงบวกหรือลบ
  - วิเคราะห์ประโยคเชิงเปรียบเทียบ
4. CopyCatch: โปรแกรมตรวจความเหมือนของข้อความในเอกสาร
CopyCatch เป็นระบบตรวจสอบการคัดลอกและลอกเลียนเอกสารอิเล็กทรอนิกส์แบบอัตโนมัติ ซึ่งมีคุณสมบัติของระบบดังต่อไปนี้
- - สนับสนุนการตรวจสอบเอกสารที่อยู่ในรูปแบบของ Plain Text (txt), Microsoft Word Document (doc, docx), Portable Document Format (pdf)
  - สนับสนุนการตรวจสอบเอกสารท้ังภาษาไทยและภาษาอังกฤษ
  - สามารถตรวจสอบเอกสารท่ีถูกเปลี่ยนแปลงบางส่วนได้ เช่น ลบคำ เพิ่มคำ หรือการสลับประโยค เป็นต้น
  - สามารถตรวจสอบกับคลังเอกสารจำเพาะได้
  - สามารถแสดงแถบสีของข้อความที่คล้ายกันพร้อมท้ังเปอร์เซ็นต์ความคล้าย

บุคลากรและความเชี่ยวชาญ

ดร.วาทยา ชุณห์วิจิตรา : Automatic Speech Recognition, HMM-based Speech Synthesis
ดร.ชัยอนันต์ ดำรงรัตน์ : Information Retrieval, Computer Vision, Augmented Reality, Knowledge Management, Mobile Application, Location-Based technology
ดร.อัษฎางค์ แตงไทย : Speech processing, Thai Text processing, Audiovisual Speech Synthesis
ดร.ขวัญชีวา แตงไทย : Multi-Modal Speech Recognition, Statistical Language Modeling
นางสาว พรพิมล ผลินกูล : Linguistics, Corpus Linguistics, Lexicography
นางสุมนมาศ ทัดพิทักษ์กุล : ภาษาศาสตร์และสัทศาสตร์
นายศราวุธ คงยัง : Big Data Analytic, Text Mining and Machine Learning, Sentiment Analysis and Opinion Mining, Information Retrieval and Search Engine, Natural Language Processing, Software Engineering, Visualization
นายสุพล ไกลถิ่น : Database Management System, Web Programming, Natural Language Processing
ดร.สุรศักดิ์ บุญกล้า : Speech Processing, Voice Biometrics
นายชัชวาล สังคีตตระการ : Information Retrieval, Search Engine, Question- Answering, Natural Language Processing, Mobile Application
นางสาวกนกอร ตระกูลทวีคูณ : Web Programming and Design, Database Management System, Visualization
นายสิทธิพงษ์ สายชุม : Speech Synthesis Technology, Text analysis, Natural Language Processing, Embedded software development
นายพุทธพงศ์ เสริฐศรี : Speech Recognition, Computer Programming, Mobile App Development
นายณัฐพงษ์ เครือภักดี : Speech Synthesis, Text analysis, Computer Programming, Business Software Development, System and Database Administrator
ดร.วัฒนศักดิ์ เจียมวัฒนชัย : Smart Agent

ติดต่อ

ทีมวิจัยการเข้าใจเสียงและข้อความ(STU)
กลุ่มวิจัยปัญญาประดิษฐ์ (AINRG)
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค)
อีเมล : stu[at]nectec.or.thโทร. 0 2564 6900 ext. 2232

AI, AINRG, STU, กลุ่มวิจัยปัญญาประดิษฐ์, ทีมวิจัย, ปัญญาประดิษฐ์, เสียงและข้อความ

April 28, 2022
15:16