MENU
Banner

หน่วยปฏิบัติการวิจัยเทคโนโลยีเสียง

ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง หรือ Speech and Audio Technology Laboratory (SPT) ดำเนินการค้นคว้าวิจัยและพัฒนาเทคโนโลยีที่เกี่ยวข้องกับ ภาษาพูดและภาษาเขียนของมนุษย์ ซึ่งถือเป็นสื่อพื้นฐานที่ขาดไม่ได้สำหรับการติดต่อสื่อสารของมนุษย์ แต่คงไว้ซึ่งความซับซ้อน ความหลากหลาย และความสวยงาม ที่เกิดจากการสร้างสรรค์และสืบทอดต่อกันมา เป็นองค์ความรู้และวัฒนธรรมที่แตกต่างกันในแต่ละภูมิภาค การประมวลผลภาษาจึงมีความน่าสนใจและท้าทาย ผลลัพธ์ของการวิจัยและพัฒนานี้ ถือเป็นนวัตกรรมที่ช่วยอำนวยความสะดวกในการติดต่อสื่อสารระหว่างมนุษย์กับเครื่องจักร และระหว่างมนุษย์ด้วยกัน ซึ่งสามารถนำไปประยุกต์ใช้ในงานต่างๆ ได้อย่างกว้างขวาง อาทิ การสั่งการด้วยเสียงในโทรศัพท์มือถือ การสืบค้นข้อมูลในเครือข่ายอินเตอร์เน็ต และการวิเคราะห์ข้อความบนโซเชียลมีเดีย เป็นต้น

การวิจัยและพัฒนาวิทยาการสำหรับการประมวลผลโดยเฉพาะสำหรับภาษาไทยจึงถือเป็นภารกิจสำคัญของ ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง

วิสัยทัศน์

ผู้นำทางด้านงานวิจัยและพัฒนาเทคโนโลยีภาษาพูดและภาษาเขียนสำหรับภาษาไทย

พันธกิจ

  1. คงความเป็นเลิศด้านการวิจัยและพัฒนา
  2. สร้างเครือข่ายและขยายกลุ่มผู้ร่วมวิจัย พันธมิตร และผู้ใช้งาน
  3. สร้างทรัพยากรวิจัยพื้นฐานที่จำเป็นสำหรับประเทศ
  4. ถ่ายทอดงานวิจัยเพื่อสร้างผลกระทบด้านเศรษฐกิจและสังคมอย่างแท้จริง

เทคโนโลยีหลัก

  • เทคโนโลยีการประมวลผลเสียงพูด (Speech Processing Technology)
    • เทคโนโลยีการรู้จำเสียงพูด (Speech Recognition)
    • เทคโนโลยีการสังเคราะห์เสียงพูด (Speech Synthesis)
  • เทคโนโลยีการประมวลผลและวิเคราะห์ข้อความ (Text Processing and Mining Technology)
    • เทคโนโลยีการตัดคำ (Word Segmentation)
    • เทคโนโลยีการค้นคืนและสืบค้นข้อความ (Information Retrieval and Search Engine)
    • เทคโนโลยีการวิเคราะห์ข้อความ (Text Mining)

ผลงานเด่น

iniru-spt

1. วาจา (VAJA) : โปรแกรมสังเคราะห์เสียงพูดภาษาไทย

เป็นโปรแกรมที่แปลงข้อความภาษาไทยให้เป็นเสียงพูด ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาวาจาอย่างต่อเนื่องมาตั้งแต่ปี พ.ศ. 2540 จนมาถึงเวอร์ชั่นล่าสุด วาจา 7.0 ซึ่งมีคุณสมบัติดังต่อไปนี้

  • สามารถสร้างเสียงคำพูดได้ครอบคลุมคำในภาษาไทย เนื่องจากมีส่วนวิเคราะห์คำอ่านที่สามารถวิเคราะห์ได้แม้แต่คำที่ไม่ปรากฎในพจนานุกรม
  • ผู้ใช้สามารถเพิ่มคำเฉพาะ เช่น ชื่อบุคคล พร้อมทั้งกำหนดคำอ่านได้อย่างอิสระ เพื่อให้ซอฟต์แวร์สามารถแปลงข้อความมาเป็นเสียงพูดได้ตรงกับความต้องการของผู้ใช้
  • รองรับการอ่านแบบสองภาษาไทย-อังกฤษ โดยเป็นเสียงของคนเดียวกัน
  • รองรับการทำงานบนหลายแพลตฟอร์ม เช่น Windows (Microsoft Speech APIs), Linux Enterprise (Web APIs) และ Android (Android APIs)
SPT, party

2. พาที (PARTY) : โปรแกรมรู้จำเสียงพูดภาษาไทย

เป็นโปรแกรมที่แปลงเสียงพูดภาษาไทยให้เป็นข้อความ ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาพาทีมาตั้งแต่ปี พ.ศ. 2556 และในเวอร์ชั่นปัจจุบัน มีคุณสมบัติดังต่อไปนี้

  • ไม่จำกัดเนื้อหา (Open domain)
  • ความแม่นยำอยู่ที่ 80% (Accuracy) ภายใต้การทดสอบกับเสียงพูดผ่านช่องทางข้อมูล (data channel) ด้วยสมาร์ทโฟน โดยไม่กำหนดเนื้อหา ผู้พูด หรือรูปแบบการพูด
  • การทดสอบความเร็วในการตอบสนองภายใต้เครือข่าย WiFi และเครือข่าย 3G จำลอง พบว่าพาทีสามารถตอบสนองได้ภายในเวลาไม่เกิน 1.5 เท่าของความยาวของเสียงอินพุต
  • เว็บบริการพร้อมติดตั้งและปรับแต่งได้ (Customizable) ซึ่งสามารถขยายบริการตามปริมาณการใช้งาน และปรับแต่งระบบให้ถอดความได้ถูกต้องมากขึ้นในเนื้อหาหรือผู้พูดที่กำหนดได้
S-sense

3. S-Sense โปรแกรมวิเคราะห์ข้อความโซเชียลมีเดีย

เป็นระบบวิเคราะห์ความคิดเห็นของบุคคลทั่วไปหรือกลุ่มลูกค้าบน โซเชียลมีเดีย ว่ารู้สึกอย่างไรต่อผลิตภัณฑ์ บริการ และยี่ห้อสินค้า โดยระบบจะรวบรวมข้อความจาก โซเชียลมีเดีย แล้วนำมาประมวลผลทางภาษาเพื่อแยกแยะ วิเคราะห์และแสดงผลด้วยรูปแบบที่เข้าใจง่าย ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาระบบ S-Sense มาตั้งแต่ปี พ.ศ. 2555 และในเวอร์ชั่นปัจจุบัน S-Sense 2.0 มีคุณสมบัติดังต่อไปนี้

  • วิเคราะห์คำสำคัญที่เกี่ยวข้อง คำบ่งบอกคุณลักษณะของสินค้าหรือบริการ หรือคำที่มีการกล่าวถึงบ่อยครั้ง
  • วิเคราะห์จุดประสงค์ของข้อความที่รวบรวมมาเป็นข้อความประเภทใด เช่น สอบถามปัญหา ร้องขอ หรือแสดงความคิดเห็น
  • วิเคราะห์ความคิดเห็นของข้อความว่าเป็นเชิงบวกหรือลบ
  • วิเคราะห์ประโยคเชิงเปรียบเทียบ
CopyCat, MyCat

4. MyCat & CopyCat ระบบบริหารจัดการวิทยานิพนธ์และระบบตรวจสอบลิขสิทธิ์ผลงานวิชาการและวิทยานิพนธ์

MyCat เป็นระบบที่ช่วยให้กระบวนการจัดการวิทยานิพนธ์เป็นไปอย่างครบวงจร โดยเริ่มตั้งแต่การจัดส่งร่างวิทยานิพนธ์ การตรวจสอบการคัดลอกข้อความโดยใช้โปรแกรม CopyCat และการจัดเก็บรูปเล่มวิทยานิพนธ์ฉบับสมบูรณ์

CopyCat เป็นระบบตรวจสอบการคัดลอกและลอกเลียนเอกสารอิเล็กทรอนิกส์แบบอัตโนมัติ ซึ่งมีคุณสมบัติของระบบดังต่อไปนี้

  • สนับสนุนการตรวจสอบเอกสารที่อยู่ในรูปแบบของ Plain Text (txt), Microsoft Word Document (doc, docx), Portable Document Format (pdf)
  • สนับสนุนการตรวจสอบเอกสารท้ังภาษาไทยและภาษาอังกฤษ
  • สามารถตรวจสอบเอกสารท่ีถูกเปลี่ยนแปลงบางส่วนได้ เช่น ลบคำ เพิ่มคำ หรือการสลับประโยค เป็นต้น
  • สามารถตรวจสอบกับคลังเอกสารจำเพาะได้
  • สามารถแสดงแถบสีของข้อความที่คล้ายกันพร้อมท้ังเปอร์เซ็นต์ความคล้าย

บุคลากร

ความเชี่ยวชาญและความสนใจ
  1. ดร. อลิสา คงทน : Text Mining, Sentiment Analysis and Opinion Mining, Bibliometric Analysis
  2. ดร. ชูชาติ หฤไชยะศักดิ์ : Information Retrieval and Search Engine, Information Filtering and Recommender System, Text Mining, Natural Language Processing, Sentiment Analysis and Opinion Mining, Big Data Analytics and Visualization
  3. ดร. ชัชวาลย์ หาญสกุลบรรเทิง : Natural Language Processing, Speech Synthesis, Text-to-Speech Synthesis, Speech Analysis, Speech Coding
  4. ดร. อโณชา รักชาติเจริญ : Text-to-Speech Synthesis, Acoustic Phonetics
  5. ดร. วาทยา ชุณห์วิจิตรา : Automatic Speech Recognition, HMM-based Speech Synthesis
  6. นางสาว พรพิมล ผลินกูล : Linguistics, Corpus Linguistics, Lexicography
  7. นางสุมนมาศ ทัดพิทักษ์กุล : ภาษาศาสตร์และสัทศาสตร์
  8. นายศราวุธ คงยัง : Big Data Analytic, Text Mining and Machine Learning, Sentiment Analysis and Opinion Mining, Information Retrieval and Search Engine, Natural Language Processing, Software Engineering, Visualization
  9. นายสุพล ไกลถิ่น : Database Management System, Web Programming, Natural Language Processing
  10. นายสันติพงษ์ ไทยประยูร : Web and Database Management System, Information Retrieval and Search Engine, Natural Language Processing, Text Mining, Plagiarism Detection
  11. นายชัชวาล สังคีตตระการ : Information Retrieval, Search Engine, Question- Answering, Natural Language Processing, Mobile Application
  12. นางสาวกนกอร ตระกูลทวีคูณ : Web Programming and Design, Database Management System, Visualization
  13. นายสิทธิพงษ์ สายชุม : Speech Synthesis Technology, Text analysis, Natural Language Processing, Embedded software development
  14. นายพุทธพงศ์ เสริฐศรี : Speech Recognition, Computer Programming, Mobile App Development
  15. นายณัฐพงษ์ เครือภักดี : Speech Synthesis, Text analysis, Computer Programming, Business Software Development, System and Database Administrator
  16. นายชัยอนันต์ ดำรงรัตน์ (ลาศึกษา) : Information Retrieval, Computer Vision, Augmented Reality, Knowledge Management, Mobile Application, Location-Based technology
  17. นายอัษฎางค์ แตงไทย (ลาศึกษา) : Speech processing, Thai Text processing, Audiovisual Speech Synthesis
  18. นางขวัญชีวา แตงไทย (ลาศึกษา) : Multi-Modal Speech Recognition, Statistical Language Modeling
  19. นายวัฒนศักดิ์ เจียมวัฒนชัย (ลาศึกษา) : Smart Agent

ติดต่อ

ห้องปฏิบัติการวิจัยเทคโนโลยีเสียง (SPT)
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
email : spt[at]nectec.or.th
HCCRU STP

วันที่เผยแพร่ 5 ตุลาคม 2559 08:00