MENU
Banner

ทีมวิจัยการเข้าใจเสียงและข้อความ

ทีมวิจัยการเข้าใจเสียงและข้อความ หรือ Speech and Text Understanding (STU) ดำเนินการค้นคว้าวิจัยและพัฒนาเทคโนโลยีที่เกี่ยวข้องกับ ภาษาพูดและภาษาเขียนของมนุษย์ ซึ่งถือเป็นสื่อพื้นฐานที่ขาดไม่ได้สำหรับการติดต่อสื่อสารของมนุษย์ แต่คงไว้ซึ่งความซับซ้อน ความหลากหลาย และความสวยงาม ที่เกิดจากการสร้างสรรค์และสืบทอดต่อกันมา เป็นองค์ความรู้และวัฒนธรรมที่แตกต่างกันในแต่ละภูมิภาค การประมวลผลภาษาจึงมีความน่าสนใจและท้าทาย ผลลัพธ์ของการวิจัยและพัฒนานี้ ถือเป็นนวัตกรรมที่ช่วยอำนวยความสะดวกในการติดต่อสื่อสารระหว่างมนุษย์กับเครื่องจักร และระหว่างมนุษย์ด้วยกัน ซึ่งสามารถนำไปประยุกต์ใช้ในงานต่างๆ ได้อย่างกว้างขวาง อาทิ การสั่งการด้วยเสียงในโทรศัพท์มือถือ การสืบค้นข้อมูลในเครือข่ายอินเตอร์เน็ต และการวิเคราะห์ข้อความบนโซเชียลมีเดีย เป็นต้น

วิสัยทัศน์

ผู้นำทางด้านงานวิจัยและพัฒนาเทคโนโลยีภาษาพูดและภาษาเขียนสำหรับภาษาไทย

พันธกิจ

  • ความเป็นเลิศด้านการวิจัยและพัฒนา
  • สร้างเครือข่ายและขยายกลุ่มผู้ร่วมวิจัย พันธมิตรและผู้ใช้งาน
  • สร้างสภาพแวดล้อมพื้นฐานเพื่องานวิจัยสำหรับประเทศ
  • ถ่ายทอดงานวิจัยเพื่อสร้างผลกระทบด้านเศรษฐกิจและสังคมอย่างยั่งยืน

เทคโนโลยีหลัก

  • เทคโนโลยีการประมวลผลเสียงพูด (Speech Processing Technology)
    • เทคโนโลยีการรู้จำเสียงพูด (Speech Recognition)
    • เทคโนโลยีการสังเคราะห์เสียงพูด (Speech Synthesis)
    • เทคโนโลยีภาพและเสียง (Audio-visual technology)
  • เทคโนโลยีการประมวลผลและวิเคราะห์ข้อความ (Text Processing and Mining Technology)
    • เทคโนโลยีการตัดคำ (Word Segmentation)
    • เทคโนโลยีการค้นคืนและสืบค้นข้อความ (Information Retrieval and Search Engine)
    • เทคโนโลยีการวิเคราะห์ข้อความ (Text Mining)

ผลงานเด่น

1. วาจา (VAJA): โปรแกรมสังเคราะห์เสียงพูดภาษาไทย
โปรแกรมสังเคราะห์เสียงพูดภาษาไทย ทำหน้าที่แปลงข้อความภาษาไทยให้เป็นเสียงพูด ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาวาจาอย่างต่อเนื่องมาตั้งแต่ปี พ.ศ. 2540 จนมาถึงเวอร์ชั่นล่าสุด วาจา 8.0 ซึ่งมีคุณสมบัติดังต่อไปนี้
    • สามารถสร้างเสียงคำพูดได้ครอบคลุมคำในภาษาไทย เนื่องจากมีส่วนวิเคราะห์คำอ่านที่สามารถวิเคราะห์ได้แม้แต่คำที่ไม่ปรากฎในพจนานุกรม
    • ผู้ใช้สามารถเพิ่มคำเฉพาะ เช่น ชื่อบุคคล พร้อมทั้งกำหนดคำอ่านได้อย่างอิสระ เพื่อให้ซอฟต์แวร์สามารถแปลงข้อความมาเป็นเสียงพูดได้ตรงกับความต้องการของผู้ใช้
    • รองรับการอ่านแบบสองภาษาไทย-อังกฤษ โดยเป็นเสียงของคนเดียวกัน
    • รองรับการทำงานบนหลายแพลตฟอร์ม เช่น Windows (Microsoft Speech APIs), Linux Enterprise (Web APIs) และ Android (Android APIs)
2. พาที (Partii): โปรแกรมรู้จำเสียงพูดภาษาไทย
เป็นโปรแกรมที่แปลงเสียงพูดภาษาไทยให้เป็นข้อความ ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาพาทีมาตั้งแต่ปี พ.ศ. 2556 และในเวอร์ชั่นปัจจุบัน มีคุณสมบัติดังต่อไปนี้
    • ไม่จำกัดเนื้อหา (Open domain)
    • ความแม่นยำอยู่ที่ 80% (Accuracy) ภายใต้การทดสอบกับเสียงพูดผ่านช่องทางข้อมูล (data channel) ด้วยสมาร์ทโฟน โดยไม่กำหนดเนื้อหา ผู้พูด หรือรูปแบบการพูด
    • การทดสอบความเร็วในการตอบสนองภายใต้เครือข่าย WiFi และเครือข่าย 3G จำลอง พบว่าพาทีสามารถตอบสนองได้ภายในเวลาไม่เกิน 1.5 เท่าของความยาวของเสียงอินพุต
    • เว็บบริการพร้อมติดตั้งและปรับแต่งได้ (Customizable) ซึ่งสามารถขยายบริการตามปริมาณการใช้งาน และปรับแต่งระบบให้ถอดความได้ถูกต้องมากขึ้นในเนื้อหาหรือผู้พูดที่กำหนดได้
3. เอสเซนส์ (S-sense): โปรแกรมวิเคราะห์ข้อความโซเชียลมีเดีย
เป็นระบบวิเคราะห์ความคิดเห็นของบุคคลทั่วไปหรือกลุ่มลูกค้าบน โซเชียลมีเดีย ว่ารู้สึกอย่างไรต่อผลิตภัณฑ์ บริการ และยี่ห้อสินค้า โดยระบบจะรวบรวมข้อความจาก โซเชียลมีเดีย แล้วนำมาประมวลผลทางภาษาเพื่อแยกแยะ วิเคราะห์และแสดงผลด้วยรูปแบบที่เข้าใจง่าย ซึ่งห้องปฏิบัติการวิจัยเทคโนโลยีเสียง ได้ดำเนินการวิจัยและพัฒนาระบบ S-Sense มาตั้งแต่ปี พ.ศ. 2555 และในเวอร์ชั่นปัจจุบัน S-Sense 2.0 มีคุณสมบัติดังต่อไปนี้
    • วิเคราะห์คำสำคัญที่เกี่ยวข้อง คำบ่งบอกคุณลักษณะของสินค้าหรือบริการ หรือคำที่มีการกล่าวถึงบ่อยครั้ง
    • วิเคราะห์จุดประสงค์ของข้อความที่รวบรวมมาเป็นข้อความประเภทใด เช่น สอบถามปัญหา ร้องขอ หรือแสดงความคิดเห็น
    • วิเคราะห์ความคิดเห็นของข้อความว่าเป็นเชิงบวกหรือลบ
    • วิเคราะห์ประโยคเชิงเปรียบเทียบ
4. CopyCatch: โปรแกรมตรวจความเหมือนของข้อความในเอกสาร
CopyCatch เป็นระบบตรวจสอบการคัดลอกและลอกเลียนเอกสารอิเล็กทรอนิกส์แบบอัตโนมัติ ซึ่งมีคุณสมบัติของระบบดังต่อไปนี้
    • สนับสนุนการตรวจสอบเอกสารที่อยู่ในรูปแบบของ Plain Text (txt), Microsoft Word Document (doc, docx), Portable Document Format (pdf)
    • สนับสนุนการตรวจสอบเอกสารท้ังภาษาไทยและภาษาอังกฤษ
    • สามารถตรวจสอบเอกสารท่ีถูกเปลี่ยนแปลงบางส่วนได้ เช่น ลบคำ เพิ่มคำ หรือการสลับประโยค เป็นต้น
    • สามารถตรวจสอบกับคลังเอกสารจำเพาะได้
    • สามารถแสดงแถบสีของข้อความที่คล้ายกันพร้อมท้ังเปอร์เซ็นต์ความคล้าย

บุคลากรและความเชี่ยวชาญ

  • ดร.อโณชา รักชาติเจริญ : Text-to-Speech Synthesis, Acoustic Phonetics
  • ดร.วาทยา ชุณห์วิจิตรา : Automatic Speech Recognition, HMM-based Speech Synthesis
  • ดร.ชัยอนันต์ ดำรงรัตน์ : Information Retrieval, Computer Vision, Augmented Reality, Knowledge Management, Mobile Application, Location-Based technology
  • ดร.อัษฎางค์ แตงไทย : Speech processing, Thai Text processing, Audiovisual Speech Synthesis
  • ดร.ขวัญชีวา แตงไทย : Multi-Modal Speech Recognition, Statistical Language Modeling
  • นางสาว พรพิมล ผลินกูล : Linguistics, Corpus Linguistics, Lexicography
  • นางสุมนมาศ ทัดพิทักษ์กุล : ภาษาศาสตร์และสัทศาสตร์
  • นายศราวุธ คงยัง : Big Data Analytic, Text Mining and Machine Learning, Sentiment Analysis and Opinion Mining, Information Retrieval and Search Engine, Natural Language Processing, Software Engineering, Visualization
  • นายสุพล ไกลถิ่น : Database Management System, Web Programming, Natural Language Processing
  • นายสันติพงษ์ ไทยประยูร : Web and Database Management System, Information Retrieval and Search Engine, Natural Language Processing, Text Mining, Plagiarism Detection
  • นายชัชวาล สังคีตตระการ : Information Retrieval, Search Engine, Question- Answering, Natural Language Processing, Mobile Application
  • นางสาวกนกอร ตระกูลทวีคูณ : Web Programming and Design, Database Management System, Visualization
  • นายสิทธิพงษ์ สายชุม : Speech Synthesis Technology, Text analysis, Natural Language Processing, Embedded software development
  • นายพุทธพงศ์ เสริฐศรี : Speech Recognition, Computer Programming, Mobile App Development
  • นายณัฐพงษ์ เครือภักดี : Speech Synthesis, Text analysis, Computer Programming, Business Software Development, System and Database Administrator
  • นายวัฒนศักดิ์ เจียมวัฒนชัย (ลาศึกษา) : Smart Agent

ติดต่อ

ทีมวิจัยการเข้าใจเสียงและข้อความ (STU)
กลุ่มวิจัยปัญญาประดิษฐ์ (AINRG)
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค)
อีเมล : stu[at]nectec.or.th
โทร. 0 2564 6900 ext. 2232
AINRG STU เสียงและข้อความ AI ปัญญาประดิษฐ์

วันที่เผยแพร่ 1 สิงหาคม 2562 15:16