รายงาน : ค่ายใหญ่ระเบิดศึก ชิงเจ้าตลาดเทคโนโลยีจดจำเสียง

ไมโครซอฟท์ นำทีมอินเทล ซัน และไอบีเอ็ม มุ่งหน้าประดิษฐ์ ทั้งอินเทอร์เฟซสั่งงาน แบบผสมผสาน และซอฟต์แวร์จดจำคำพูด เปิดฉากแข่งเดือด ชิงเค้กส่วนแบ่งตลาด เทคโนโลยีจดจำเสียง ขณะที่ชูธงเน้นประโยชน์ ใช้สังเกตการณ์ผู้ป่วย และตรวจหาอาชญากรเป็นจุดขาย

 

แม้ว่าผู้ผลิตคอมพิวเตอร์หลายรายจะมีความพยายามในการพัฒนาระบบงานจดจำเสียงมาเป็นเวลานานแล้ว แต่โครงการเหล่านี้ไม่ค่อยมีความคืบหน้ามากนัก เนื่องจากมีอุปสรรคเกี่ยวกับระบบประมวลผลพีซี ซึ่งยังคงไม่มีกำลังมากพอที่จะรองรับชุดคำสั่ง รวมทั้งตัวซอฟต์แวร์ในระยะแรกๆ ก็ยังคงมีข้อจำกัดหลายอย่าง แต่สถานการณ์ดังกล่าวเปลี่ยนแปลงไป เมื่อมีการพัฒนาเทคโนโลยีชิพประมวลผลขึ้นในระยะหลัง โดยปัจจุบัน ชิพประมวลผลส่วนใหญ่รันด้วยความเร็วสูงกว่า 1.5 กิกะเฮิรตซ์ ขณะที่ชิพสำหรับคอมพิวเตอร์ระดับบนบางรุ่นมีความเร็วถึง 3.0 กิกะเฮิรตซ์

 

ไมโครซอฟท์ผุด"จีวินโดว์ส"นำร่อง

ส่งผลให้บริษัท ไมโครซอฟท์ คอร์ป ยักษ์ใหญ่วงการซอฟต์แวร์ ประกาศเปิดตัวโปรแกรม จีวินโดว์ส (GWindows) ที่สร้างความตื่นตาตื่นใจให้แก่อุตสาหกรรมไอทีได้ไม่น้อย เมื่อช่วงกลางเดือนเมษายนที่ผ่านมา นายแอนดี้ วิลสัน วิศวกรแห่งทีมวิจัยไมโครซอฟท์ รีเสิร์ช ผู้ออกแบบโปรแกรมดังกล่าว เปิดเผยว่า จีวินโดว์ส เป็นโปรแกรมอินเทอร์เฟซรูปแบบใหม่ ซึ่งอาศัยการเคลื่อนไหวของมือในการสื่อสารกับหน้าจอวินโดว์สบนคอมพิวเตอร์ และทำงานได้ดีกว่าระบบจดจำคำพูดทั่วไป อาทิ เมื่อผู้ใช้เคลื่อนไหวมือตามรูปแบบที่กำหนดไว้ โปรแกรมวินโดว์สจะเปลี่ยนจากหน้าจอหนึ่งเป็นอีกหน้าจอหนึ่ง คล้ายกับฉากในภาพยนตร์ "ไมนอริตี้ รีพอร์ท" แต่ต่างกันที่อินเทอร์เฟซตัวนี้ไม่ต้องอาศัยถุงมือพิเศษแต่อย่างใด นอกจากนี้ ยังทำให้กล้องวิดีโอที่เชื่อมต่อกับจอทีวีมองตามวัตถุที่เคลื่อนไหวภายในระยะ 20 นิ้ว เช่น มือหรือเครื่องชี้ จากนั้น ระบบงานดังกล่าวจะแปลรูปแบบการเคลื่อนไหวเหล่านี้เป็นคำสั่งคอมพิวเตอร์ อาทิ การวางนิ้วไว้บริเวณด้านบนของจอวินโดว์สและเคลื่อนนิ้วมือไปทางซ้าย ก็จะทำให้จอวินโดว์สเคลื่อนไปทางซ้าย ถ้าหากมีการใช้คำสั่งเสียงร่วมด้วย เช่น การสั่งว่า "เลื่อน" พีซีก็จะเชื่อมโยงคำสั่งนิ้วมือกับคำสั่งเสียงเข้าด้วยกันแล้วทำการเลื่อนจอภาพลง

 

อินเทลส่ง"ระบบโสตทัศนะ"ร่วมวง

หลังจากนั้นไม่นาน บริษัท อินเทล คอร์ป ก็ได้เปิดตัวซอฟต์แวร์จดจำคำพูดระบบโสตทัศนะ "ออดิโอ วิช่วล สปีช รีคอกนิชั่น" หรือ เอวีเอสอาร์ (The Audio Visual Speech Recognition-AVSR) ออกมาเช่นกัน ซอฟต์แวร์ตัวนี้สามารถเชื่อมโยงลักษณะการเคลื่อนไหวกับคำพูดได้ ซึ่งจะมีคุณสมบัติพิเศษ คือช่วยให้คอมพิวเตอร์สามารถรับคำสั่งด้วยเสียงได้แม้ในบริเวณที่มีเสียงอึกทึก ทางบริษัทได้เตรียมพัฒนาระบบงานข้อมูลภาพอื่นๆ ต่อยอดจากเทคโนโลยีเอวีเอสอาร์ อาทิ ซอฟต์แวร์ที่ใช้กล้องถ่ายภาพในการสังเกตการณ์ผู้ป่วยในโรงพยาบาล และซอฟต์แวร์ที่ใช้ข้อมูลจากกล้องวงจรปิดเพื่อค้นหาผู้มีแนวโน้มเป็นอาชญากรตามที่จอดรถต่างๆ โดยโปรแกรมเหล่านี้ ต่างอาศัยหลักการเดียวกัน คือ การกำหนดให้เครื่องคอมพิวเตอร์ส่งสัญญาณเตือนเมื่อเห็นสถานการณ์ผิดปกติ เช่น เมื่อคลื่นสมองผู้ป่วยเริ่มเต้นช้าลง หรือพบคนเดินจากรถคันหนึ่งไปยังรถอีกคันหนึ่ง แทนที่จะเดินตรงไปยังห้าง ตัวแทนบริษัท เปิดเผยว่า โปรแกรมเอวีเอสอาร์เป็นส่วนหนึ่งของห้องสมุดโอเพ่น ซีวี ซึ่งเป็นศูนย์รวบรวมระบบงานโอเพ่นซอร์ส และเครื่องมือที่ช่วยให้คอมพิวเตอร์สามารถแปลความหมายข้อมูลภาพได้ โดยซอฟต์แวร์ตัวนี้ได้รับการพัฒนาขึ้นในห้องทดลองสาขาประเทศจีนของอินเทล

 

ซันดัน"สฟิงค์"ตามติด

นอกจากนี้ บริษัท ซัน ไมโครซิสเต็มส์ ก็มีโครงการพัฒนาซอฟต์แวร์จดจำเสียงโดยใช้โปรแกรมภาษาจาวาของตน โดยโครงการนี้เป็นการร่วมมือกับมหาวิทยาลัยคาร์เนกี เมลลอน เพื่อทดลองพัฒนาโปรแกรมจดจำเสียง "สฟิงค์" ของทางมหาวิทยาลัย รวมทั้งยังมีนักวิจัยจากห้องทดลองบริษัท มิตซูบิชิ อิเล็กทริก เข้าร่วมด้วย ทั้งนี้ ตัวแทนซัน กล่าวว่า จุดมุ่งหมายของโครงการนี้ เพื่อแสดงให้เห็นว่าแพลตฟอร์มจาวาสามารถรองรับงานด้านการประมวลผลคอมพิวเตอร์ และโปรแกรมที่อาศัยหน่วยความจำสูงๆ ได้ ขณะที่ ตัวแทนทีมวิจัย เปิดเผยว่า สำหรับซอฟต์แวร์ที่พัฒนาขึ้นจะเป็นโปรแกรมโอเพ่นซอร์ส ซึ่งสามารถจดจำคำศัพท์ได้ถึง 1,000 คำ อีกทั้งมีระดับความแม่นยำในการจดจำเสียงมากกว่าซอฟต์แวร์สฟิงค์เวอร์ชั่นอื่นๆ ที่ผ่านมา และจัดว่ามีความเร็วปฏิบัติการอยู่ในระดับสูง แต่นายวิลลี่ วอลเคอร์ นักวิจัยของซัน ยังคงกล่าวว่า เขายังไม่ต้องการอวดอ้างคุณสมบัติใดๆ จนกว่าจะสามารถพัฒนาให้ซอฟต์แวร์ตัวนี้จดจำคำศัพท์ได้ถึง 64,000 เสียง พร้อมเปิดเผยว่า โครงการดังกล่าวจะมีประโยชน์ในการช่วยให้ผู้พิการสามารถเข้าถึงคอมพิวเตอร์ได้มากขึ้น

 

ไอบีเอ็มไม่น้อยหน้าเร่งพัฒนา"มาสทอร์"

ด้านบริษัท ไอบีเอ็ม เปิดตัวโครงการพัฒนา "มาสทอร์" (MASTOR-Multilingual Automatic Speech-to-Speech Technology) ซอฟต์แวร์แปลภาษาเวอร์ชั่นทดสอบ ที่ช่วยให้ผู้ใช้สามารถสื่อสารในอีกภาษาได้โดยไม่ต้องพิมพ์คำลงบนเครื่อง โดยมีหลักการทำงาน คือ เมื่อคู่สนทนารายหนึ่งพูดภาษาของตนผ่านไมโครโฟนที่เชื่อมต่อกับเครื่อง ซอฟต์แวร์จะถ่ายทอดคำพูดเหล่านั้นเป็นตัวหนังสือ ซึ่งจะปรากฏบนจอภาพ จากนั้นจะทำการแปลเป็นข้อความในอีกภาษาหนึ่ง พร้อมกับถ่ายทอดออกมาเป็นเสียงพูด ช่วยให้คู่สนทนาที่ใช้ภาษาต่างกัน อาทิ ภาษาอังกฤษและภาษาถิ่นเม็กซิกัน สามารถพูดคุยกันได้โดยตรงด้วยภาษาของตนเอง ทีมวิจัย เชื่อว่า ซอฟต์แวร์ตัวนี้ จะมีประโยชน์สำหรับการใช้งานส่วนตัว, การใช้งานด้านธุรกิจ, การใช้พยากรณ์อากาศตามท้องถิ่นต่างๆ ณ เวลาจริง และงานด้านสุขภาพ เช่น การใช้ในห้องฉุกเฉิน ซึ่งผู้ป่วยไม่สามารถพูดภาษาท้องถิ่นได้

 

ที่มา : กรุงเทพธุรกิจ ฉบับวันที่ 6 พฤษภาคม 2546

 

 
Home | About us | INET | ITE| PTEC | MTS | NTJ | Software Park
National Electronics and Computer Technology Center (NECTEC)
Copyright ©2001 By Information System Service Section. All rights reserved.