Speech Recognition

Speech Recognition คือระบบโปรแกรมคอมพิวเตอร์ที่สามารถแปลงเสียงพูด (Audio File) เป็นข้อความตัวอักษร (Text) โดยสามารถแจกแจงคำพูดต่างๆ ที่มนุษย์สามารถพูดใส่ไมโครโฟน โทรศัพท์หรืออุปกรณ์อื่นๆ และเข้าใจคำศัพท์ทุกคำอย่างถูกต้องเกือบ 100% โดยเป็นอิสระจากขนาดของกลุ่มคำศัพท์ ความดังของเสียงและลักษณะการออกเสียงของผู้พูด โดยระบบจะรับฟังเสียงพูดและตัดสินใจว่าเสียงที่ได้ยินนั้นเป็นคำๆใด 

Speech Recognition

ขั้นที่ 1 แปลงคลื่นเสียงที่มากระทบในขั้นต้นให้เป็นตัวเลขที่เราต้องการเพื่อทำความเข้าใจ
ขั้นที่ 2 คำนวณถึงลักษณะเฉพาะซึ่งเป็นสัญลักษณ์ของ Spectral โดย domain ที่เป็นหัวเรื่องของ Speechลักษณะ เหล่านั้นจะถูกคำนวณทุกๆ 10 msec โดยแต่ละ10 msec จะถูกเรียกว่า “Frame“
ขั้นที่ 3 Artificial Neural Network (ANN) แบบ Multi – Layer Perceptron (MLP) จะถูกใช้เพื่อแยกชั้นของกลุ่มของลักษณะเหล่านั้นไปสู่ phonetic-based categories ในแต่ละ frame
ขั้นที่ 4 Viterbi search จะทำการจับคู่ neural network output scores กับคำศัพท์ที่ต้องการ

Speech Recognition เป็นเทคโนโลยีที่สามารถนำไปใช้ได้อย่างหลากหลาย อย่างเช่น ในอุตสาหกรรม Health Care ผู้ที่ใช้ประโยชน์จากเทคโนโลยีนี้คือ ฝ่าย admin และหมอ พยาบาล เภสัชกรที่ไม่ถนัดหรือไม่ชื่นชอบการพิมพ์, หรือแม้กระทั่งทางการทหาร ก็สามารถนำเทคโนโลยีนี้ไปใช้เพื่อสั่งการระบบนักบินอัตโนมัติ (Autopilot),ติดตั้งความถี่คลื่นวิทยุ หรือควบคุม flight display เป็นต้น
นอกจากนี้ เทคโนโลยีนี้ยังสามารถนำไปใช้ประโยชน์อย่างอื่นได้อีก เช่น การแปลอัตโนมัติ, การสั่งการรถยนต์, การโทรสนเทศ(Telematics), การรายงานในศาล (Court reporting หรือ Realtime Voice Writing), คอมพิวเตอร์แฮนด์ฟรี, โทรศัพท์มือถือ, หุ่นยนต์, video games, Interactive Voice Response (IVR), Speech-to-text (การแปลเสียงให้เป็นคำพูด) และการควบคุมการจราจรทางอากาศ เป็นต้น
ในต่างประเทศ Application ที่นำเทคโนโลยีนี้ไปใช้กันอย่างค่อนข้างแพร่หลาย ได้แก่ โทรศัพท์ตอบรับอัตโนมัติ เช่น จองตั๋วเครื่องบิน สอบถามรอบฉายภาพยนตร์ หรือการสั่งการอุปกรณ์ไฟฟ้าต่างๆด้วยเสียง แต่ในประเทศไทย เนื่องจากยังไม่สามารถทำ recognizer ที่มีประสิทธิภาพดีเพียงพอที่จะนำมาใช้เชิงธุรกิจได้ จึงยังไม่มีการนำมาใช้มากเท่าใดนัก
ข้อดี
  • สามารถใช้ได้ในหลายสภาวการณ์ทั้งที่ปกติและไม่ปกติ เช่น ขณะที่มือไม่ว่าง, ต้องการความคล่องตัว, สายตาไม่ว่าง, ไม่ต้องการใช้คีย์บอร์ด, มีข้อจำกัดทางร่างกาย ฯลฯ 
  • ช่วยประหยัดเวลาในการทำงาน 
  • ช่วยอำนวยความสะดวกมากยิ่งขึ้น
ข้อเสีย
  • ผู้ใช้ต้องออกเสียงชัดเจน และพูดตามอักขระให้ถูกต้อง
  • ขณะใช้ต้องปราศจากเสียงรบกวนจากภายนอก เพื่อไม่ให้โปรแกรมประมวลผลผิดพลาด
  • โปรแกรมสามารถแสดงคำพูดได้เป็นหลายคำเช่น “Hello” อาจจะกลายเป็น “Little”  “good old” “who told”
  • ถ้าใช้ Sound Card ที่ต่ำกว่ามาตรฐานที่โปรแกรมกำหนด จะทำให้ได้ผลที่ได้ไม่ดีนัก

การรู้จำเสียง