引言 辨識技術原理概述 核心技術應用領域 成功案例應用 辨識流程圖
      過去由於電腦運算能力不足,想利用自然的口語方式與電腦溝通幾乎是不可能,隨著電腦硬體發展成熟,電腦整體的效能已大大提昇。智慧型人機介面技術的應用,特別像是語音辨識等相關功能,已經被廣泛應用於各式資訊產品之中。
      透過智慧型語音命令與語音合成技術,輕鬆自在地操控個人電腦、各式手持式裝置,甚至是IA資訊家電,這些聽得懂使用者自然對話的科技產品將不再是冷冰冰的機器,取而代之的將會是更具人性化的互動式電子產品。例如,使用者可以利用手機進行聲控撥號,或是在PDA上直接以聲控方式操控或是進行即時資料搜尋,各種IA產品及玩具也可透過語音命令與語音合成技術,增加產品與使用者的互動性,預估語音辨識相關技術的市場規模可觀。
      語音辨識相關技術在企業的應用則可以協助企業減低人力成本,並增進服務品質,帶來新的實質收益。例如協助證券業者,讓廣大的投資人直接透過電話語音方式下單購買股票,或是聽取股市行情等。
 
     蒙恬科技目前研發兩項語音技術,包括『語音命令』與『語音合成』兩項技術,皆是實現人機互動的關鍵技術。語音命令(VC)是Voice Command,指聲控指令,透過電腦識別人所發出的語音指令,進而操控電腦的動作。語音合成(TTS)是Text-To-Speech,指將輸入的文字轉換成語音輸出的技術。

  智慧型語音命令技術的原理

      智慧型語音命令技術是先由話筒、麥克風等輸入設備輸入語音命令,先進的語音技術會將輸入的語音轉換成語音數位信號,並且對該信號進行語意分析處理,同時提取語音特徵,接下來會在預先建立的語音詞庫裏,進行資料搜索與比對,並找最相似的語意作為辨識後的結果,並輸出成文字或直接執行指令。
      蒙恬科技現有的智慧型語音命令技術,是採用『非特定人大辭彙量連續語音』的方式進行開發,可以適應不同發音人和不同發音環境,並且蒙恬科技智慧型語音命令技術已針對所使用的特徵、聲學模型、搜索方法等進行了『最優化設計』,可以在像是嵌入式系統中,或是僅具小處理能力的CPU和小存儲量的情況下進行即時語音識別,而對於識別精度卻僅有小幅損失。

  智慧型語音合成技術的原理

     智慧型語音合成技術是先將輸入文字作「語言學預處理」,這是對文章段落進行特殊符號(如數位元元串、英文字串、貨幣符號等)與斷句分析,根據文章中的標點、段落等作文本的劃分,並將之轉換成相應的讀音。
      接著進行「文本分析」,即是針對文章中的語句作「詞」的切分,並將「字碼」轉換成相應的「音碼」,再來便是透過語音韻律規則資料庫,或類神經網路技術以演算出準確的音高(Pitch)、音長(Duration)、音強(Energy)、與音節間的停頓(Pause)大小,以正確的表達語意,並透過電腦模擬真人智慧發音。
      由於實際言語千變萬化,各種語言現象極其豐富,難以用有限的韻律規則資料庫涵蓋所有情況,因此蒙恬科技研發的智慧型語音合成系統,同時兼有韻律規則庫和類神經網路技術,這兩種演算法以生成語音韻律,以確保語音合成之自然流暢。
      現階段雖然語音辨識的市場很大,但是整體而言,中文語音辨識技術仍然有許多方面需要改進,例如必須解決輸入時環境的噪音等問題。蒙恬科技現有的語音技術,已可以提供90%以上的辨識率,目前先自PC平台移轉到個人數位助理(PDA)上,已開發完成WinCE作業系統上的語音合成及語音命令技術。

 
個人電腦聲控系統
  個人電腦上的各種語音互動功能,包括語音代理人(語音秘書)、語音上網、語音建立表格、語音計算機、語音字典、語音互動遊戲、設定即時語音提示、文稿語音校對、語音電子郵件等。
手持式電子裝置聲控系統
  各式手機、PDA等手持式電子裝置上的語音操作與查詢,並進行資料朗讀。
聲控撥號系統
  應用於固定式電話的聲控撥號功能。
聲控家電系統
  以語音方式控制IA資訊家電,或應用於多媒體商務/辦公、語言學習教學、購物系統。
車用語音導航系統
  應用於智慧型汽車中,透過語音命令方式控制音響與汽車導航,以及車載電話的聲控制系統。
工業機器之聲控系統
公眾資訊查詢與播報系統
  可透過語音方式查詢與聽取如天氣、交通、電話號碼、廣播電視節目和新聞等生活資訊。
銀行業帳務語音查詢服務系統
  讓使用者透過語音方式取得帳戶、線上交易、取得用戶資料等。
證券業股票查詢交易系統
  讓使用者透過語音方式進行下單、交易確認與查詢、最新股市行情查詢等。
銀行業帳務語音查詢服務系統
  讓使用者透過語音方式取得帳戶、線上交易、取得用戶資料等。
自動總機系統
  讓使用者透過語音方式進行撥號、分機查詢等。
聲控玩具
  讓使用者透過語音方式與智慧型玩具進行對話與互動。
導盲閱讀系統
  殘疾人語音輔助學習系統。
 
          蒙恬自行研發產品成功案例
 
嵌入式語音人機介面應用範圍相當廣泛,涵蓋通訊、電腦、生活IA、車用等領域,尤其在螢幕和鍵盤輸入受限的智慧型裝置上,更彰顯出應用價值。
 

  蒙恬聽寫王系列產品:整合中文語音與手寫辨識之系統,其中整合既有之語音命令與語音合成技術,包括像是語音代理人(語音秘書)、語音上網、語音建立表格、語音計算機、語音字典、語音互動遊戲、設定即時語音提示等。

 

 蒙恬筆系列產品:中文手寫辨識之系統,並整合既有之語音命令與語音合成技術,包括像是語音上網、語音朗讀機等。

蒙恬名片王系列產品:13種語文之名片辨識系統,並整合既有之語音命令與語音合成技術,使用者可以用中文語音搜尋名片資料。

 蒙恬掃譯筆系列產品:中英文掃描翻譯辨識之系統,整合既有語音合成技術,使用者可以指定將掃描之文字以國語或是粵語朗讀出來。

 蒙恬聲控王(Voking)語音辨識軟體:行動語音命令系統,整合既有之語音命令技術,使用者用命令的方式,即可讓 Pocket PC手機聰明地執行,舉凡搜尋連絡人資料、接受語音命令撥打電話、傳送簡訊、撰寫 Email 給連絡人、聲控點歌、開啟行事曆、操作瀏覽器、相簿、檔案總管及小算盤等應用程式。

          蒙恬企業核心技術授權成功案例
 
  研勤科技:整合蒙恬語音命令與合成技術,應用在智慧型聲控3D衛星導航系統,利用聲控操作手機導航,讓使用者輕鬆駕馭,享受生活樂趣。
  語音地址技術:整合蒙恬語音命令技術,讓郵務人員可透過語音方式直接輸入臺灣省全省地址所須的資訊,並將文字結果輸出到郵務資訊資料庫系統中。
  語音下單技術:整合蒙恬語音命令技術,利用語音文法分析、語音辨識及整合資料庫存取特性,讓證券營業員直接透過語音方式,直接輸入股票買賣交易所需的資訊,並於確認後將資料即時傳送到證交所完成股票交易。
 
   辨識流程圖