
| 音声対話システムは音声認識,発話意図理解,問題解決,音声合成
など様々な技術を統合したものであり,実環境で快適な速度で動作させるためには
各モジュールの動作速度を向上させ,かつ環境ノイズに対する頑健性を高める必要がある. 特に音声認識部について言えば,音声区間のどの部分に単語が(複数)含まれるかを 推定する単語スポッティング方式を用いることによって,ノイズの問題や 実環境における助詞のいい間違い,いい淀みなどの問題をある程度 解消できる.しかしスポッティング結果出力である単語ラティスから どの単語のつながりが話者意図にあっているかを推定するには, 従来多大な計算時間を要していた.本研究では,BTH(Bun Template Hash)方式 という単語ラティスの新しい解析方式を提案し,大規模なラティスであっても 実時間で処理することを可能とした. また音声対話システムは,単純なタスクを実施する場合であっても, 複数のモジュールを協調的に動作させるための複雑なプログラムコードを 記述する必要がある. 音声対話システムを計算機システムのヒューマンインタフェースと するためには,試作,テスト,再構築,のサイクルをできるだけ簡単化 する必要があるが,これまではタスクに固有のコードと汎用のコードを 明示的に分離して記述する方式が無かったために,音声対話システム構築と その維持は非常にコスト高であった. そこで本研究ではEUROPA(Enviroment for building Utterance RecOgnizable PAckages)とよぶ 音声対話システムの構築フレームワークを作成し, 音声対話カーナビゲーションシステムと新幹線チケット予約システムに適用した. その結果,提案フレームワークは音声対話システムの構築コスト削減に貢献することを確認した. ![]() ![]() ![]() 2002年からは,家電製品を対象として音声インタフェースの応用研究に着手した.音声インタフェースによるDVDレコーダー操作の研究では,公開されて いるEPG(電子番組表)から放送予定番組に関するデータ(番組名,日時,出演者,番組内容)を抽出して音声認識辞書に登録し,ユーザの嗜好に応じて自由 度が高い入力方式(=言い方)で番組を検索,録画,再生するシステムを構築した.また,大語彙入力可能な音声対話インタフェースが抱える「何がいえるのか 分からない」という問題にも取り組んだ.語彙の強調表示,似ている概念を同じ言葉で参照,などの工夫を導入した. ![]() ![]() また,2003年からは,従来の電子辞書や音声翻訳システムといった「異言語間コミュニケーション支援ツール」が構造的に抱えていた問題である「話者の意 思表示が支援できても相手からの回答が理解できない」という点に着目し,話者の質問を翻訳するとともに相手の回答を誘導するようなインタフェースを備えた 「グローバルコミュニケーター」を試作した.試作機は,日本語の話者が英語,中国語を話す相手とのコミュニケーションを支援する.試作機にはコンテンツと して旅行,医療(問診)の場面におけるコミュニケーションを収録し,日本人,中国人の被験者を対象とした評価実験を行った. ![]() ![]() ![]() ![]() |
| ■ 原著論文 |
| 音声対話タスクのための高速なキーワードラティスパーザBTH, 屋野武秀,笹島宗彦,河野恭之, 人工知能学会論文誌, No6, pp.658-666,2002 発話意図理解と回答誘導による異言語間会話支援ツー ルの試作, 笹島 宗彦,井本 和範,下森 大志,山中 紀子,矢島 真人,福永 幸弘,正井 康之 情報処理学会論文誌 48巻3号,1262-1273, 2007 PDF(最終校正前ドラフト) |
| ■ 国際会議,国内シンポジウム(査読あり) |
| BTH: An Efficient Parsing Algorithm for
Word-Spotting, Yasuyuki Kono, Takehide Yano, and Munehiko Sasajima, Proc. International Conference on Spoken Language Processing (ICSLP'98), pp.2067-2070, 1998 EUROPA: A Generic Framework for Developing Spoken Dialogue Systems, Munehiko Sasajima, Takehide Yano, and Yasuyuki Kono, Proc. of EUROSPEECH 1999, pp.1163-1166, 1999 A Generic Framework for Spoken Dialogue Systems and Its Application to a Car Navigation Task, Yasuyuki Kono, Takehide Yano, and Munehiko Sasajima, Proc. IEEE/JSAI International Conference on Intelligent Transportation Systems(ITSC’99), pp.728-733, 1999 MINOS-II: A Prototype Car Navigation System with Mixed Initiative Turn Taking Dialogue, Munehiko Sasajima, Takehide Yano, Taishi Shimomori and Tatsuya Uehara, Proc. of EUROSPEECH 2001, pp. 1311-1314, 2001 K. Imoto, M. Sasajima, T. Shimomori, N. Yamanaka, M. Yajima and Y. Masai. A Multi Modal Supporting Tool for Multi Lingual Communication by Inducing Partner's Reply, The International Conference on Intelligent User Interfaces (IUI2006), pp.330-332, Sydney, Australia, Jan. 29-Feb. 1, (2006). PDF(ドラフト) 発話意図理解と回答誘導による異言語間会話支援ツールグローバルコミュニケーター, 笹島 宗彦,井本 和範,下森 大志,山中 紀子,矢島 真人,福永 幸弘,正井 康之, インタラクション2005予稿集,pp.119-126, 2005. PDF(投稿版ドラフト) |