現在、音声入力インタフェースを用いたアート・エンターテインメント作品についての調査を行っています。下記一覧に名前があがらない例についてご存じの方は、ぜひ情報をお寄せ下さい。
http://eto.com/2003/contact.html
■音声認識を用いたアート作品
・exonemo FMS(Fragmental Storm), 2000.
フェでの会話の音を取り込み、音声認識した結果のキーワードを元に、自動的にネット上を検索し、画像などを収集した結果を画面上で表示するという作品。青山のスパイラルカフェで展示。市販の音声認識プログラムを改造して使用。
http://www.exonemo.com/FMS/indexJ.html
・師井聡子+笹田晋司+柴田良二「およぐことば」, 2002.
http://www.wasabi-gp.jp/preview.html
マイクに言葉を話しかけるとそれが音声認識され、その結果が文字として、水の表面を漂いはじめる。杓で水をかきまぜると、その文字もまた水の表面を動きまわる。また、杓を使ってその文字を持ち上げることができる。そうすると、その文字を表現したある形態へと変身する。例えば「あ」という文字は「あり」の形に姿を変えたりする。沖縄市にある沖縄こども未来ゾーンにて常設展示されている。
■音のパラメータ抽出を用いたアート作品
・三輪眞弘「サクソフォン、ピアノとコンピューターのためのSendMail」1995.
http://www.iamas.ac.jp/~mmiwa/BoysLabelMM.html
トランペットによって演奏された音高がMAX/MSPによって解析され、その結果がキーボードからの入力として機能する。そして、そのトランペットによるキーボード入力だけを用い、モデムによるダイアルアップ接続から始まってインターネットへと接続し、メール送信を行うという作品。
トランペットからの音の入力を、キーボードからのキーの打鍵にマッピングし、トランペットだけを用いてコンピュータにログインし、メールを送信するという作品。連続する二音を一つの打鍵として扱い、間違えた場合はバックスペースにマッピングされている音を入力する必要がある。これは現在当たり前の物となっているキーボードというインタフェースに対して音声による入力というオルタナティブを提示した例である。
・山口優 等, D SYSTEM, 2000.
http://www.ntticc.or.jp/pub/ic_mag/ic033/html/184.html
ネットでつなげてセッションを行うシステム。お互いを妨害したりできる。音程と音量、入力間隔をパラメータとして使用している。
当初の構想では音声認識を用いたシステムだったが、音声認識ライブラリの出力をMAXに取り込む方法が無いために断念したとのこと。テキスト入力以外の用途にも使える柔軟性を持ったライブラリが必要ではないか。
・Golan Levin等, Messa di Voce, 2003.
マイクにむかって息を吹きかけると、その音声を解析し、その結果を音声や映像として表現する。
http://tmema.org/messa/
http://www.flong.com/ Golan Levin
・渋谷慶一郎, transfer key, 代官山SUPERSTARS, 2003.
メディアアートを応用した美容院の環境デザイン。床に落ちた髪を掃除する音を変調しつつそれをトリガーとしても用い、リアリタイムに音響を合成する。またその情報をWebサイト上へリアルタイムにfeedbackさせ、視覚的な表現も行う。
http://www.superstars.jp/
http://www.superstars.jp/transferkey/
・フキダマリ, 2000.
北京にあるソニーエクスプローラサイエンスにて常設展示。
http://www.gk-design.co.jp/tech/jp/science1.htm
>コンピュータを用いて声の成分を分析し、人間が話す声の大小、高低、言葉の抑揚など目に見えない違いを、 ”フキダマリ”という映像でリアルタイムに視覚化。
>Graphic Direction: 小阪淳
http://www.jun.com/
■音声入力から感情表現を認識する
音声入力の音量、タイミング、抑揚などの情報を認識し、感情表現の認識を行う。
採点機能付カラオケにおいても内部的に同様な認識が行われている。
・PS2用「しばいみち」
http://www.playstation.jp/scej/title/shibaimichi/
>画面上のセリフをマイクに向かってしゃべり,その演技力を競う
>演技力は「正確さ」「声量」「感情」の3つの要素で判定
・「アフレコ!」ナムコ
アニメの一場面が上映され、その中の登場人物になりきってその音声を録音する。
その音声の抑揚などを解析し、スコアが与えられる。市場には出ることはなかった。
http://www.watch.impress.co.jp/game/docs/20020712/af.htm
・バウリンガル (ニャウリンガル?)
犬の鳴き声を分析し、感情解析し、どのような感情をもっているかを表示する。
・カラオケのスコア判定。アルゴリズムは不明。
■音声認識によってメニューから選択を行う
・PS2用「オペレーターズ・サイド」
http://www.playstation.jp/scej/title/operatorsside/
音声認識によるコマンド入力を行う。
・PS2用「デカボイス」アクワイア, 2003.
http://www.acquire.co.jp/deka/
>新感覚ハードボイルド・アクション・アドベンチャー
>USBマイクを利用して 音声認識をしながらゲームを進めます。
・PC用「声で ぼくは航空管制官」株式会社テクノブレイン
http://www.technobrain.com/20011101/bk2/bk2top.htm
飛行場の航空管制官になりきって、飛行機への指示を行うというゲーム。実際の航空管制官も飛行機に音声で指示を行うということから、音声認識によって指示を与えることにより、より臨場感が高まると考えられる。IBM ViaVoiceを使用。
http://www.cise.co.jp/~florian/voices/etc.php 感想
>現実の航空管制はいまでも音声経由で行われており、管制官の指示にそれぞれ
>の航空機が従う形になっているのですが、このゲームでは簡略化されたユーザー
>からの音声指示に対し、それぞれの航空機が必ず音声で復唱したあとで実際の
>行動を行うようになっています。
・「電車でGo!」
ボタンからの入力を補佐する形で音声認識をつかっている。
■音声認識によって会話を行う
音声から言語情報を認識し、その結果を元にコンピュータとの間で会話する。
・N64『ピカチュウげんきでちゅう』任天堂, 1998.
http://www.nintendo.co.jp/n01/n64/software/nus_p_npgj/
音声認識技術はアンブレラによる。
・DreamCast用『シーマン』1999.
http://www.seaman.tv/
・XBox ボイスチャット
http://www.xbox.com/ja-jp/live/service/function.htm XBox ボイスチャット
XBoxなどのネットワーク対応ゲーム機において、ネットワーク越しにつながっている相手と同時にゲームをしつつ、音声によって会話を行うという例もある。しかし、この場合の会話の相手は人間であり、コンピュータとの会話ではない。そのため、インタフェースとしての利用という観点からは若干外れる。チャットの代替物としての見方もありうるが、単純なインターネット電話として見たほうがいいかもしれない。
■音声によるタイミング情報の抽出
・任天堂『ドンキーコンガ』, 2003.
タル型の入力装置を叩くことによってタイミングを入力するリズムアクションゲーム。また入力装置だけではなく、手拍子の音も認識する。
http://www.nintendo.co.jp/ngc/gkgj/ タルコンガ
・Boinx Software「iStopMotion」, 2003.
http://www.istopmotion.com/
コマ撮りアニメ作成に特化したヴィデオキャプチャーソフト。撮影を行ってほ
しい時に「キャプチャーワン」などと発話するとキャプチャーされる。この場
合は、発話がキャプチャーボタンを押すことの代りとなっているわけである。
コマ撮りアニメを作っている最中は両手がふさがっていたり、コンピュータの
前から離れていたりする可能性が大きいため、コンピュータのボタンをその度
毎に押すのは非常に面倒な作業であり、それを省力化することによって大幅に
作業を効率化することができる。
■音高抽出
・PS2「ビブリボン」SCEI.
CDから音響情報を読み込み、その音のタイミング情報からアクションゲームの舞台を自動的に生成する。
・MindEYE(旧称Mindlight)
Amiga用1987年の作品。マイクからの音響を元に、視覚的なエフェクトを自動生成する。
音量抽出?
http://www.lyalls.net/devoid/compute.old.html
http://www.lysator.liu.se/amiga/ar/guide/ar501.guide?REVIEW3
■音量抽出を利用
マイクから入力された音声の音量によってヴィジュアルイメージを変化させる作品。非常に単純な技術であるため様々な作品が存在するが、一例をあげる。
・John Maeda, The Reactive Square, 1994.
音の入力によって変化するヴィジュアルな形態が10個おさめられている。
http://www.maedastudio.com/rbooks2k/rsquare.html
http://www.maedastudio.com/rbooks2k/rbookssm.mov
■音声入力をトリガーとして用いる
・ファミコンにおけるマイクの使用
古くはファミコンの時代に音声入力をトリガーとして用いた例がある。音声入力のあるなしを検知できるのみである。
『バンゲリングベイ』『スターラスター』『ボコスカウオーズ/アストロロボササ』『たけしの挑戦状』『ゼルダの伝説』『爆笑!人生劇場』『爆笑!人生劇場2』
■研究分野
非言語情報を活用した音声インタフェースについては、近年大きな成果が挙げられている。
・五十嵐 健夫, John F. Hughes「言語情報を用いない音声による直接操作インタフェース 」 WISS 2001.
http://www-ui.is.s.u-tokyo.ac.jp/~takeo/research/voice/voice-j.htm
地図上の移動など。
・後藤真孝、非言語情報を活用した音声インタフェース
http://staff.aist.go.jp/m.goto/PROJ/speechinterface-j.html
音声補完、音声シフト、音声スタータ、音声スポッタ
■音声合成
現在は音声入力にフォーカスしているため、音声合成についてはいくつかの関連事例をあげておく。
・くまうた, 音声合成を用いて演歌を自動生成する。
http://www.playstation.jp/scej/title/kumauta/
・モジブリボン, 音声合成を用いてラップを自動生成する。
http://www.playstation.jp/scej/title/mojibribon/
■表情認識
・マックス・ディーン+クリスチャン・ホートン《私になる》"BE ME", 2002.
観客がスクリーン上に投影された芸術家マックス・ディーンに乗り移る作品.
http://www.ntticc.or.jp/Archive/2003/Future_Cinema/Works/beme_j.html
観客の表情を認識し、コンピュータ上の俳優が同じような表情をする。