あるエンジニアの呟き: ささやきコマンド

2022年5月27日

ささやきコマンド

音声入力は、もう結構身近なものになりつつあるけれど、文字入力も編集機能も音声で操作するとなると、どれがどちらなのか相手(=パソコン)は判断出来ないから、結構慣れというか習熟が必要。それを、話し言葉とは別に「囁く」事で編集機能操作するという、東京大学の暦本純一矜持の研究。個人的には、どの程度の「ささやき声」なら良いのか一寸実感が湧かないけれど、言ってみれば「入力用の声」と「コマンド用の声」の声色を使い分けるというのは、目から鱗のアイデアかも。

私が以前考えていたのは、音声入力とカメラを組み合わせて、例えば左手を握っていたら、そこからは音声コマンド、パーなら編集モード、チョキならページ操作、みたいな感じで行ってみれば手でモード操作のサインを出しながら音声入力データを分類したらどうだろうかという事。当時は、カメラとマイク二種類の動作同期が必要とか、そのサインをどう覚えるのか標準化が難しいとか、色々課題があって実現はしなかったけれど、あれはあれで良いアイデアだと思うのだけれど(笑)。

記事の後半には、通常音声、ささやき、に加えて「無声発話(口パク)」の導入も考えられていると言うけれど、その使い分けの難易度はどうだろうか。個人的には、ささやきコマンドよりは口パクコマンドの方が使いやすいかなぁという気はするけれど、どうだろうか。只、口パクの場合は口の形状をカメラで認識して、そこで判断するのだろうから、最初のアイデアのようにハンドサインでモード切り返しても良いような気がするなぁ。

iPhoneやAndroidでの音声入力機能は、正直テキスト入力ではもう手放せないくらいに高機能になっています。流石にパソコンの場合は、かな入力でタッチタイプ出来るので、パソコンではキー入力の方がまだ早いれど、スマホのフリック入力には慣れていないので、こちらでは音声入力機能を活用したいところ。こう言う技術がどんどん進んで欲しいけれど、音声入力の最大の欠点は、入力している情報(=文章)が回りに聞こえてしまうことだろうなぁ。となると、文章入力にはささやきで、編集モードは口パクで、というのが一番実用性が高い組合せになるかも。電車の中が「ひそひそ声」で埋まるのかなぁ、将来には。それはそれでうざったいなぁ(笑)。

あるエンジニアの呟き

ページ

2022年5月27日

ささやきコマンド

0 件のコメント:

コメントを投稿

ブログアーカイブ

ラベル