あるエンジニアの呟き: 仲介AI

2025年9月8日

仲介AI

先日視聴したReHacQの「AIで地方創生」のコンテンツの中で、MCの高橋氏がもらした「映像制作大変なので、AIで何とかならないか」という悩み。私は写真加工(Photoshop)はよく弄りますが、映像編集はほとんどやらない。一番の理由は、編集の時間(手間)、システムリソース、技術力等全てが写真加工の何倍何十倍と大変だから。今だと、タブレットやスマホで簡単に映像編集出来るアプリも多いけれど、あれで出来ることは殆ど基本中の基本の範囲で、プロの要求するペレるはもっと高いんですよね。ただ、その基本的な機能だけでもちゃんと実装されている技術力は凄いと思うけれど。

私が欲しいAIというのは、ここでも何度か書いているけれど「バディ型AI」。イメージ的には、ガンダムのハロとか高速エスバーのチコとかナイトライダーのキットとか、対話型I/Fを持っていて、こちらの希望や問いかけに対して、会話形式で対応しつつ背後で必要な処理を進めてくれる「AI」。単に、今のプロンプトが音声入力に変わるのでは無く、対話することで学習をしてこちらの意図を類推するだけで無く、好みや傾向も学習してくれるようなもの。それによって、例えばPhotoshopで画像加工するときに、キーボードやタブレットで手作業で処理するのでは無く、こちらの希望である「人物を切り出して、背景と人物データを別々に加工可能にして、それをこちらの画像に填め込みエフェクトを掛けてみて」みたいな、要望を言うと、バディ型AIがそこから必要なPhotoshopのコマンドなり、キーボードやポインターを自動的に操作して、瞬時に必要な加工作業を進めてくれるようなイメージ。更に、途中のデータを臨時に保存させたり、色々なパターン作成をリクエストしたり会話しながら作業が進められるのが理想。

私はまだ本格的にCopilotを操作したことは無いのですが、これってWindowsとの親和性みたいなものはどうなんだろうか。例えば私は起動時に特定のアプリやエクスプローラーを起動して、いつも使う位置に配置してから作業を開始しますが、「この状態を初期状態として、Windows起動時に自動的にセットしてよ、Copilot!」と言えば、「承知しました」と設定してくれる、そんなイメージ。Copilotの音声認識タスクが常に常駐していて聞き耳を立てていて、直ぐに反応してくれて、かつ背後ではWindowsにメッセージ送信をして操作してくれることくらい、直ぐにできても良いと思うけどなぁ > Microsoft。そっちの方が、検索結果をまとめてくれる仕事よりも、よほどありがたさを感じると思うのだけれど。人間とWindowsは、人間とAIの関係にも似ていて、その境界線がI/Fになるわけですが、その両方の要素を持つAIが仲立ちになってくれるのが、一番自然じゃ無いだろうか。

OSやアプリが音声認識対応しなくても、AIがシェルみたいな形でそれら環境を包含するようになり、必要ならば直接コマンド操作しても良いし、普通は音声コマンドで利用して、AIはどんどん学習して「あ、うん」の呼吸みたいなレベルになれば理想。AIのプラグインみたいな形で、OSやアプリに対応出来れば、別にOSやアプリが特別な処理をする必要も有りませんしね。で、複雑な操作方法等知らなくても、自分のやりたいことやイメージを伝えれば、必要なアウトプットが出てくるのであれば、例えば動画編集みたいな複雑な作業でも経験の少ない人でも対応出来るようになれば、効率化が期待出来るんじゃ無いだろうか。そのうちに、自分のコピーみたいな「アバターAI」がこちら側に生まれて、相手側に居る「作業AI」と直接会話しながら仕事をしてくれるような時代になるかも。そうなると、自分が寝ている間に自分が欲しているような作品が出来てしまっているかもしれません。

あるエンジニアの呟き

ページ

2025年9月8日

仲介AI

0 件のコメント:

コメントを投稿

ブログアーカイブ

ラベル