
ギャビン・マクナマラさんはキーボードを手放し、タイプする代わりに一日中話し続けています。
彼はコンピューターや電話で何時間も話したり、電子メールを送信したり、プレゼンテーションを作成したり、LinkedIn に投稿したり、サンフランシスコのスタートアップ企業である Wisp Flow の AI ディクテーション アプリを使用して会話を通じてコーディングしたりしています。
AI は彼の雑談に句読点を付け、フォーマットし、一貫したコピーに変換します。マクナマラさんの平均タイピング速度は 1 分あたり 125 ワードで、これは平均タイピング速度の 2 倍です。
「現時点では、タイピングでできることは何でも、私は話すことでやっています」と、ソフトウェア代理店ホワイ・ノット・アスの32歳の創設者は語った。 「私はただ話すだけです。」
過去 5 か月間、彼は 77 のアプリで約 300,000 語を口述筆記しました。これは小説 3 冊を書くのに相当します。
カリフォルニアの大手テクノロジー企業や新興企業は、AI やより大きな言語モデルを使用して、人々が指の代わりに声を使ってテクノロジーと対話できるようにする運動の最前線に立っています。
「AI と LLM はダイナミクスを変えました」と、サンディエゴを拠点とする無料の音声からテキストへのディクテーション アプリ、Handy の作成者である CJ ペイス氏は述べています。 「音声を使用する方が、入力するよりもはるかに高速です。」
Handy、サンフランシスコの Wisp Flow、Willow など、独立した開発者と新興企業が混在し、人工知能との正確な音声対話を提供する企業が現れています。
テクノロジー業界の大手企業も、人々が AI と提携するための新しい方法を生み出しています。 Meta の最新のスマート グラスは音声に依存しています。 OpenAI と Meta は、ボットの音声チャット用に異なるパーソナリティを設計しました。 Amazon の Alexa や Apple の Siri でさえも AI のアップグレードが行われており、両社はこれによって自社のテクノロジーについて誰もがもっと話題になることを期待している。
コンピューターで話し言葉を使用するこれらの無料および有料の方法は、プログラマー、エグゼクティブアシスタント、弁護士、コンテンツクリエーター、医療関係者など、何百万ものユーザーを魅了してきました。一部の楽観主義者は、キーボードは時代遅れになるかもしれないと考えています。
Willow創設者のアラン・グオ氏はLinkedInへの投稿で「世界で最も権威あるテレビ賞からキーボードを削除したことを発表できることをうれしく思う」と述べ、エミー賞チームが2026年の賞に向けてウィローの音声ディクテーションを利用してSlackメッセージを送信し、受信箱をより速くクリアしたと指摘した。
ここ数年、大手テクノロジー企業は、利便性を高めるために音声ファースト機能を備えた多くの製品をカスタマイズしてきました。最近では、利用しやすい生産性ツールとしての音声から離れていく傾向にあります。
2022 年後半、ChatGPT の作成者は、68 万時間の多言語データに基づいてトレーニングされた Whisper と呼ばれる自動音声認識モデルへの無制限のアクセスの提供を開始しました。 OpenAI は、かつては厳重に守られていた大きな技術秘密であった、正確な音声転写のためのテクノロジーを共有します。誰でも無料で高品質の AI 文字起こしをラップトップにダウンロードして実行できるようになりました。
AI ディクテーション アプリの新しい波は、Whisper を基盤として使用し、その上にライブ ディクテーションを提供するために構築されています。無料のオプションもありますが、有料サブスクリプションの料金は月額 8 ~ 12 ドルです。
AI を活用したディクテーションは現在、プログラマーと一般ユーザーの間で同様に人気が高まっており、人々はラップトップに向かって話すようになりました。電子メールの作成、SMS の送信、Web サイトのデザイン、AI タスクの提供など、初期導入者は、ディクテーションによって作業が速くなり、より明確に考えられ、生産性が向上すると述べています。
ニューヨークを拠点とする音声ディクテーションアプリ「モノローグ」のゼネラルマネージャー、ナヴィーン・ナイドゥ氏は、「音声を多用した人はもう戻れない。週に20時間ラップトップに向かって話し続けると、タイピングに摩擦を感じるようになる」と語る。 「これがこの方向性だと思います。音声が委任層になります。自分の意図を表明すると、物事が起こります。」
これらの新しい AI ディクテーション アプリは、Apple の 先進的なチップ iPhone および Mac でプライベートなオンデバイスディクテーションを再生するには。
フリーランスのソフトウェア開発者であるジェフリー・ハントリー氏は、6 月にほぼ完全に Voice for Work に切り替えました。
彼は多くの場合、音声プロンプトを開いて、コードが生成される前に AI に懸念事項やプロジェクトの要件についてインタビューするよう依頼してプロジェクトを開始します。
「ジャズバンドでリフをするように、後ろ向き、前向き、後ろ向き、前向きに話しかけています」とハントリーは語った。このボーカル ダンスによって仕様が改良され、AI が主導権を握ってソフトウェアを構築します。
Huntley 氏はコーディング以外にも、ブログ投稿のアイデアやメッセージをキャプチャするときに音声を「リッピング」し、SuperWhisper や Whisper Flow などのアプリを使用して、最終編集のためにキーボードに向かう前にアイデアの「最初のダンプ」を取得します。
シリコンバレーでは、入力する代わりにコーディング指示を口述することに何時間も費やすソフトウェア開発者が増えています。何時間もコードを書くことができる高速で動き回る AI エージェントと、タイピングよりも速くアイデアを捉える音声入力の組み合わせにより、生産性が向上しました。
自称「バイブコーダー」の McNamara は、わずか数か月で 25 を超える Web アプリを作成しました。これは音声指示なしでは不可能な開発速度です。
“私はそうは思わない [typing]マクナマラ氏は、「いずれにせよ、そこに到達することは、私が交渉で行ったことと同じくらい効率的または効果的だろう」と述べた。
彼らは曲がりくねった会話と数時間を費やして、AI に Sprout Gifts、子供向けのギフト登録、写真を通してあらゆるアイテムを評価するアプリを作成させました。
確かに、AI は間違いを犯す可能性があり、その動作をチェックする必要があります。
その一方で、普及が進むにつれて新たな不便が生じ、パワーユーザーでさえラップトップに向かって話すことにぎこちなさを感じています。混雑したオープン オフィスは、複数の人が同時にコンピュータを操作できるように設計されていません。
「サウンドは気に入っていますが、オフィス環境ではだめです」と X のユーザーの 1 人は言いました。
マクナマラはヘッドフォンを使用しているため、人々は彼が電話中だと思っています。
「これは私にとってソーシャルハッキングのようなものです」と彼は言いました。
QWERTYキーボードがティッカーテープやFAXの後にいつ廃れるかを言うのは時期尚早だが、音声のペースは加速していると、企業にオーディオモデルを提供するサンフランシスコを拠点とするAssembly AIの創設者ディラン・フォックス氏は語る。
「音声、AI アプリケーション、インターフェイスに対する需要は、間違いなく 10 倍から 100 倍に増加し始めています。」と彼は言いました。
プログラマーのマクナマラさんにとって、チャットボットと話す機会が増えたことで、より良い友達になりました。
彼はメッセージに返信するのが苦手でした。今では彼はすぐに友達のところに戻ってきます。
彼は、「私はすぐに反応するが、彼らは『この男は誰だ?』と言います」と語った。