Google DeepMind は、テキスト プロンプトや画像からインタラクティブなゲーム世界を作成するための AI ツール Project Genie へのアクセスを開放しています。
木曜日から、米国の Google AI Ultra の顧客は、Google の最新世界モデル Genie 3、画像生成モデル Nano Banana Pro、および Gemini を組み合わせた実験研究プロトタイプで遊ぶことができます。
Genie 3 の研究プレビューから 5 か月後に発表されるこの動きは、DeepMind がより有能な世界モデルの開発を競う中、ユーザーのフィードバックとトレーニング データを収集する広範な取り組みの一環です。
ワールド モデルは、環境の内部表現を生成する AI システムであり、将来の結果を予測し、行動を計画するために使用できます。 DeepMind を含む多くの AI リーダーは、ワールド モデルが汎用人工知能 (AGI) の実現に向けた重要なステップであると信じています。しかし、短期的には、DeepMindのような研究所は、ビデオゲームやその他のエンターテイメント形式から始まり、シミュレーションで身体化されたエージェント(別名ロボット)を訓練することを含む市場投入計画を構想している。
DeepMind の Project Genie のリリースは、世界のモデル競争が熱くなり始めている中で行われました。 Fei-Fei Li’s World Labs は、昨年末に Marble と呼ばれる最初の商用製品をリリースしました。 AIビデオ生成スタートアップのRunwayも最近ワールドモデルを立ち上げた。また、元 META のチーフサイエンティストである Yann LeCun 氏のスタートアップ AMI Labs も、世界モデルの開発に注力する予定です。
「より多くの人々にリーチし、フィードバックを提供できる場所にいるのはエキサイティングなことだと思います」と、DeepMind のリサーチディレクターである Shlomi Fruchter 氏はビデオインタビューで TechCrunch に語り、Project Genie のリリースに明らかに興奮した様子で微笑みました。
TechCrunchが話を聞いたDeepMindの研究者らは、このツールの実験的な性質についてオープンに答えた。これは一貫性がなく、印象的にプレイ可能な世界を生み出すこともあれば、的を外した衝撃的な結果を生み出すこともあります。これが仕組みです。
テッククランチイベント
マサチューセッツ州ボストン
|
2026 年 6 月 23 日

まず、環境と主人公の両方にテキストの手がかりを提供する「ワールド スケッチ」を作成し、その後、一人称視点または三人称視点で世界を移動できるようになります。 Nano Banana Pro は、Genie が画像をインタラクティブな世界の開始点として使用する前に、理論的に変更できる信号に基づいて画像を作成します。修正はほとんど機能しましたが、モデルが時々つまずいて、緑を要求すると紫の髪を与えることがありました。
現実の写真を世界を構築するモデルのベースラインとして使用することもできますが、これも当たり外れがあります。 (それについては後で詳しく説明します)
画像に満足したら、Project Genie はわずか数秒で探索可能な世界を作成します。既存の世界をその手がかりに基づいて新しい解釈にリミックスしたり、ギャラリーまたはランダマイザー ツールを通じて厳選された世界を探索してインスピレーションを得ることができます。その後、見つけたばかりの世界からビデオをダウンロードできます。
予算と計算の制約により、DeepMind は現在、ワールドの生成とナビゲーションに 60 秒のみを割り当てています。 Genie 3 は自動回帰モデルであるため、大量の専用計算が必要となり、DeepMind がユーザーに提供できる量に厳しい制限が課されます。
「より多くのユーザーがアクセスできるようにしたかったため、60秒に制限しました」とFruchter氏は語った。 「基本的に、それを使用しているときは、どこかにあなただけのものであり、あなたのセッション専用のチップがあります。」
同氏は、60 秒を超えて増加させると、テストの増分値が減少すると述べました。
「環境は興味深いものですが、相互作用のレベルによって、ある時点で環境のダイナミクスがある程度制限されてしまいます。それでも、私たちはこれを限界とみなしており、改善したいと考えています。」
現実主義ではなく冷笑主義が機能します。

私がモデルを使用したとき、すでに安全手すりが取り付けられていました。ヌードに似たものを制作することはできませんでした。また、ディズニーやその他の著作権で保護された素材の匂いがする世界を制作することもできませんでした。 (12月、ディズニーはグーグルが同社のAIモデルをディズニーのキャラクターやIPでトレーニングし、特に不正なコンテンツを生成するなどの著作権侵害でグーグルを告発することで同社のAIモデルの使用を禁止した。)また、ジーニーに水中のファンタジーランドの世界や、冬の宮殿で氷の女王を探す人魚の世界を作らせることもできなかった。
それでも、デモは非常に印象的でした。私が最初に作成した世界は、チョコレート ソースの川とキャンディーで作られた木々があるマシュマロで作られた雲の上の城を探検できるという、子供の頃の小さな空想を実現する試みでした。 (はい、私は太った子供でした。)私はモデルに粘土細工のスタイルでそれを行うように頼みました、そしてそれは私が子供の頃に食べていたであろう風変わりな世界を提示しました。城のパステルカラーと白の尖塔や小塔はとてもふわふわしていて美味しそうなので、一部をちぎってチョコレートに浸してもおかしくありません。 (上のビデオ)

とはいえ、Project Genie にはまだ解決すべき問題がいくつかあります。
モデルは、水彩画、アニメ スタイル、古典的な漫画の美学などの芸術的な手がかりに基づいて世界を作成することに優れていました。しかし、フォトリアリスティックな世界や映画のような世界となると失敗し、現実の環境にいる現実の人々というよりは、ビデオゲームのように見えてしまうことがよくあります。
実際の写真を与えられても、必ずしもうまく反応するとは限りませんでした。私のオフィスの写真を渡し、その写真に基づいてまったく同じ世界を作成するように依頼したところ、木製のテーブル、植物、グレーのソファなど、私のオフィスと同じ家具が異なる配置で配置された世界が作成されました。そしてそれは無菌的でデジタル的で、生きていないようでした。
ぬいぐるみが置かれた机の写真を与えると、Project Genie はそのおもちゃが空間を移動するアニメーションを表示し、他の物体がその横を通過すると反応することもありました。
この対話性は、DeepMind が改善に取り組んでいることです。私のキャラクターが壁やその他の固体物体をまっすぐに歩くことが何度かありました。

DeepMind が最初に Genie 3 をリリースしたとき、研究者らは、モデルの自動回帰アーキテクチャが何を生成したかを記憶できることを意味していることを強調しました。そのため、私はすでに生成された環境の一部に戻って同じ動作をするかどうかをテストしたいと考えました。ほとんどの場合、このモデルは成功しました。あるケースでは、別の机を探索しているときに猫を生成しましたが、机の右側に戻って初めてモデルが別のマグカップを生成しました。
私が最もイライラしたのは、矢印を使用して周囲を見回し、スペースバーを使用してジャンプまたは登る、そして WASD キーを使用して移動する方法でした。私はゲーマーではないので、自然には思いつきませんでしたが、キーが反応しなかったり、間違った方向に飛ばされたりすることがよくありました。部屋の一方の側からもう一方のドアまで歩こうとすると、車輪が壊れたショッピングカートを操縦しようとするような、混乱したジグザグ運動になることがよくあります。
フルヒター氏は、彼のチームはこれらの欠点を認識していると私に保証し、Project Genie が実験的なプロトタイプであることを再度思い出させました。将来的には、ユーザーがアクションや環境をさらに制御できるようにするなど、チームはリアリズムを高め、インタラクション機能を向上させたいと考えていると同氏は述べた。
「私たちはそれについて考えていません [Project Genie] 人々が日常的に利用できるエンドツーエンドの製品ですが、面白くてユニークで他の方法では実現できないものがすでに垣間見えていると思います」と彼は言いました。