Google DeepMindの新AI「Genie 3」世界モデルがもたらすリアルタイム3D環境の革新
2025年8月5日、Google DeepMindは最新の世界モデルAI「Genie 3」を発表しました。このモデルは、わずかなテキストプロンプトを入力するだけで、リアルタイムかつインタラクティブに3Dの世界を生成し、複数分にわたってその世界の一貫性を保つことができる点が大きな特徴です。
「Genie 3」とは何か?
「Genie 3」は、従来の限定的な環境に特化したモデルを超えた、汎用的な世界モデルです。これはリアルタイムで写真のようにリアルな自然風景やファンタジーの世界、さらには想像上の環境まで幅広く生成可能で、ユーザーは生成された世界を自由に探索し、変化させることができます。
これまでのモデルは、10〜20秒程度の映像生成が主流でしたが、Genie 3は720pの画質で24フレーム毎秒の滑らかな映像を数分間にわたって生成し続けることが可能です。さらに「プロンプトで世界のイベントを変化させる」能力も備わっており、世界内での出来事を動的に演出できます。
リアルタイムで動的に変化する3D世界
Google DeepMindの研究ディレクターであるシュロミ・フルクター氏は、「Genie 3は初のリアルタイムで動く汎用世界モデルであり、特定の環境に限定されることなく様々な世界を生成できる」と述べています。
実際に「Genie 3」は、入力したテキストに基づいて、古代遺跡の風景、深海の環境、草原の放牧地など、現実的なものから空想的な世界まで多様な3D空間を即座に構築可能です。ユーザーはWASDキーなどを使って、その世界の中を自由に移動して探索できます。
また、さらなるプロンプト入力によって、世界の中にドラゴンや着ぐるみのキャラクターなど、突飛なイベントや登場人物を出現させることもでき、没入感の高いインタラクションが体験できます。
物理的な一貫性と記憶能力の実現
重要な点は、Genie 3が生成した環境の物理的な整合性を長時間にわたって維持できることです。これは、以前のモデルにはなかった「過去に生成した内容を記憶し、それをもとに持続的かつ整合したシミュレーションを行う能力」に起因します。
この記憶メカニズムはDeepMindの研究者が明確にプログラミングしたわけではなく、モデルの構造自体から自然発生したとされています。これにより、ユーザーが何度も同じ場所を訪れた場合でも、一貫した景観や物体の配置が保たれ、より現実に近い体験が可能です。
「人工汎用知能(AGI)」に向けた一歩
DeepMindはGenie 3を「AGI(人工汎用知能)」達成の重要な中間段階と位置付けています。AGIとは、人間と同等あるいはそれ以上の多様な知的作業をこなすAIを指しますが、Genie 3は「環境を理解し、リアルタイムで複雑に動的変化する世界を作り出せる汎用的能力を持つ」点で極めて重要です。
AIが未知の環境で即座に適応し、行動を繰り返しながら学習する「Move 37」のようなブレイクスルー的瞬間はまだ見られていませんが、Genie 3の登場により、その「新たな時代の幕開け」が示唆されています。
今後の応用分野と可能性
- ゲーム開発:手軽なテキスト入力で多様なマップやシナリオを瞬時に作成でき、インタラクティブなゲーム世界構築が加速するでしょう。
- 映画・映像制作:細部まで整合性のある3D環境生成で、撮影前の仮想セット構築や新たな映像演出が可能に。
- 教育・訓練:現実的や想像的な環境での仮想体験を通じて、専門技術や危険な状況の疑似体験が安全に行えます。
- 都市計画・建築設計:完成前の建築物や都市の3Dシミュレーションをリアルタイムで生成、評価することが可能です。
まとめ
Google DeepMindの「Genie 3」は、ただ動画や静止画を生成するAIを超え、リアルタイムで物理的に整合性を保ちながら複雑かつ多様な3D世界を創出できる世界モデルとして、AI技術の最先端に立っています。まだ研究段階ながら、そのポテンシャルは広範で、今後の技術進化や新たな応用シーンへの期待が大いに高まっています。