これまでで最も有能なオープンソース AI モデルが AI エージェントを強化できる

これまでで最も有能なオープンソース AI モデルが AI エージェントを強化できる


視覚機能を備えたこれまでで最も有能なオープンソース AI モデルにより、より多くの開発者、研究者、スタートアップ企業が、ユーザーに代わってコンピューター上で便利な作業を実行できる AI エージェントを開発する可能性があります。

アレン AI 研究所 (Ai2) が本日発表したマルチモーダル オープン言語モデル (Molmo) は、画像を解釈できるだけでなく、チャット インターフェイスを通じて会話することもできます。つまり、コンピューターの画面を理解でき、AI エージェントが Web の閲覧、ファイル ディレクトリのナビゲート、文書の作成などのタスクを実行するのに役立つ可能性があります。

「今回のリリースにより、より多くの人がマルチモーダル モデルを導入できるようになります」と、ワシントン州シアトルに拠点を置く研究機関 Ai2 の CEO であり、ワシントン大学のコンピューター サイエンティストでもある Ali Farhadi 氏は語ります。「これは次世代のアプリを実現するものとなるはずです。」

いわゆる AI エージェントは、AI の次の大物として広く宣伝されており、OpenAI、Google などが開発を競っています。エージェントは最近流行語になっていますが、AI の壮大なビジョンは、チャットをはるかに超えて、コマンドを与えられたときにコンピューター上で複雑で洗練されたアクションを確実に実行することです。この機能は、まだどのような規模でも実現されていません。

OpenAI の GPT-4、Anthropic の Claude、Google DeepMind の Gemini など、すでに視覚機能を備えた強力な AI モデルがいくつかあります。これらのモデルは、一部の実験的な AI エージェントを強化するために使用できますが、非表示になっており、有料のアプリケーション プログラミング インターフェイス (API) 経由でのみアクセスできます。

Meta は、商用利用を制限するライセンスの下で Llama と呼ばれる AI モデル ファミリをリリースしましたが、開発者にマルチモーダル バージョンをまだ提供していません。Meta は、本日の Connect イベントで、おそらく新しい Llama AI モデルを含むいくつかの新製品を発表する予定です。

「オープンソースのマルチモーダルモデルがあれば、アイデアのあるスタートアップ企業や研究者は誰でもそれを実現できる」と、プリンストン大学でAIエージェントを研究する博士研究員のオフィール・プレス氏は言う。

プレス氏は、Molmo がオープンソースであるということは、開発者が追加のトレーニング データを提供することで、スプレッドシートの操作など特定のタスクに合わせてエージェントを微調整しやすくなることを意味します。GPT-4 などのモデルは API を通じて限られた範囲でしか微調整できませんが、完全にオープンなモデルは大幅に変更できます。「このようなオープンソース モデルを使用すると、選択肢がはるかに増えます」とプレス氏は言います。

Ai2 は本日、700 億パラメータのモデルや、モバイル デバイスで実行できるほど小さい 10 億パラメータのモデルなど、いくつかのサイズの Molmo をリリースします。モデルのパラメータ数は、データを保存および操作するためのユニットの数を指し、おおよそその機能に対応します。

Ai2 によると、Molmo は比較的小型であるにもかかわらず、高品質のデータで慎重にトレーニングされているため、かなり大規模な商用モデルと同等の能力を備えているという。また、この新しいモデルは完全にオープンソースであり、Meta の Llama とは異なり、使用に制限はない。Ai2 はモデルの作成に使用されたトレーニング データも公開しており、研究者にその動作の詳細を提供している。

強力なモデルを公開することにはリスクがないわけではありません。そのようなモデルは悪意ある目的に簡単に適応される可能性があります。たとえば、コンピューター システムのハッキングを自動化するように設計された悪意のある AI エージェントがいつの日か出現するかもしれません。

Ai2 の Farhadi 氏は、Molmo の効率性と移植性により、開発者はスマートフォンやその他のポータブル デバイスでネイティブに実行されるより強力なソフトウェア エージェントを構築できるようになると主張しています。「10 億のパラメータを持つモデルは、現在、少なくとも 10 倍の規模のモデルと同等か同等のパフォーマンスを発揮しています」と同氏は言います。

しかし、有用な AI エージェントの構築には、より効率的なマルチモーダル モデル以上のものが求められる可能性があります。重要な課題は、モデルをより確実に動作させることです。これには、AI の推論能力のさらなる進歩が必要になる可能性があります。OpenAI は、段階的な推論スキルを示す最新のモデル o1 でこれに取り組もうとしています。次のステップは、マルチモーダル モデルにそのような推論能力を与えることかもしれません。

今のところ、Molmo のリリースは、AI エージェントがこれまで以上に身近になったことを意味し、近い将来、AI の世界を支配する巨大企業以外でも役立つようになるかもしれません。



Source link

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *