ロボットに埋め込まれたChatGPT、インターネットは文明の終わりを恐れる

ロボットに埋め込まれたChatGPT、インターネットは文明の終わりを恐れる

ソースノード: 2611695

サウジアラビアの博士課程の学生研究者チームが、AI を利用した新しいツール MiniGPT-4 を開発しました。 OpenAI ChatGPT-4。

Since AI言語モデルを活用してコードのデバッグからデータの異常検出まで、 は XNUMX 月にリリースされ、世界的なヒットとなりました。開発者は、人気のチャットボットに匹敵するか、それを補完する新しい AI ツールを思い付くために何もしませんでした。

ChatGPT モデルを使用して開発された MiniGPT-4 は、最新の例にすぎません。

また、お読みください。 ビル・ゲイツ: AI チャットボットは 18 か月で子供たちに読み書きを教えることができる

による 将来のツール、MiniGPT-4 は、画像説明の生成や Web サイトの構築など、多くのタスクを実行できます。

「このツールは、詳細な画像の説明を生成し、手書きの下書きからウェブサイトを作成し、与えられた画像に触発された物語や詩を書き、画像に示されている問題の解決策を提供し、食べ物の写真に基づいて料理する方法をユーザーに教えることができます」と Future は主張しています。ツール。

ChatGPT-4がリリースされたとき、スケッチ画像からウェブサイトを構築するモデルのビデオが表示されました。 さんのツイートによると バーシー、 MiniGPT-4 には、同じ偉業を成し遂げる能力があります。 唯一の違いは、ChatGPT-4 は現時点ですべての人が利用できるわけではなく、MiniGPT-4 はすでに普及していることです。

MiniGPT について

による Ghacks、MiniGPT-4 は Vicuna と呼ばれる高度な LLM を言語デコーダとして使用します。これは LLaMa に基づいて構築されており、GPT-90 によって評価された ChatGPT の品質の 4% を達成すると報告されています。

AI モデルは Bootstrapping Language Image Pre-training (BLIP-2) の事前トレーニング済みコンポーネントを使用し、単一のインジェクション レイヤーを追加して、他のすべての視覚および言語コンポーネントをフリーズすることにより、エンコードされた視覚的特徴を Vicuna 言語モデルに合わせました。

デビッド・ワトソン MiniGPT は軽量で、チャットボット、仮想アシスタント、自動画像キャプション システムなどのリアルタイムの状況で簡単に実装できると述べています。

彼はまた、MiniGPT-4 をうまく利用できるアプリケーションをいくつか挙げています。 音声による説明を使用した視覚障害者向けの画像説明、テキストから音声へのシステムを含める必要がある方法。

一方、 OpenAI GPT-4 のマルチモーダル機能を確認しましたが、まだ画像処理機能をリリースしていません。 MiniGPT-4 は、より洗練された LLM を使用して言語と共に画像を処理することで、このギャップを埋めます。

研究を支援する AI ツール

専門家は、使用されている最先端の基礎言語モデルは、研究者がこの特定の AI セグメントで研究を進めるのを支援するように設計されていると述べています。

OpenAI が GPT-4 のアーキテクチャ、モデル サイズ、ハードウェア、トレーニング コンピューティング、データセットの構築、またはトレーニング方法に関する多くの情報を開示していないことを考えると、MiniGPT-4 のオープンソースの性質は、研究者にとって特に価値があることが証明される可能性があります。

「画像を処理する MiniGPT の能力は、研究者に言語と視覚モデルの関係を調査する新しい機会を提供します」と Yana Khara は次のように書いています。 アナリティクス ヴィダーヤ.

「MiniGPT-4 は、研究者がより小さく、よりアクセスしやすいモデルを提供することで、AI 技術の革新と進歩を推進することができます。

「さらに、モデルのオープンソース基盤により、研究コミュニティが協力し、その発見を共有して、この分野でさらに進歩することができます。」

MiniGPT は、画像キャプションを別のレベルに引き上げます

バーゼー、MiniGPT-4を使用して画像とチャットする方法を説明するスレッドをツイートした人には、次のケースのいくつかが含まれていました。

壊れたアイテムの修正

壊れたアイテムの写真を MiniGPT プラットフォームにアップロードし、画像内の状況を修正する方法を尋ねると、チャットボットが画像内の状況を説明し、特定された問題を修正する方法を提案します。

つぶやく、 MiniGPT は、洗濯機の水漏れの問題を簡単に特定し、水漏れが発生する理由を説明し、ユーザーが試すことができる解決策のリストを提供します。

広告を書く

他に バーシーからのツイート MiniGPT スレッドで、ユーザーが作成して販売しているマグカップの写真が MiniGPT に渡されるというシナリオが含まれていました。 次に、ユーザーはチャットボットに、マグカップを販売するための広告を書くように依頼します。チャットボットはこれを適切に行います。

簡単な紹介

映画の写真をアップロードして、MiniGPT に簡単な紹介を依頼するだけです。 次に、問題の映画の段落紹介を作成します。 に見られるように つぶやく、 MiniGPT チャットボットが「ゴッドファーザー」の画像を認識し、指示に従って映画のイントロを書き込みます。

ChatGPT の開始以来、市場では無数の新しい AI ツールが開発されてきました。 有名なチャットボットに代わるものは他にもあり、他の人がそれを上回っていると報告されています。 自動 GPT、まだ AI コミュニティで波を起こしています。 このままでは、事実上すべての人間のタスクで AI の富に困惑することになるのはほぼ避けられないように思われます。

タイムスタンプ:

より多くの メタニュース