ChatGPT eingebettet in Roboter, Internet befürchtet das Ende der Zivilisation

ChatGPT eingebettet in Roboter, Internet befürchtet das Ende der Zivilisation

Quellknoten: 2611695

Ein Team von Doktoranden aus Saudi-Arabien hat ein neues KI-gestütztes Tool, MiniGPT-4, entwickelt, das ähnliche Eigenschaften wie OpenAIs ChatGPT-4.

Da ChatGPT im November veröffentlicht wurde und ein weltweiter Hit wurde, haben die Entwickler vor nichts zurückgeschreckt, um neue KI-Tools zu entwickeln, die entweder mit dem beliebten Chatbot konkurrieren oder ihn ergänzen.

MiniGPT-4, das nach dem ChatGPT-Modell entwickelt wurde, ist nur das neueste Beispiel.

Lies auch: Bill Gates: KI-Chatbots könnten Kindern in 18 Monaten das Lesen beibringen

Laut Zukünftige Werkzeuge, MiniGPT-4 ist für viele Aufgaben geeignet, einschließlich der Generierung von Bildbeschreibungen und dem Erstellen von Websites.

„Dieses Tool ist in der Lage, detaillierte Bildbeschreibungen zu generieren, Websites aus handgeschriebenen Entwürfen zu erstellen, Geschichten und Gedichte zu schreiben, die von gegebenen Bildern inspiriert sind, Lösungen für Probleme bereitzustellen, die in Bildern gezeigt werden, und Benutzern beizubringen, wie man auf der Grundlage von Lebensmittelfotos kocht“, behauptet Future Werkzeug.

Als ChatGPT-4 veröffentlicht wurde, wurde ein Video des Modellaufbaus einer Website aus einem Skizzenbild gezeigt. Laut einem Tweet von Barsee, MiniGPT-4 hat die Fähigkeit, das gleiche Kunststück zu vollbringen. Der einzige Unterschied besteht darin, dass ChatGPT-4 derzeit nicht für alle verfügbar ist, während MiniGPT-4 bereits in freier Wildbahn ist.

MiniGPT verstehen

Laut Ghacksverwendet MiniGPT-4 einen fortschrittlichen LLM namens Vicuna als Sprachdecoder, der auf LLaMa aufbaut und Berichten zufolge 90 % der von GPT-4 bewerteten Qualität von ChatGPT erreicht.

Das KI-Modell hat die vortrainierte Komponente des Bootstrapping Language Image Pre-training (BLIP-2) verwendet und eine einzelne Injektionsschicht hinzugefügt, um die codierten visuellen Merkmale mit dem Vicuna-Sprachmodell auszurichten, indem alle anderen Seh- und Sprachkomponenten eingefroren werden.

David Watson sagt, dass MiniGPT leichtgewichtig ist und problemlos in Echtzeitsituationen wie Chatbots, virtuellen Assistenten und automatisierten Bildunterschriftssystemen implementiert werden kann.

Er listet auch einige mögliche Anwendungen auf, die eine gute Verwendung für MiniGPT-4 sein können: Erstellung von Bildunterschriftssystemen, die nur geringe Ressourcen benötigen; und Bildbeschreibung für Sehbehinderte unter Verwendung von Audiobeschreibung, ein Verfahren, das die Einbeziehung eines Text-zu-Audio-Systems erfordern würde.

Während OpenAI die multimodalen Fähigkeiten von GPT-4 bestätigt haben, müssen ihre Bildverarbeitungsfähigkeiten noch freigeben. MiniGPT-4 füllt diese Lücke, indem es Bilder neben der Sprache mit einem ausgeklügelteren LLM verarbeitet.

Ein KI-Tool zur Unterstützung der Forschung

Experten sagen, dass das verwendete hochmoderne grundlegende Sprachmodell Forschern dabei helfen soll, ihre Arbeit in diesem speziellen KI-Segment voranzutreiben.

Da OpenAI nicht viele Informationen über die Architektur, die Modellgröße, die Hardware, die Trainingsberechnung, den Datensatzaufbau oder die Trainingsmethode von GPT-4 offengelegt hat, könnte sich die Open-Source-Natur von MiniGPT-4 für Forscher als besonders wertvoll erweisen.

„Die Fähigkeit von MiniGPT, Bilder zu verarbeiten, bietet Forschern neue Möglichkeiten, die Beziehung zwischen Sprache und Sehmodellen zu untersuchen“, sagte Yana Khara, die für schreibt Analytik Vidhaya.

„Indem MiniGPT-4 Forschern ein kleineres, zugänglicheres Modell bietet, mit dem sie arbeiten können, kann MiniGPT-XNUMX Innovationen und Fortschritte in der KI-Technologie vorantreiben.

„Darüber hinaus stellt die Open-Source-Basis des Modells sicher, dass die Forschungsgemeinschaft zusammenarbeiten und ihre Erkenntnisse teilen kann, um weitere Fortschritte auf diesem Gebiet zu erzielen.“

MiniGPT bringt die Bildunterschrift auf eine andere Ebene

Barsee, der einen Thread getwittert hat, in dem beschrieben wird, wie MiniGPT-4 zum Chatten mit Bildern verwendet werden kann, enthielt einige der folgenden Fälle:

Defekte Gegenstände reparieren

Indem Sie ein Bild eines defekten Gegenstands auf die MiniGPT-Plattform hochladen und fragen, wie Sie die Situation auf dem Bild beheben könnten, erklärt der Chatbot die Situation auf dem Bild und schlägt Wege zur Behebung der identifizierten Probleme vor.

Im tweeten, MiniGPT kann das Problem, eine undichte Waschmaschine, leicht identifizieren, die Gründe erklären, warum das Leck auftreten könnte, und auch eine Liste von Lösungen bereitstellen, die der Benutzer ausprobieren könnte.

Anzeigen schreiben

In einem anderen Tweet von Barsee Im MiniGPT-Thread fügte er ein Szenario hinzu, in dem MiniGPT ein Bild einer Tasse erhielt, die der Benutzer herstellt und verkauft. Der Benutzer bittet den Chatbot dann, eine Anzeige zu schreiben, um die Tassen zu vermarkten, was der Chatbot ordnungsgemäß tut.

Kurze Einführungen

Laden Sie einfach ein Bild eines Films hoch und bitten Sie MiniGPT, Ihnen eine kurze Einführung zu geben; Es wird dann eine Absatzeinführung des betreffenden Films erstellt. Wie in der gesehen tweeten, der MiniGPT-Chatbot erkennt das Bild aus „Der Pate“ und schreibt wie angewiesen ein Intro des Films.

Seit der Einführung von ChatGPT wurden auf dem Markt unzählige neue KI-Tools entwickelt. Es gibt mehr Alternativen zum berühmten Chatbot, wobei andere ihn angeblich überflügeln, nicht zuletzt Auto-GPT, das in der KI-Community immer noch Wellen schlägt. Bei diesem Tempo scheint es fast unvermeidlich, dass wir für praktisch jede menschliche Aufgabe mit einer Verlegenheit von KI-Reichtümern enden werden.

Zeitstempel:

Mehr von MetaNews