Was kann HuggingGPT — und was hat es mit Microsoft zu tun?

3 min readApr 16, 2023

Stell Dir vor, Du könntest Deiner KI sagen, es soll etwas umsetzen aber es darf sich selbst überlegen wie und mit welchem Modell es zum Ergebnis kommen will.

HuggingGPT ist so ein innovatives Framework, das grosse Sprachmodelle (LLMs) verwendet, um verschiedene KI-Modelle zu koordinieren und komplexe Aufgaben zu lösen und es nutzt dabei die Hugginface Community.

HuggingGPT verwendet ChatGPT, um Benutzeranfragen zu interpretieren und in diskrete, durchführbare Aufgaben zu zerlegen. Es verbindet dann verschiedene KI-Modelle, die auf der Hugging Face-Plattform gehostet werden, um die geplanten Aufgaben zu lösen. Die Auswahl der Expertenmodelle basiert auf deren Beschreibungen und kann Modelle wie T5, BERT und GPT-2 Large umfassen, je nachdem, welche Modelle am besten für die jeweilige Aufgabe geeignet sind.

Während ChatGPT als Hauptkoordinator fungiert, können die verwendeten Expertenmodelle je nach Anwendung und Anforderungen variieren. Die Hugging Face-Plattform bietet eine große Auswahl an vortrainierten NLP-Modellen, die für verschiedene Aufgaben wie Übersetzung, Klassifikation und Zusammenfassung verwendet werden können

Der Arbeitsprozess von HuggingGPT kann in vier Phasen unterteilt werden:

Aufgabenplanung: ChatGPT analysiert die Benutzeranfragen, um deren Absichten zu verstehen und sie in mögliche lösungsfähige Aufgaben über Aufforderungen zu zerlegen.
Modellauswahl: ChatGPT wählt basierend auf Modellbeschreibungen Expertenmodelle aus, die auf Hugging Face gehostet sind, um die geplanten Aufgaben zu lösen.
Aufgabenausführung: Jedes ausgewählte Modell wird aufgerufen und ausgeführt, und die Ergebnisse werden an ChatGPT zurückgegeben.
Antwortgenerierung: Schliesslich verwendet ChatGPT die Vorhersagen aller Modelle, um Antworten für die Benutzer zu generieren.

Einige Beispiele, wie HuggingGPT funktioniert

Beispiel 1: HuggingGPT zerlegt abstrakte Benutzeranfragen in konkrete Aufgaben wie Pose-Erkennung, Bildbeschriftung und Bildproduktion basierend auf der Pose. Es erkennt auch Abhängigkeiten zwischen den Aufgaben und verwendet die Ergebnisse der abhängigen Aufgaben, um die Eingabeargumente für die nachfolgenden Aufgaben auszufüllen.
Beispiel 2: HuggingGPT kann sowohl in Audio- als auch in Videoformaten Gespräche führen. In beiden Fällen zeigt es, dass HuggingGPT die Expertenmodelle verwendet, um die vom Benutzer angeforderten Text-zu-Audio- und Text-zu-Video-Aufgaben auszuführen. Es organisiert auch, wie Modelle zusammenarbeiten und wie Aufgaben voneinander abhängig sind.
Beispiel 3: HuggingGPT integriert mehrere Benutzereingabe-Ressourcen, um einfache Schlussfolgerungen zu ziehen. Es kann die Hauptarbeit in mehrere grundlegende Aufgaben zerlegen, auch wenn mehrere Ressourcen vorhanden sind, und dann die Ergebnisse verschiedener Inferenzen aus verschiedenen Modellen kombinieren, um die richtige Antwort zu finden.

HuggingGPT bietet eine offene und kontinuierliche Möglichkeit, verschiedene Expertenmodelle zu integrieren, ohne dass schwere Aufforderungs-Engineering erforderlich ist. Es löst die Herausforderung, eine grosse Anzahl von hochwertigen Modellbeschreibungen zu sammeln, die für das Lösen zahlreicher KI-Aufgaben erforderlich sind, die eine koordinierte Zusammenarbeit mehrerer KI-Modelle erfordern

Und jetzt kommt Microsoft mit Jarvis

Ja genau, Jarvis wie bei Iron Man — mal schauen ob es den Namen behalten darf. Jedenfalls basiert Jarvis von Microsoft auf “Hugging GPT”, welches die Verwendung von grossen Sprachmodellen wie GPT-3.5 zur Interaktion mit Hugging Faces Model Hub untersucht.

Dieser neue Ansatz für KI könnte erhebliche Auswirkungen auf die Zukunft der KI-Entwicklung und -Anwendungen haben. Denn Jarvis nutzt die umfangreiche Sammlung von Modellen, um verschiedene Aufgaben in verschiedenen Modalitäten wie Sprache, Vision und Sprache auszuführen.

Denn auch Jarvis arbeitet in einem vierstufigen Prozess:

Aufgabenplanung: Basierend auf der Eingabeaufforderung plant Jarvis die auszuführenden Aufgaben.
Modellauswahl: Jarvis identifiziert die geeigneten Open-Source-Modelle aus Hugging Faces Model Hub für jede Aufgabe.
Aufgabenausführung: Die Aufgaben werden mit den ausgewählten Modellen ausgeführt.
Antwortgenerierung: Jarvis sammelt die Ergebnisse und generiert eine Antwort für den Benutzer.

Das System ermöglicht es Jarvis, komplexe, multimodale Aufgaben zu bewältigen, für die normalerweise umfangreiche benutzerdefinierte Programmierung oder mehrere individuelle KI-Systeme erforderlich wären.

Die Fähigkeit, eine leistungsstarke KI wie GPT-3.5 mit Hugging Faces Model Hub zu verbinden, eröffnet eine Welt voller Möglichkeiten. Jarvis hat das Potenzial, Anwendungen für die natürliche Sprachverarbeitung, die 3D-Bildgenerierung oder den Aktienhandel zu ermöglichen.

Jarvis stellt also damit einen bedeutenden Fortschritt in der KI-Entwicklung dar. Durch die Nutzung von Hugging GPT und Hugging Faces Model Hub kann Jarvis eine Vielzahl von Aufgaben bewältigen und die Art und Weise revolutionieren, wie wir mit KI interagieren und sie nutzen.

Microsoft hat übrigens bereits Systemanforderungen und Anweisungen zur Verfügung gestellt, um Jarvis auszuprobieren. Mal sehen wer was daraus macht.

Was kann HuggingGPT — und was hat es mit Microsoft zu tun?

Der Arbeitsprozess von HuggingGPT kann in vier Phasen unterteilt werden:

Einige Beispiele, wie HuggingGPT funktioniert

Und jetzt kommt Microsoft mit Jarvis

Written by Roger Basler de Roca

Responses (1)