Kann generative KI den Telefonmärkten neue Impulse verleihen? - Semiwiki

Kann generative KI den Telefonmärkten neue Impulse verleihen? – Semiwiki

Quellknoten: 2926005

Der Konsens über die Smartphone-Märkte schwankt irgendwo zwischen leichtem Rückgang und leichtem Wachstum, was darauf hindeutet, dass es an offensichtlichen Treibern für ein robusteres Wachstum mangelt. Als Geschäftsmöglichkeit wird dieser unattraktive Zustand durch das schiere Volumen (laut einer Quelle 500 Milliarden US-Dollar im Jahr 2023) etwas ausgeglichen, aber außerhalb Chinas stehen wir bereits kurz vor dem Höhepunkt der Akzeptanz, sodass die eigentliche Frage für Telefonhersteller lauten muss: „Was ist der nächste Killer?“ App, die die Nadel bewegen könnte?“

Kann generative KI Telefonmärkte aufladen?

Wir Verbraucher sind wankelmütige Menschen und Unterhaltung scheint auf unserer Liste der Must-Haves ganz oben zu stehen. Arm ist Wetten auf mobiles Gaming. Eine weitere Möglichkeit könnte generative KI zur Bilderstellung/-manipulation sein. Qualcomm hat bereits eine telefonbasierte Fähigkeit demonstriert während andere, darunter Apple, sich immer noch auf große Sprachmodell-Apps konzentrieren. Für mich lohnt es sich, den Bildaspekt der generativen KI genauer unter die Lupe zu nehmen, einfach um etwas besser zu wissen, ob und wann sich dies durchsetzt. Zum Spaß habe ich das Bild hier mit Image Creator von Microsoft Bing erstellt.

Diffusionsbasierte Erzeugung

Ich werde versuchen, das Konzept durch einen Vergleich mit einem LLM zu erklären. LLMs trainieren auf Textsequenzen, die notwendigerweise linear sind. Viel davon. Und sie arbeiten an tokenisiertem Text und lernen, wenn sie eine bestimmte Sequenz von Token sehen, was üblicherweise auf diese Sequenz folgt. Ideal für Text, aber nicht für Bilder, die 2D sind und im Allgemeinen nicht tokenisierbar sind, daher muss der Trainingsansatz anders sein. Beim diffusionsbasierten Training wird den Trainingsbildern nach und nach erstes Rauschen hinzugefügt (Vorwärtsdiffusion), während das Netzwerk durch Entrauschen modifizierter Bilder trainiert wird, um jedes Originalbild wiederherzustellen (Rückwärtsdiffusion). Klingt chaotisch, aber offenbar ist die Entrauschungsmethode (Lösung stochastischer Differentialgleichungen) wohldefiniert und robust. Das Stable Diffusion-Modell ist beispielsweise öffentlich verfügbar.

Aus diesem trainierten Netzwerk ist es dann möglich, ausgehend von einem zufälligen Rauschbild neue Bilder zu generieren. Jetzt benötigen Sie eine Methode, die Sie anleitet, welches Bild Sie erstellen möchten. Dall.E-2, Midjourney und Stable Diffusion können alle Textaufforderungen annehmen. Diese hängen vom Training ab, das den Textetiketten entnommen wird, die zusammen mit den Trainingsbildern bereitgestellt werden. Die Inferenz bezieht dann prompte Informationen in den Aufmerksamkeitsprozess ein, um auf ein endgültiges Bild zu schließen. Wie LLMs verwenden auch diese Systeme Transformatoren, was bedeutet, dass die Unterstützung dieser Fähigkeit neue Hardware erfordert.

Die Generierung beschränkt sich nicht auf die Erstellung von Bildern von Grund auf. Eine Technik namens einmalen kann verwendet werden, um Teile eines Bildes zu verbessern oder zu ersetzen. Stellen Sie sich das als eine KI-basierte Version der Bildbearbeitung vor, die auf Smartphones bereits beliebt ist. Nicht nur grundlegende Farben, Lichtbalance, das Ausschneiden von Fotobomben usw., sondern auch die Behebung viel anspruchsvollerer Probleme oder die Neugestaltung von Cosplay-Outfits – alles. Jetzt, wo ich sehe, dass es sehr beliebt ist.

Wird die generative KI den Ausschlag geben?

Ich habe keine Ahnung – siehe obigen Kommentar zu wankelmütigen Verbrauchern. Andererseits sprechen visuelle Reize, insbesondere um uns herum, und das Spielen fast jeden an. Wenn Sie dies auf Ihrem Telefon tun können, warum nicht? KI ist ein sich schnell entwickelnder Bereich, der zu großen Einsätzen zu ermutigen scheint. Gegen diese Möglichkeit würde ich auf keinen Fall wetten wollen.

Ich sollte auch erwähnen, dass die generative Bildgebung bereits ernsthaftere Anwendungen hat, insbesondere im medizinischen Bereich, wo sie zur Reparatur eines verrauschten CAT-Scans oder zur Wiederherstellung von Details verwendet werden kann, die möglicherweise durch die Knochenstruktur blockiert sind. Ich kann mir sogar vorstellen, dass diese Technologie in den forensischen Werkzeugkasten Einzug hält. Wir haben alle die Fernsehsendungen gesehen – Abby oder Angela ergänzen fehlende Details in einem Foto, indem sie mit trainierten Daten aus dem Sichtbaren extrapolieren. Generative Bildgebung könnte das möglich machen!

Teile diesen Beitrag über:

Zeitstempel:

Mehr von Semiwiki