Apple stellt KI zur Bildbearbeitung mit Textbefehlen vor

Apple hat eine Open-Source-KI namens „MGIE“ veröffentlicht, die Bilder mit Befehlen in natürlicher Sprache bearbeiten kann.

Apple hat einen Teil seiner KI-Innovationen der Öffentlichkeit vorgestellt. MGIE ist eine Bildbearbeitung, die es ermöglicht, mit natürlicher Sprache Bildbearbeitungen zu steuern. Es handelt sich nicht um eine generative KI, die praktisch aus dem Nichts Bilder erzeugt – vielmehr können Nutzer ihre Bilder mit der KI bearbeiten.

MGIE steht für „MLLM-Guided Image Editing“ und nutzt multimodale Sprachmodelle (MLLMs), um Benutzerbefehle zu interpretieren und Manipulationen auf Pixelebene durchzuführen. Das Modell kann verschiedene Bearbeitungsaspekte behandeln, zum Beispiel Modifikationen im Stil von Photoshop, globale Fotooptimierung und lokale Bearbeitung. Wie das technisch funktioniert, hat Apple in einem wissenschaftlichen Aufsatz erklärt.

Das neue System, das auf der International Conference on Learning Representations vorgestellt wurde, ist ein großer Schritt in Richtung multimodaler KI-Fähigkeiten.

Laut den Forschern der Universität Santa Barbara, die an MGIE mitgearbeitet haben, funktioniert das System durch die Integration großer, multimodaler Sprachmodelle – Algorithmen, die sowohl Text als auch Bilder verarbeiten können.

Zunächst nutzt MGIE das MLLM, um die Texteingabe des Nutzers zu interpretieren und daraus eine klare Bearbeitungsanweisung abzuleiten. Wenn ein Benutzer beispielsweise eintippt: „Mach den Himmel blauer“, könnte MGIE eine präzise Anweisung wie „Erhöhe die Sättigung der Himmelsregion um 20 %“ geben.

Hier zum ganzen Artikel

Quelle: golem.de/news, Michael Linden 07.02.2024

Veröffentlicht in KI News.