Meta, das Unternehmen hinter Facebook, WhatsApp und Instagram, hat kürzlich die neueste Version seines Segmentierungmodells vorgestellt: das Segment Anything Model 2 (SAM 2). Dieses Modell ermöglicht eine schnelle und präzise Auswahl von Objekten in jedem Video oder Bild. SAM 2 stellt einen bedeutenden Fortschritt in der Bild- und Videosegmentierung dar und bringt eine Reihe von neuen Funktionen und Verbesserungen mit sich.
Überblick über SAM 2
SAM 2 ist das erste einheitliche Modell zur Segmentierung von Objekten in Bildern und Videos. Mit SAM 2 können Benutzer ein Objekt mit einem Klick, einem Rechteck oder einer Maske als Eingabe auf einem beliebigen Bild oder Video auswählen. Die Fähigkeit, Objekte und Anpassungen über Videoframes hinweg auszuwählen, macht es zu einem leistungsstarken Werkzeug für die Bearbeitung und Analyse visueller Medien.
Die wichtigsten Funktionen von SAM 2
Segmentierung von beliebigen Objekten in Videos und Bildern
SAM 2 ist in der Lage, Objekte in sowohl Bildern als auch Videos zu segmentieren. Dies ist ein bedeutender Fortschritt gegenüber dem ursprünglichen SAM, das sich auf statische Bilder beschränkte. Benutzer können jetzt Objekte in einem Video mit minimaler Interaktion auswählen und verfolgen.
Auswahl und Anpassung von Objekten über Videoframes hinweg
Mit SAM 2 können Benutzer ein oder mehrere Objekte in einem Videoframe auswählen und mithilfe zusätzlicher Eingaben die Modellvorhersagen verfeinern. Dies ermöglicht eine präzise und detaillierte Bearbeitung von Videos.
Robuste Segmentierung auch in unbekannten Videos
SAM 2 zeigt eine starke Zero-Shot-Performance für Objekte, Bilder und Videos, die während des Modelltrainings nicht gesehen wurden. Dies ermöglicht den Einsatz in einer Vielzahl von realen Anwendungen, von der Überwachung bis hin zur Videobearbeitung.
Echtzeit-Interaktivität und -Ergebnisse
SAM 2 ist für eine effiziente Videobearbeitung mit Streaming-Inferenz konzipiert, um Echtzeit-Anwendungen zu ermöglichen. Benutzer können in Echtzeit interagieren und sofortige Ergebnisse sehen, was die Effizienz und Benutzerfreundlichkeit erheblich verbessert.
State-of-the-Art Leistung bei der Objektssegmentierung
SAM 2 übertrifft die besten Modelle auf dem Gebiet der Objektssegmentierung in Videos und Bildern. Es bietet eine höhere Genauigkeit und Effizienz bei der Verfolgung und Segmentierung von Objekten.
Modellarchitektur von SAM 2
Die Architektur von SAM 2 erweitert die promptfähige Fähigkeit von SAM auf den Videobereich, indem ein Sitzungsspeichermodul hinzugefügt wird, das Informationen über das Zielobjekt im Video erfasst. Dies ermöglicht es SAM 2, das ausgewählte Objekt über alle Videoframes hinweg zu verfolgen, selbst wenn das Objekt vorübergehend aus dem Blickfeld verschwindet. SAM 2 unterstützt auch die Möglichkeit, Korrekturen in der Maskenvorhersage basierend auf zusätzlichen Eingaben in jedem Frame vorzunehmen.
Streaming-Architektur
SAM 2 verarbeitet Videoframes einzeln, was eine natürliche Verallgemeinerung von SAM auf den Videobereich darstellt. Wenn SAM 2 auf Bilder angewendet wird, ist das Speichermodul leer und das Modell verhält sich wie SAM.
Das Segment Anything Video Dataset (SA-V)
SAM 2 wurde auf einer großen und vielfältigen Menge von Videos und Masklets (Objektmasken über die Zeit) trainiert, die durch die interaktive Anwendung von SAM 2 in einem Modell-im-Schleife-Daten-Engine erstellt wurden. Die Trainingsdaten umfassen das SA-V-Dataset, das Meta als Open Source veröffentlicht.
Highlights des SA-V-Datasets
- Über 600.000 Masklets, die auf über 51.000 Videos gesammelt wurden
- Geografisch vielfältige, reale Szenarien, die in 47 Ländern gesammelt wurden
- Annotationen umfassen ganze Objekte, Teile und herausfordernde Verdeckungen
Offene Innovation und Transparenz
Meta fördert die Forschungsgemeinschaft, indem es das vortrainierte Segment Anything 2 Modell, das SA-V-Dataset, eine Demo und den Code öffentlich zugänglich macht. Dies ermöglicht es Forschern und Entwicklern, auf dieser Arbeit aufzubauen und neue Anwendungen und Modelle zu entwickeln.
Anwendungsmöglichkeiten von SAM 2
SAM 2 kann allein oder als Teil eines größeren Systems mit anderen Modellen in zukünftigen Arbeiten verwendet werden, um neuartige Erfahrungen zu ermöglichen. Die Segmentierungsausgaben von SAM 2 könnten als Eingabe für andere KI-Systeme wie moderne Videogenerationsmodelle verwendet werden, um präzise Bearbeitungsmöglichkeiten zu bieten.
Erweiterbare Eingaben und Ausgaben
SAM 2 kann in Zukunft erweitert werden, um andere Arten von Eingabeaufforderungen zu akzeptieren, was kreative Möglichkeiten zur Interaktion mit Objekten in Echtzeit oder Live-Video ermöglicht.
Fazit
SAM 2 von Meta stellt einen bedeutenden Fortschritt in der Bild- und Videosegmentierung dar und bietet eine Vielzahl von neuen Funktionen und Verbesserungen. Es ermöglicht die präzise Auswahl und Verfolgung von Objekten in Bildern und Videos mit minimaler Interaktion und Echtzeit-Interaktivität. Mit seiner offenen Innovationsstrategie und der Veröffentlichung des SA-V-Datasets fördert Meta die Forschung und Entwicklung neuer Anwendungen und Modelle.
Die Rolle von Kapitel H
Kapitel H bietet Unternehmen umfassende Dienstleistungen und Lösungen im Bereich der künstlichen Intelligenz und maschinellen Lernens an. Mit unserer Expertise in der Implementierung und Anpassung von Modellen wie SAM 2 können wir Ihnen helfen, die Leistungsfähigkeit dieser Technologien in Ihren Projekten zu nutzen. Von der Beratung und Planung bis hin zur Entwicklung und Integration bieten wir maßgeschneiderte Lösungen, die Ihren spezifischen Anforderungen gerecht werden. Vertrauen Sie auf Kapitel H, um die Vorteile von SAM 2 und anderen fortschrittlichen Technologien in Ihren Geschäftsprozessen zu realisieren.
Quelle: https://ai.meta.com/sam2/