Seit über einem Jahrzehnt hat das Fundamental AI Research (FAIR) Team von Meta den Fortschritt im Bereich der künstlichen Intelligenz (KI) durch offene Forschung vorangetrieben. Da das Feld schnell voranschreitet, glauben wir, dass die Zusammenarbeit mit der globalen KI-Community heute wichtiger denn je ist.
Heute freuen wir uns, einige der neuesten FAIR-Forschungsmodelle mit der globalen Gemeinschaft zu teilen. Wir veröffentlichen öffentlich fünf Modelle, darunter Bild-zu-Text- und Text-zu-Musik-Generationsmodelle, ein Multi-Token-Vorhersagemodell und eine Technik zur Erkennung von KI-generierter Sprache. Durch die öffentliche Freigabe dieser Forschung hoffen wir, Iterationen zu inspirieren und letztendlich die KI verantwortungsvoll weiterzuentwickeln.
Meta Chameleon: Verarbeitung und Generierung von Text und Bildern
Wir veröffentlichen zentrale Komponenten unserer Chameleon-Modelle unter einer Forschungsnutzungslizenz. Chameleon ist eine Familie von gemischt-modalen Modellen, die sowohl Bilder als auch Texte verstehen und generieren können. Ähnlich wie Menschen können Chameleon-Modelle Wörter und Bilder gleichzeitig verarbeiten und ausgeben. Während die meisten großen Sprachmodelle normalerweise unimodale Ergebnisse liefern, kann Chameleon sowohl Text- als auch Bildkombinationen als Eingabe nehmen und in jeder Kombination ausgeben. Die Möglichkeiten mit Chameleon sind endlos: Man kann sich vorstellen, kreative Bildunterschriften zu generieren oder mithilfe von Text- und Bildvorgaben eine völlig neue Szene zu erschaffen.
Multi-Token-Vorhersage: Schnellere Vorhersagen von Wörtern
Große Sprachmodelle (LLMs) helfen bereits dabei, kreative Texte zu generieren, Ideen zu brainstormen und Fragen zu beantworten. Bisher war das Training auf die Vorhersage des nächsten Wortes beschränkt, was ineffizient ist. Im April haben wir einen neuen Ansatz vorgeschlagen, um bessere und schnellere LLMs zu entwickeln, indem wir eine Multi-Token-Vorhersage nutzen. Diese Technik erlaubt es, mehrere zukünftige Wörter auf einmal vorherzusagen. In Übereinstimmung mit verantwortungsbewusster, offener Wissenschaft veröffentlichen wir die vortrainierten Modelle zur Code-Vervollständigung unter einer nicht-kommerziellen Forschungsnutzungslizenz.
JASCO: Mehr Kontrolle über die AI-Musikgenerierung
Generative KI ermöglicht es, Kreativität auf neue Weise zu erforschen, etwa indem ein Textprompt in Musik umgewandelt wird. Während bestehende Text-zu-Musik-Modelle wie MusicGen hauptsächlich auf Texteingaben basieren, akzeptiert unser neues Modell JASCO verschiedene Eingaben wie Akkorde oder Beats, um die Kontrolle über die generierte Musik zu verbessern. JASCO zeigt, dass es vergleichbare Qualität wie bestehende Modelle liefert, jedoch deutlich vielseitigere Steuerungsmöglichkeiten bietet.
AudioSeal: Erkennung von KI-generierter Sprache
Wir veröffentlichen auch AudioSeal, die erste Audiowasserzeichen-Technik, die speziell für die lokalisierte Erkennung von KI-generierter Sprache entwickelt wurde. AudioSeal ermöglicht es, KI-generierte Segmente innerhalb eines längeren Audioschnipsels zu identifizieren. Im Gegensatz zu herkömmlichen Methoden, die auf komplexen Dekodierungsalgorithmen beruhen, ermöglicht der lokalisierte Erkennungsansatz von AudioSeal eine schnellere und effizientere Erkennung. Diese Designverbesserung steigert die Erkennungsgeschwindigkeit um das bis zu 485-fache im Vergleich zu früheren Methoden und eignet sich somit für groß angelegte und Echtzeitanwendungen. AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht und ist nur eine von mehreren verantwortungsvollen Forschungslinien, die wir geteilt haben, um den Missbrauch von generativen KI-Tools zu verhindern.
Erhöhung der Diversität in Text-zu-Bild-Generationssystemen
Es ist wichtig, dass Text-zu-Bild-Modelle für alle gut funktionieren und die geografische und kulturelle Vielfalt der Welt widerspiegeln. Um dies zu erreichen, haben wir automatische Indikatoren entwickelt, um potenzielle geografische Disparitäten in Text-zu-Bild-Modellen zu bewerten.
Zusätzlich haben wir eine groß angelegte Annotationsstudie durchgeführt, um zu verstehen, wie Menschen in verschiedenen Regionen geografische Darstellungen wahrnehmen. Wir sammelten über 65.000 Anmerkungen und mehr als zwanzig Umfrageantworten pro Beispiel, die Attraktivität, Ähnlichkeit, Konsistenz und gemeinsame Empfehlungen für verbesserte automatische und menschliche Bewertungen von Text-zu-Bild-Modellen abdeckten. Dies ermöglicht eine größere Diversität und bessere Repräsentation in KI-generierten Bildern.
Heute veröffentlichen wir den Code zur Bewertung geografischer Disparitäten und unsere Anmerkungen, die der Gemeinschaft helfen sollen, die Diversität ihrer generativen Modelle zu verbessern.
Die Rolle von Kapitel H
Kapitel H kann Unternehmen dabei unterstützen, die neuesten Entwicklungen und Modelle der KI-Forschung zu nutzen, um ihre eigenen Projekte zu optimieren und zu innovieren. Mit unserer Expertise in der Implementierung und Anpassung von KI-Lösungen bieten wir maßgeschneiderte Strategien, um die Leistungsfähigkeit dieser neuen Technologien zu maximieren. Unser Fokus auf verantwortungsvolle KI-Anwendungen stellt sicher, dass Ihre Projekte nicht nur technologisch fortschrittlich, sondern auch ethisch und gesellschaftlich vertretbar sind. Vertrauen Sie auf Kapitel H, um an der Spitze der KI-Entwicklung zu bleiben und nachhaltige Erfolge zu erzielen.
Fazit
Die jüngsten Fortschritte der Meta FAIR-Forschung zeigen eindrucksvoll, wie vielfältig und leistungsfähig die Anwendungen generativer KI sind. Durch die Veröffentlichung und das Teilen dieser innovativen Modelle setzt Meta einen wichtigen Schritt in Richtung offener und verantwortungsbewusster KI-Forschung. Kapitel H steht Ihnen als Partner zur Seite, um diese Technologien effektiv und ethisch in Ihre Projekte zu integrieren. Vertrauen Sie auf unsere Expertise, um die Zukunft der KI zu gestalten.
Quelle: https://about.fb.com/news/2024/06/releasing-new-ai-research-models-to-accelerate-innovation-at-scale/