fbpx
Kapitel Hamid
Widenmattstrasse 18,
4334 - Sisseln
Aargau
Switzerland
Kapitel H Limited Şirketi
Ostim OSB MAH. 100.YIL BLV. NO: 27 Block B
Yenimahalle/Ankara
Türkiye
Back

Die neuesten Entwicklungen in der KI-Forschung von Meta FAIR

Seit über einem Jahrzehnt hat das Fundamental AI Research (FAIR) Team von Meta den Fortschritt im Bereich der künstlichen Intelligenz (KI) durch offene Forschung vorangetrieben. Da das Feld schnell voranschreitet, glauben wir, dass die Zusammenarbeit mit der globalen KI-Community heute wichtiger denn je ist.

Heute freuen wir uns, einige der neuesten FAIR-Forschungsmodelle mit der globalen Gemeinschaft zu teilen. Wir veröffentlichen öffentlich fünf Modelle, darunter Bild-zu-Text- und Text-zu-Musik-Generationsmodelle, ein Multi-Token-Vorhersagemodell und eine Technik zur Erkennung von KI-generierter Sprache. Durch die öffentliche Freigabe dieser Forschung hoffen wir, Iterationen zu inspirieren und letztendlich die KI verantwortungsvoll weiterzuentwickeln.

Meta Chameleon: Verarbeitung und Generierung von Text und Bildern

Wir veröffentlichen zentrale Komponenten unserer Chameleon-Modelle unter einer Forschungsnutzungslizenz. Chameleon ist eine Familie von gemischt-modalen Modellen, die sowohl Bilder als auch Texte verstehen und generieren können. Ähnlich wie Menschen können Chameleon-Modelle Wörter und Bilder gleichzeitig verarbeiten und ausgeben. Während die meisten großen Sprachmodelle normalerweise unimodale Ergebnisse liefern, kann Chameleon sowohl Text- als auch Bildkombinationen als Eingabe nehmen und in jeder Kombination ausgeben. Die Möglichkeiten mit Chameleon sind endlos: Man kann sich vorstellen, kreative Bildunterschriften zu generieren oder mithilfe von Text- und Bildvorgaben eine völlig neue Szene zu erschaffen.

Multi-Token-Vorhersage: Schnellere Vorhersagen von Wörtern

Große Sprachmodelle (LLMs) helfen bereits dabei, kreative Texte zu generieren, Ideen zu brainstormen und Fragen zu beantworten. Bisher war das Training auf die Vorhersage des nächsten Wortes beschränkt, was ineffizient ist. Im April haben wir einen neuen Ansatz vorgeschlagen, um bessere und schnellere LLMs zu entwickeln, indem wir eine Multi-Token-Vorhersage nutzen. Diese Technik erlaubt es, mehrere zukünftige Wörter auf einmal vorherzusagen. In Übereinstimmung mit verantwortungsbewusster, offener Wissenschaft veröffentlichen wir die vortrainierten Modelle zur Code-Vervollständigung unter einer nicht-kommerziellen Forschungsnutzungslizenz.

JASCO: Mehr Kontrolle über die AI-Musikgenerierung

Generative KI ermöglicht es, Kreativität auf neue Weise zu erforschen, etwa indem ein Textprompt in Musik umgewandelt wird. Während bestehende Text-zu-Musik-Modelle wie MusicGen hauptsächlich auf Texteingaben basieren, akzeptiert unser neues Modell JASCO verschiedene Eingaben wie Akkorde oder Beats, um die Kontrolle über die generierte Musik zu verbessern. JASCO zeigt, dass es vergleichbare Qualität wie bestehende Modelle liefert, jedoch deutlich vielseitigere Steuerungsmöglichkeiten bietet.

AudioSeal: Erkennung von KI-generierter Sprache

Wir veröffentlichen auch AudioSeal, die erste Audiowasserzeichen-Technik, die speziell für die lokalisierte Erkennung von KI-generierter Sprache entwickelt wurde. AudioSeal ermöglicht es, KI-generierte Segmente innerhalb eines längeren Audioschnipsels zu identifizieren. Im Gegensatz zu herkömmlichen Methoden, die auf komplexen Dekodierungsalgorithmen beruhen, ermöglicht der lokalisierte Erkennungsansatz von AudioSeal eine schnellere und effizientere Erkennung. Diese Designverbesserung steigert die Erkennungsgeschwindigkeit um das bis zu 485-fache im Vergleich zu früheren Methoden und eignet sich somit für groß angelegte und Echtzeitanwendungen. AudioSeal wird unter einer kommerziellen Lizenz veröffentlicht und ist nur eine von mehreren verantwortungsvollen Forschungslinien, die wir geteilt haben, um den Missbrauch von generativen KI-Tools zu verhindern.

Erhöhung der Diversität in Text-zu-Bild-Generationssystemen

Es ist wichtig, dass Text-zu-Bild-Modelle für alle gut funktionieren und die geografische und kulturelle Vielfalt der Welt widerspiegeln. Um dies zu erreichen, haben wir automatische Indikatoren entwickelt, um potenzielle geografische Disparitäten in Text-zu-Bild-Modellen zu bewerten.

Zusätzlich haben wir eine groß angelegte Annotationsstudie durchgeführt, um zu verstehen, wie Menschen in verschiedenen Regionen geografische Darstellungen wahrnehmen. Wir sammelten über 65.000 Anmerkungen und mehr als zwanzig Umfrageantworten pro Beispiel, die Attraktivität, Ähnlichkeit, Konsistenz und gemeinsame Empfehlungen für verbesserte automatische und menschliche Bewertungen von Text-zu-Bild-Modellen abdeckten. Dies ermöglicht eine größere Diversität und bessere Repräsentation in KI-generierten Bildern.

Heute veröffentlichen wir den Code zur Bewertung geografischer Disparitäten und unsere Anmerkungen, die der Gemeinschaft helfen sollen, die Diversität ihrer generativen Modelle zu verbessern.

Die Rolle von Kapitel H

Kapitel H kann Unternehmen dabei unterstützen, die neuesten Entwicklungen und Modelle der KI-Forschung zu nutzen, um ihre eigenen Projekte zu optimieren und zu innovieren. Mit unserer Expertise in der Implementierung und Anpassung von KI-Lösungen bieten wir maßgeschneiderte Strategien, um die Leistungsfähigkeit dieser neuen Technologien zu maximieren. Unser Fokus auf verantwortungsvolle KI-Anwendungen stellt sicher, dass Ihre Projekte nicht nur technologisch fortschrittlich, sondern auch ethisch und gesellschaftlich vertretbar sind. Vertrauen Sie auf Kapitel H, um an der Spitze der KI-Entwicklung zu bleiben und nachhaltige Erfolge zu erzielen.

Fazit

Die jüngsten Fortschritte der Meta FAIR-Forschung zeigen eindrucksvoll, wie vielfältig und leistungsfähig die Anwendungen generativer KI sind. Durch die Veröffentlichung und das Teilen dieser innovativen Modelle setzt Meta einen wichtigen Schritt in Richtung offener und verantwortungsbewusster KI-Forschung. Kapitel H steht Ihnen als Partner zur Seite, um diese Technologien effektiv und ethisch in Ihre Projekte zu integrieren. Vertrauen Sie auf unsere Expertise, um die Zukunft der KI zu gestalten.

Quelle: https://about.fb.com/news/2024/06/releasing-new-ai-research-models-to-accelerate-innovation-at-scale/

Maher Hamid M.Sc.
Maher Hamid M.Sc.
Maher Hamid ist der Geschäftsführer einer multinationalen Firma für Web- und Anwendungsentwicklung, spezialisiert auf Geschäftsprozessautomatisierung durch Machine Learning und KI. Seit 2018 ist er Dozent an der FOM Hochschule in Stuttgart, mit Fokus auf praxisnahe IT-Lehre. Er unterrichtet Module wie Database Management, IT Management, Business Informatics, eBusiness, und Applied Programming. Seine Expertise erstreckt sich auch auf Big Data, Data Science, ERP-Systeme und IT-Sicherheit. Seine Karriere vereint technische Brillanz mit pädagogischem Engagement, wodurch er sowohl in der Geschäftswelt als auch in der akademischen Lehre einen tiefgreifenden Einfluss hat.

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert