Das Bewerten und Vergleichen von LLMs (Large Language Models) ist eine anspruchsvolle Aufgabe. Das RLHF-Team (Reinforcement Learning from Human Feedback) von Hugging Face erkannte dies vor einem Jahr, als sie versuchten, Ergebnisse mehrerer veröffentlichter Modelle zu reproduzieren und zu vergleichen. Dies war nahezu unmöglich: Ergebnisse in wissenschaftlichen Arbeiten oder Marketingveröffentlichungen wurden oft ohne reproduzierbaren Code angegeben, manchmal zweifelhaft, und in den meisten Fällen nur mit optimierten Eingabeaufforderungen oder Evaluierungsaufbauten, um den Modellen die besten Chancen zu geben. Daher beschlossen sie, einen Ort zu schaffen, an dem Referenzmodelle im exakt gleichen Setup bewertet würden (gleiche Fragen, in der gleichen Reihenfolge gestellt usw.), um vollständig reproduzierbare und vergleichbare Ergebnisse zu sammeln. So entstand das Open LLM Leaderboard!
Nach einer Reihe von hochsichtbaren Modellveröffentlichungen wurde es eine vielgenutzte Ressource in der ML-Community und darüber hinaus, die in den letzten 10 Monaten von mehr als 2 Millionen einzigartigen Personen besucht wurde.
Rund 300.000 Community-Mitglieder nutzen und arbeiten monatlich daran durch Einreichungen und Diskussionen, normalerweise um:
- Den neuesten Stand der Technik bei Open-Source-Veröffentlichungen zu finden, da das Leaderboard reproduzierbare Scores bietet, die Marketingfloskeln von tatsächlichen Fortschritten im Feld trennen.
- Ihre Arbeit zu bewerten, sei es beim Vortraining oder Finetuning, Methoden offen und mit den besten bestehenden Modellen zu vergleichen und öffentliche Anerkennung zu erhalten.
Doch mit dem Erfolg des Leaderboards und den steigenden Leistungen der Modelle kamen Herausforderungen. Nach einem intensiven Jahr und viel Feedback aus der Community dachte das Team von Hugging Face, es sei Zeit für ein Upgrade! Daher führen sie das Open LLM Leaderboard v2 ein!
Hier ist der Grund, warum sie denken, dass ein neues Leaderboard benötigt wird 👇
Harder, better, faster, stronger: Einführung des LLM Leaderboards v2
Die Notwendigkeit eines anspruchsvolleren Leaderboards
Im vergangenen Jahr wurden die Benchmarks, die sie verwendeten, überbeansprucht und gesättigt:
- Sie wurden zu einfach für die Modelle. Modelle erreichen nun die Basisleistung von Menschen bei HellaSwag, MMLU und ARC, ein Phänomen, das als Sättigung bezeichnet wird.
- Einige neuere Modelle zeigten auch Anzeichen von Kontamination. Damit meinen wir, dass Modelle möglicherweise auf Benchmark-Daten oder auf Daten, die den Benchmark-Daten sehr ähnlich sind, trainiert wurden. Daher spiegelten einige Scores nicht mehr die allgemeine Leistung des Modells wider, sondern überpassten einige Bewertungsdatensätze, anstatt die allgemeinere Leistung der getesteten Aufgabe zu reflektieren. Dies war insbesondere bei GSM8K und TruthfulQA der Fall, die in einigen Instruktions-Finetuning-Sets enthalten waren.
- Einige Benchmarks enthielten Fehler. MMLU wurde kürzlich von mehreren Gruppen gründlich untersucht (siehe MMLU-Redux und MMLU-Pro), die Fehler in den Antworten aufdeckten und neue Versionen vorschlugen. Ein weiteres Beispiel war, dass GSM8K ein spezifisches End-of-Generation-Token (:) verwendete, was die Leistung vieler verbaler Modelle unfairerweise verschlechterte.
Das Team von Hugging Face entschied sich daher, die Bewertungen, die sie für das Open LLM Leaderboard v2 durchführen, komplett zu ändern!
Neustart ihrer Bewertungs-Auswahl
Sie begannen mit der Suche nach neuen Benchmarks mit unkontaminierten, hochwertigen Datensätzen, die zuverlässige Metriken verwenden und die Modellfähigkeiten von Interesse messen.
Sie beschlossen, die folgenden allgemeinen Aufgaben abzudecken: Wissenstests (📚), logisches Denken bei kurzen und langen Kontexten (💭), komplexe mathematische Fähigkeiten und Aufgaben, die gut mit menschlichen Präferenzen korrelieren (🤝), wie das Befolgen von Anweisungen.
Diese Aufgaben decken sie mit sechs Benchmarks ab. Lassen Sie uns diese kurz vorstellen:
- 📚 MMLU-Pro (Massive Multitask Language Understanding – Pro-Version, Papier). MMLU-Pro ist eine verfeinerte Version des MMLU-Datensatzes. MMLU war der Referenz-Multichoice-Wissensdatensatz. Neuere Untersuchungen zeigten jedoch, dass er sowohl verrauscht (einige Fragen sind unbeantwortbar) als auch zu einfach ist (durch die Weiterentwicklung der Modellfähigkeiten und die erhöhte Kontamination). MMLU-Pro stellt die Modelle vor zehn Auswahlmöglichkeiten anstatt vier, erfordert mehr Fragen logisches Denken und wurde von Experten überprüft, um den Rauschanteil zu reduzieren. Es ist von höherer Qualität als das Original und schwieriger.
- 📚 GPQA (Google-Proof Q&A Benchmark, Papier). GPQA ist ein extrem harter Wissensdatensatz, bei dem Fragen von Fachexperten auf ihrem Gebiet (PhD-Niveau in Biologie, Physik, Chemie usw.) so gestaltet wurden, dass sie für Laien schwer, aber (relativ) leicht für Experten zu beantworten sind. Die Fragen wurden mehrere Runden der Validierung durchlaufen, um sowohl Schwierigkeit als auch Faktizität sicherzustellen. Der Datensatz ist auch nur über Zugangskontrollen zugänglich, was das Kontaminationsrisiko reduzieren sollte. (Deshalb geben sie hier auch kein einfaches Textbeispiel aus diesem Datensatz, wie von den Autoren im Papier gefordert).
- 💭 MuSR (Multistep Soft Reasoning, Papier). MuSR ist ein sehr unterhaltsamer neuer Datensatz, der aus algorithmisch generierten komplexen Problemen besteht, die etwa 1.000 Wörter lang sind. Die Probleme sind entweder Mordmysterien, Objektplatzierungsfragen oder Teamzuweisungsoptimierungen. Um diese zu lösen, müssen die Modelle logisches Denken und sehr langreichweite Kontextverarbeitung kombinieren. Nur wenige Modelle erzielen eine bessere Leistung als zufällig.
- 🧮 MATH (Mathematics Aptitude Test of Heuristics, Level 5 subset, Papier). MATH ist eine Zusammenstellung von Wettbewerbsproblemen auf Highschool-Niveau, die aus mehreren Quellen zusammengestellt und konsistent mit Latex für Gleichungen und Asymptote für Abbildungen formatiert wurden. Die Generationen müssen ein sehr spezifisches Ausgabeformat erfüllen. Sie behalten nur die schwierigsten Fragen.
- 🤝 IFEval (Instruction Following Evaluation, Papier). IFEval ist ein recht interessanter Datensatz, der die Fähigkeit der Modelle testet, klare Anweisungen zu befolgen, wie „Schlüsselwort x einfügen“ oder „Format y verwenden“. Die Modelle werden darauf getestet, wie genau sie Formatierungsanweisungen befolgen können, anstatt auf den tatsächlich generierten Inhalt, was die Verwendung strenger und rigoroser Metriken ermöglicht.
- 🧮 🤝 BBH (Big Bench Hard, Papier). BBH ist ein Teilset von 23 herausfordernden Aufgaben aus dem BigBench-Datensatz, die 1) objektive Metriken verwenden, 2) schwer sind, gemessen daran, dass Sprachmodelle ursprünglich die menschlichen Baselines nicht übertreffen, und 3) genügend Proben enthalten, um statistisch signifikant zu sein. Sie enthalten mehrstufige arithmetische und algorithmische Überlegungen (Verständnis boolescher Ausdrücke, SVG für geometrische Formen usw.), Sprachverständnis (Erkennung von Sarkasmus, Namensdisambiguierung usw.) und etwas Weltwissen. Die Leistung auf BBH korrelierte im Durchschnitt gut mit menschlichen Präferenzen. Sie erwarten, dass dieser Datensatz spannende Einblicke in spezifische Fähigkeiten liefert, die für die Community von Interesse sein könnten.
Warum haben sie diese Teilmengen ausgewählt?
Zusammengefasst waren ihre Kriterien:
- Bewertungsqualität:
- Menschliche Überprüfung des Datensatzes: MMLU-Pro und GPQA
- Weit verbreitete Nutzung in der akademischen und/oder Open-Source-Community: BBH, IFeval, MATH
- Zuverlässigkeit und Fairness der Metriken:
- Multichoice-Bewertungen sind im Allgemeinen fair gegenüber Modellen.
- Generative Bewertungen sollten entweder das Format stark einschränken (wie MATH) oder sehr eindeutige Metriken (wie IFEval) oder Nachbearbeitung (wie BBH) verwenden, um die korrekten Antworten zu extrahieren.
- Allgemeine Abwesenheit von Kontamination in Modellen bis heute:
- Zugangskontrollen: GPQA
- „Jugend“: MuSR, MMLU-Pro
- Messung von Modellfähigkeiten, die für die Community interessant sind:
- Korrelation mit menschlichen Präferenzen: BBH, IFeval
- Bewertung einer spezifischen Fähigkeit, an der sie interessiert sind: MATH, MuSR
Ein fairerer Durchschnitt für das Ranking: Verwendung normalisierter Scores
Das Team von Hugging Face hat beschlossen, die endgültige Bewertung für die Modelle zu ändern. Anstatt jede Benchmark-Ausgabescore zu summieren, normalisieren sie diese Scores zwischen der zufälligen Basislinie (0 Punkte) und dem maximal möglichen Score (100 Punkte). Dann mitteln sie alle normalisierten Scores, um den endgültigen Durchschnittsscore zu erhalten und berechnen die endgültigen Rankings. Beispielsweise erhält man bei einer Benchmark mit zwei Auswahlmöglichkeiten für jede Frage eine zufällige Basislinie von 50 Punkten (von 100 Punkten). Wenn man einen Zufallszahlengenerator verwendet, würde man also wahrscheinlich etwa 50 bei dieser Bewertung erzielen. Dies bedeutet, dass die Scores immer zwischen 50 (die niedrigste Punktzahl, die man vernünftigerweise erzielen kann, wenn die Benchmark nicht adversarial ist) und 100 liegen. Sie ändern daher den Bereich so, dass eine 50 im Rohscore eine 0 im normalisierten Score ist. Dies ändert nichts für generative Bewertungen wie IFEval oder MATH.
Diese Änderung ist bedeutender, als es scheint, da sie als Änderung des Gewichts, das jeder Benchmark im endgültigen Durchschnittsscore zugewiesen wird, angesehen werden kann.
Leichtere Reproduzierbarkeit: Aktualisierung des Evaluierungssystems
Vor einem Jahr entschieden sie sich, das Harness (lm-eval) von EleutherAI für ihre Bewertungen zu verwenden. Es bietet eine standardisierte und stabile Implementierung für mehrere Aufgaben. Um Fairness und Reproduzierbarkeit zu gewährleisten, fixierten sie die Version, die sie verwendeten. Dies ermöglichte es ihnen, alle Modelle in einem „Apfel-zu-Apfel“ Setup zu vergleichen, da alle Bewertungen auf genau die gleiche Weise, auf derselben Hardware, mit denselben Parametern und dem gleichen Commit des Evaluierungssystems durchgeführt wurden.
Allerdings entwickelte sich lm-eval weiter und die Implementierung einiger Aufgaben oder Metriken änderte sich, was zu Diskrepanzen zwischen 1) den Bewertungsergebnissen, die Leute mit neueren Versionen des Harness erhielten und 2) ihren Ergebnissen mit ihrer fixierten Version führte.
Für die neue Version des Open LLM Leaderboard arbeiteten sie daher zusammen mit dem großartigen EleutherAI-Team (insbesondere Hailey Schoelkopf, vielen, riesigen Dank!) das Harness zu aktualisieren.
Auf der Feature-Seite haben sie den Harness-Support für Delta-Gewichte (LoRA-Finetuning/Anpassung von Modellen), ein Loggingsystem kompatibel mit dem Leaderboard und die oft gewünschte Verwendung von Chat-Vorlagen für die Bewertung hinzugefügt.
Auf der Aufgaben-Seite nahmen sie sich ein paar Wochen Zeit, um alle Implementierungen und Generationen gründlich zu überprüfen und die beobachteten Probleme mit inkonsistenten wenigen Shot-Beispielen, zu restriktiven End-of-Sentence-Token usw. zu beheben. Sie haben spezifische Konfigurationsdateien für die Leaderboard-Aufgabenimplementierungen erstellt und arbeiten jetzt daran, eine Testsuite hinzuzufügen, um sicherzustellen, dass die Bewertungsergebnisse für die Leaderboard-Aufgaben über die Zeit hinweg unverändert bleiben.
Fokus auf die für die Community relevantesten Modelle
Vorstellung des „Maintainer’s Highlight“
Im Laufe des Jahres haben sie mehr als 7500 Modelle bewertet und festgestellt, dass viele davon nicht so oft von der Community genutzt wurden.
Die meistgenutzten sind in der Regel neue Basis-Vortrainingsmodelle, oft mit viel Rechenleistung erstellt, die die Community später für ihre Anwendungsfälle feinabstimmen kann (wie Metas Llama3 oder Alibabas Qwen2). Einige hochwertige Chat- oder Instruktionsmodelle finden eine große Nutzergemeinde, wie Cohere’s Command + R, und werden zu starken Ausgangspunkten für Community-Experimente. ♥️
Die Geschichte kann jedoch anders sein für andere Modelle, auch wenn sie im Leaderboard an der Spitze stehen. Mehrere Modelle sind experimentelle, faszinierende und beeindruckende Kombinationen von mehr als 20 aufeinanderfolgenden Modellerstellungsschritten durch Finetuning oder Merging.
Diese Modelle stellen jedoch einige Herausforderungen dar:
- Beim Stapeln so vieler Schritte kann es leicht passieren, dass das genaue Modellrezept und die Historie verloren gehen, da einige Elternmodelle gelöscht werden können, Finetuning-Informationen eines vorherigen Schritts verschwinden können usw.
- Modelle können dann versehentlich kontaminiert werden 😓 Dies geschah mehrmals im letzten Jahr, bei Modellen, die von Elternmodellen abgeleitet wurden, die auf Instruktionsdatensätzen feingetuned wurden, die Informationen von TruthfulQA oder GSM8K enthielten.
- Modelle können auch nur auf Benchmarks gut abschneiden, die nicht mehr mit ihrer tatsächlichen Leistung im wirklichen Leben zusammenhängen 🙃 Dies kann passieren, wenn man Modelle zum Mergen auswählt, basierend auf ihrer hohen Leistung in den gleichen Benchmarks – es scheint die Leistung selektiv in diesen Benchmarks zu verbessern, ohne tatsächlich mit der Qualität in realen Situationen zu korrelieren. (Weitere Forschung ist wahrscheinlich erforderlich). Um qualitativ hochwertige Modelle im Leaderboard hervorzuheben und die nützlichsten Modelle für die Bewertung zu priorisieren, haben sie daher beschlossen, eine Kategorie namens „Maintainer’s Choice“ ⭐ einzuführen.
In dieser Liste finden Sie LLMs aus verschiedenen Quellen, handverlesen von der Community und dem Hugging Face-Team. Sie berücksichtigen große Unternehmen wie Meta oder Google, Startups wie Cohere oder Mistral, Kollektive wie EleutherAI oder NousResearch und Nutzer, die großartige Modelle geliefert haben, unter vielen anderen.
Die Liste wird sich basierend auf Community-Vorschlägen und ihren eigenen Beobachtungen weiterentwickeln und soll so viele wie möglich SOTA LLMs enthalten, sobald sie herauskommen und diese Modelle prioritär bewerten.
Sie hoffen, es wird auch Nicht-ML-Nutzern erleichtern, sich unter den vielen, vielen Modellen im Leaderboard zu orientieren.
Abstimmung über die Relevanz von Modellen
Für die vorherige Version des Open LLM Leaderboard wurden Bewertungen normalerweise in einer Warteschlange („zuerst eingereicht, zuerst bewertet“) durchgeführt. Da Nutzer manchmal viele LLM-Varianten gleichzeitig einreichten und das Open LLM Leaderboard mit der begrenzten Rechenkapazität des Hugging Face Science-Clusters lief, haben sie beschlossen, ein Abstimmungssystem für eingereichte Modelle einzuführen. Die Community wird in der Lage sein, für Modelle abzustimmen, und sie werden Priorität darauf legen, Modelle mit den meisten Stimmen zuerst auszuführen, wodurch die am meisten erwarteten Modelle an die Spitze der Prioritätsliste gelangen. Wenn ein Modell eine extrem hohe Anzahl von Stimmen erhält, wenn der Cluster voll ist, könnten sie sogar in Betracht ziehen, es manuell statt anderer interner Jobs bei Hugging Face auszuführen.
Um das Abstimmungssystem nicht zu spammen, müssen Nutzer mit ihrem Hugging Face-Konto verbunden sein, um abzustimmen, und sie werden die Stimmen speichern. Dieses System wird ihnen helfen, Modelle zu priorisieren, die die Community begeistert.
Bessere und einfachere Benutzeroberfläche
Wenn Sie einer ihrer regelmäßigen Nutzer sind, haben Sie vielleicht bemerkt, dass ihre Frontend in den letzten Monaten viel schneller geworden ist.
Dies ist der Arbeit des Gradio-Teams zu verdanken, insbesondere Freddy Boulton, der eine Leaderboard-Gradio-Komponente entwickelt hat! Es lädt Daten clientseitig, was jede Spaltenauswahl oder Suche praktisch sofortig macht! Sie können es auch in Ihrem eigenen Leaderboard wiederverwenden!
Sie haben sich auch entschieden, die FAQ- und Über-Registerkarten auf eine eigene dedizierte Dokumentationsseite zu verschieben!
Neues Leaderboard, neue Ergebnisse!
Sie haben begonnen, die Modelle in der Kategorie „Maintainer’s Highlights“ hinzuzufügen und zu bewerten (vgl. oben) und freuen sich auf die Einreichungen der Community für diese neue Version des Leaderboards!
Da der Cluster beschäftigt war, können Sie erwarten, dass Modelle in den nächsten Tagen weiterhin erscheinen werden!
Wie sehen die Rankings aus?
Ein Blick auf die Top 10 Modelle in der vorherigen Version des Open LLM Leaderboard und deren Vergleich mit dieser aktualisierten Version zeigt, dass einige Modelle relativ stabile Rankings haben (im Folgenden fett markiert): Qwen-2-72B instruct, Meta’s Llama3-70B instruct, 01-ai’s Yi-1.5-34B chat, Cohere’s Command R + model, und schließlich Smaug-72B von AbacusAI.
Sie waren besonders beeindruckt von Qwen2-72B-Instruct, das einen Schritt über anderen Modellen steht und im Durchschnitt 43.02 Punkte erzielt (insbesondere dank seiner Leistung in Mathematik, langreichweitigem logischen Denken und Wissen).
Das derzeit zweitbeste Modell, Llama-3-70B-Instruct (36.67 Durchschnitt), verliert interessanterweise 15 Punkte gegenüber seinem vortrainierten Gegenstück auf GPQA (4.92 vs. 19.67)! Dies wirft die Frage auf, ob das besonders umfangreiche Instruktions-Finetuning, das das Meta-Team an diesem Modell vorgenommen hat, einige Experten-/Absolventenwissen beeinträchtigt hat.
Natürlich ist dieses Ranking nur der Anfang des Leaderboards und sie erwarten, dass es sich bald ändert, da mehr Modelle bewertet werden. Sie können den Warteschlangenstatus überprüfen, um zu sehen, welche Modelle derzeit ausgeführt werden!
Sie warten besonders gespannt auf Mixtral-8x22B-Instruct; Ergebnisse sollten später heute ankommen!
Rank | Neues Leaderboard-Ranking |
---|---|
⭐ | Qwen/Qwen2-72B-Instruct |
2 | meta-llama/Meta-Llama-3-70B-Instruct |
3 | microsoft/Phi-3-medium-4k-instruct |
4 | 01-ai/Yi-1.5-34B-Chat |
5 | CohereForAI/c4ai-command-r-plus |
6 | abacusai/Smaug-72B-v0.1 |
7 | Qwen/Qwen1.5-110B |
8 | Qwen/Qwen1.5-110B-Chat |
9 | microsoft/Phi-3-small-128k-instruct |
10 | 01-ai/Yi-1.5-9B-Chat |
Hier ist eine detaillierte Übersicht über die Änderungen in den Rankings:
Lassen Sie uns mit einigen Denkanstößen und Ratschlägen des Maintainer-Teams abschließen.
Welche Bewertungen sind am wichtigsten?
Abhängig von Ihrem praktischen Anwendungsfall sollten Sie sich auf verschiedene Aspekte des Leaderboards konzentrieren. Das Gesamtranking zeigt Ihnen, welches Modell im Durchschnitt besser ist, aber Sie könnten mehr an spezifischen Fähigkeiten interessiert sein.
Insbesondere haben sie beobachtet, dass ihre verschiedenen Bewertungsergebnisse nicht immer miteinander korrelieren, wie in dieser Korrelationsmatrix gezeigt:
Wie Sie sehen können, korrelieren MMLU-Pro und BBH ziemlich gut. Wie andere Teams bereits festgestellt haben, korrelieren diese Benchmarks auch recht gut mit menschlichen Präferenzen (zum Beispiel neigen sie dazu, mit dem menschlichen Urteil in LMSys’s Chatbot Arena übereinzustimmen).
Ein anderer ihrer Benchmarks, IFEval, zielt auf Chat-Fähigkeiten ab. Er untersucht, ob Modelle präzise Anweisungen befolgen können. Das Format, das in diesem Benchmark verwendet wird, begünstigt jedoch tendenziell Chat- und instruktionsabgestimmte Modelle, wobei vortrainierte Modelle Schwierigkeiten haben, hohe Leistungen zu erzielen.
Wenn Sie sich besonders für das Modellwissen anstelle der Ausrichtung oder Chat-Fähigkeiten interessieren, sind die für Sie relevantesten Bewertungen wahrscheinlich MMLU-Pro und GPQA.
Sehen wir uns an, wie die Leistungen auf diesen aktualisierten Benchmarks im Vergleich zu ihrer Bewertung in der vorherigen Version des Leaderboards abschneiden.
Wie wir sehen können, sind sowohl MMLU-PRO-Scores (in Orange) als auch GPQA-Scores (in Gelb) vernünftig mit den MMLU-Scores von Open LLM Leaderboard v1 korreliert. Wir stellen jedoch fest, dass die Scores insgesamt viel niedriger sind, da GPQA viel schwieriger ist. Es gibt also noch viel Raum für die Modelle, um sich zu verbessern – was großartige Nachrichten sind 🙂
MATH-Lvl5 ist offensichtlich für Leute interessant, die sich auf mathematische Fähigkeiten konzentrieren. Die Ergebnisse in diesem Benchmark korrelieren im Allgemeinen mit der Leistung auf GSM8K, abgesehen von einigen Ausreißern, wie wir in der folgenden Abbildung sehen können.
Die grünen Punkte heben Modelle hervor, die zuvor aufgrund der oben genannten Bewertungsbeschränkungen 0 auf GSM8K erzielten, jetzt aber sehr anständige Scores im neuen Benchmark MATH-Level5 haben. Diese Modelle (hauptsächlich von 01-ai) wurden im vorherigen Format ziemlich stark bestraft. Die roten Punkte zeigen Modelle, die hohe Scores auf GSM8K erzielten, jetzt aber fast 0 auf MATH-Lvl5.
Von ihrem aktuellen Einblick in die Ausgaben und Verhaltensweisen der Modelle haben Chat-Versionen von Basismodellen manchmal eine erheblich niedrigere Punktzahl als die ursprünglichen Modelle auf MATH! Diese Beobachtung scheint zu implizieren, dass einige Chat-Finetuning-Verfahren die mathematischen Fähigkeiten beeinträchtigen können (aus ihren Beobachtungen, indem sie Modelle übermäßig ausführlich machen).
MuSR, ihre letzte Bewertung, ist besonders interessant für Modelle mit langem Kontext. Sie haben beobachtet, dass die besten Performer Modelle mit 10K und mehr Kontextgröße sind, und es scheint diskriminativ genug zu sein, um speziell langes kontextuelles logisches Denken zu testen.
Was kommt als Nächstes?
Ähnlich wie die erste Version des Open LLM Leaderboard einen Community-Ansatz zur Modellentwicklung im vergangenen Jahr vorangetrieben hat, hoffen sie, dass die neue Version 2 ein Meilenstein für offene und reproduzierbare Modellevaluierungen sein wird.
Da Rückwärtskompatibilität und offenes Wissen wichtig sind, werden Sie immer noch alle vorherigen Ergebnisse im Open LLM Leaderboard Archive finden können!
Ein Blick zurück auf die Entwicklung aller 7400 bewerteten Modelle auf dem Open LLM Leaderboard im Laufe der Zeit zeigt einige viel breitere Trends im Feld! Zum Beispiel sehen sie einen starken Trend von größeren (rote Punkte) zu kleineren (gelbe Punkte) Modellen, während gleichzeitig die Leistung verbessert wird.
Dies sind großartige Nachrichten für das Feld, da kleinere Modelle viel leichter eingebettet und viel energie-/speicher-/recheneffizienter sind. Sie hoffen, einen ähnlichen Fortschrittsmuster in der neuen Version des Leaderboards zu beobachten. Angesichts ihrer härteren Benchmarks ist ihr Ausgangspunkt viel niedriger (schwarze Punkte), also lassen Sie uns sehen, wohin das Feld uns in ein paar Monaten von jetzt an führt 🙂
Wenn Sie bis hierher gelesen haben, vielen Dank. Sie hoffen, dass Sie diese neue Version des Open LLM Leaderboard genießen. Mögen die Open-Source-Winde ihre LLM-Boote weit auf dem Meer des Deep Learning segeln lassen ⛵
Die Rolle von Kapitel H
Kapitel H spielt eine entscheidende Rolle bei der Unterstützung von Unternehmen, die ihre KI- und ML-Lösungen verbessern möchten. Mit umfassender Expertise in der Evaluierung und Implementierung von LLMs helfen wir Unternehmen, die besten Modelle für ihre spezifischen Anforderungen auszuwählen und zu optimieren. Unsere Dienstleistungen umfassen:
- Beratung und Strategieentwicklung: Analyse aktueller Systeme und Prozesse, um maßgeschneiderte Strategien für die Integration und Nutzung von LLMs zu entwickeln.
- Modellbewertung und -auswahl: Identifizierung leistungsfähigster und relevantester Modelle für spezifische Anwendungen durch tiefes Verständnis der neuesten Entwicklungen und Benchmarks.
- Integration und Implementierung: Nahtlose Integration der ausgewählten LLMs in bestehende Systeme und Prozesse, um maximale Effizienz und Leistung zu gewährleisten.
- Schulung und Support: Umfassende Schulungen und kontinuierlicher Support, um sicherzustellen, dass Mitarbeiter die neuen Technologien effektiv nutzen können.
Durch die Zusammenarbeit mit Kapitel H profitieren Unternehmen von fundiertem Fachwissen und engagierter Unterstützung, um KI- und ML-Projekte erfolgreich umzusetzen. Lassen Sie uns gemeinsam die Zukunft gestalten und Geschäftsziele mit modernster Technologie erreichen.
Quelle: https://huggingface.co/spaces/open-llm-leaderboard/blog