Meta hat mit LLaMA (Large Language Model Meta AI) ein Sprachmodell vorgestellt, das mit weniger Ressourcen ChatGPT in die Schranken weisen soll. |
Meta has unveiled LLaMA (Large Language Model Meta AI), a language model that aims to use fewer resources to give ChatGPT a run for its money. |
---|---|
Meta LLaMA (Large Language Model Meta AI) ist ein großes Sprachmodell, das Forschern helfen soll, ihre Arbeit in der KI voranzubringen. Kleinere, leistungsfähigere Modelle wie LLaMA sollen es Forschern ermöglichen, Modelle zu untersuchen, auch sie wenn keinen Zugang zu großen Mengen an Infrastruktur haben.
Das Training kleinerer Basismodelle wie LLaMA ist im Bereich der großen Sprachmodelle wünschenswert, weil es weit weniger Rechenleistung und Ressourcen erfordert, um neue Ansätze zu testen, die Arbeit anderer zu validieren und neue Anwendungsfälle zu erforschen. Basismodelle werden auf einem großen Satz unbeschrifteter Daten trainiert, was sie ideal für die Feinabstimmung für eine Vielzahl von Aufgaben macht. Meta stellt LLaMA in verschiedenen Größen (7B, 13B, 33B und 65B Parameter) zur Verfügung. Es gibt auch eine LLaMA-Modellkarte, die detailliert beschreibt, wie das Modell verantwortungsvollen KI-Praktiken genügt. Im letzten Jahr haben große Sprachmodelle wie ChatGPT neue Fähigkeiten gezeigt, um kreative Texte zu erstellen, mathematische Theoreme zu lösen, Proteinstrukturen vorherzusagen, Fragen zum Leseverständnis zu beantworten und vieles mehr. Trotz all der jüngsten Fortschritte bei großen Sprachmodellen bleibt laut Meta der Zugang der Forschung zu diesen Modellen aufgrund der für das Training und die Ausführung solch großer Modelle erforderlichen Ressourcen beschränkt. Dieser eingeschränkte Zugang hat die Forscher daran gehindert, zu verstehen, wie und warum diese großen Sprachmodelle funktionieren, und damit auch die Bemühungen, ihre Robustheit zu verbessern und bekannte Probleme wie Verzerrungen, Toxizität und das Potenzial zur Erzeugung von Fehlinformationen zu entschärfen. Kleinere Modelle, die mit mehr Token – also Wortteilen – trainiert werden, lassen sich leichter neu trainieren und für bestimmte potenzielle Produktanwendungsfälle feinabstimmen. Meta hat LLaMA 65B und LLaMA 33B auf 1,4 Billionen Token trainiert. Für das kleinste Modell LLaMA 7B genügten eine Billion Token. Wie andere große Sprachmodelle nimmt LLaMA eine Folge von Wörtern als Eingabe und sagt ein nächstes Wort voraus, um rekursiv Text zu erzeugen. Zum Trainieren wurden Texte aus den 20 Sprachen mit lateinischem und kyrillischem Alphabet mit den meisten Sprechern ausgewählt. Es muss noch mehr geforscht werden, um die Risiken von Verzerrungen, toxischen Kommentaren und Halluzinationen in großen Sprachmodellen zu beseitigen. Wie andere Modelle auch, steht LLaMA vor diesen Herausforderungen. Als Basismodell ist LLaMA so konzipiert, dass es vielseitig ist und auf viele verschiedene Anwendungsfälle angewendet werden kann, im Gegensatz zu einem fein abgestimmten Modell, das für eine bestimmte Aufgabe entwickelt wurde. Durch die gemeinsame Nutzung des Codes für LLaMA können andere Forscher leichter neue Ansätze zur Begrenzung oder Beseitigung dieser Probleme in großen Sprachmodellen testen. Meta stellt in dem Papier auch eine Reihe von Evaluierungen an Benchmarks zur Verfügung, die Modellverzerrungen und Toxizität bewerten, um die Grenzen des Modells aufzuzeigen und weitere Forschung in diesem wichtigen Bereich zu unterstützen. Um die Integrität des Modells zu wahren und Missbrauch zu verhindern, veröffentlicht Meta es unter einer nicht-kommerziellen Lizenz, die sich auf Anwendungsfälle in der Forschung konzentriert. Der Zugriff auf das Modell wird auf Einzelfallbasis akademischen Forschern, Angehörigen von Organisationen aus Regierung, Zivilgesellschaft und Wissenschaft sowie Forschungslabors aus der Industrie in aller Welt gewährt. Interessierte, die einen Antrag auf Zugang stellen möchten können sich online anmelden. |
Meta LLaMA (Large Language Model Meta AI) is a a large language model designed to help researchers advance their work in AI. Smaller, more powerful models like LLaMA are intended to allow researchers to study models even if they don’t have access to large amounts of infrastructure.
Training smaller baseline models like LLaMA is desirable in the large language model domain because it requires far less computational power and resources to test new approaches, validate the work of others, and explore new use cases. Base models are trained on a large set of unlabeled data, making them ideal for fine-tuning for a variety of tasks. Meta provides LLaMA in a variety of sizes (7B, 13B, 33B, and 65B parameters). There is also an LLaMA model map that details how the model satisfies responsible AI practices. In the past year, large language models like ChatGPT have demonstrated new capabilities to produce creative text, solve mathematical theorems, predict protein structures, answer reading comprehension questions, and more. Despite all the recent advances in large language models, Meta says research access to these models remains limited due to the resources required to train and run such large models. This limited access has prevented researchers from understanding how and why these large language models work, and thus efforts to improve their robustness and mitigate known issues such as bias, toxicity, and the potential to generate misinformation. Smaller models trained with more tokens – parts of speech – are easier to retrain and fine-tune for specific potential product use cases. Meta has trained LLaMA 65B and LLaMA 33B on 1.4 trillion tokens. For the smallest model, LLaMA 7B, one trillion tokens was sufficient. Like other large language models, LLaMA takes a sequence of words as input and predicts a next word to recursively generate text. Texts from the 20 languages with Latin and Cyrillic alphabets with the most speakers were selected for training. More research is needed to eliminate the risks of bias, toxic annotation, and hallucination in large language models. Like other models, LLaMA faces these challenges. As a base model, LLaMA is designed to be versatile and applicable to many different use cases, as opposed to a fine-tuned model developed for a specific task. By sharing the code for LLaMA, other researchers can more easily test new approaches to limiting or eliminating these problems in large language models. Mets also provides in the paper a set of evaluations at benchmarks that assess model biases and toxicity to show the limitations of the model and support further research in this important area. To maintain the integrity of the model and prevent misuse, Meta is releasing it under a non-commercial license focused on research use cases. Access to the model is granted on a case-by-case basis to academic researchers, members of government, civil society, and academic organizations, and industry research laboratories around the world. Those interested in applying for access can apply online. |
Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM.
Dr. Jakob Jung is Editor-in-Chief of Security Storage and Channel Germany. He has been working in IT journalism for more than 20 years. His career includes Computer Reseller News, Heise Resale, Informationweek, Techtarget (storage and data center) and ChannelBiz. He also freelances for numerous IT publications, including Computerwoche, Channelpartner, IT-Business, Storage-Insider and ZDnet. His main topics are channel, storage, security, data center, ERP and CRM.
Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de