NVIDIA unterstützt mit einem Angebot für Entwickler das von Meta eingeführte Large Language Model Meta Llama 3.

NVIDIA announces support for LLM Meta Llama 3 with an offer to developers.

Nachdem gestern Meta Llama 3 als die nächste Generation seines offenen großen Sprachmodells (LLM) vorgestellt hat, gibt es jetzt bereits Unterstützung durch NVIDIA mit beschleunigtem Llama 3, das für NVIDIA-GPUs in Cloud-, Rechenzentrums-, Edge- und PC-Umgebungen optimiert ist.

Entwickler können ab sofort auf Llama 3 unter ai.nvidia.com zugreifen, wo es als NVIDIA NIM Microservice mit einer Standard-API für flexible Bereitstellung angeboten wird. In Deutschland ist Llama 3 allerdings noch nicht verfügbar.

Meta Ingenieure haben Llama 3 auf einem Cluster von 24.576 NVIDIA H100 Tensor Core Grafikprozessoren trainiert, die über ein NVIDIA Quantum-2 InfiniBand Netzwerk miteinander verbunden sind.

NVIDIA engagiert sich für die Optimierung von Community Software für Entwickler. Mit Unterstützung von NVIDIA hat Meta seine Netzwerk-, Software- und Modellarchitekturen für sein Flaggschiff LLM angepasst. Um den Stand der Technik in der generativen KI weiter voranzutreiben, hat Meta kürzlich Pläne zur Skalierung seiner Infrastruktur auf 350.000 H100-Grafikprozessoren (GPUs) bekannt gegeben.

Llama 3 bei der Arbeit

Auf NVIDIA-GPUs beschleunigte Versionen von Llama 3 sind ab sofort für den Einsatz in der Cloud, im Rechenzentrum, an der Peripherie und auf dem PC verfügbar.

Entwickler können Llama 3 im Browser unter ai.nvidia.com testen. Llama ist als NVIDIA NIM Microservice mit einer Standard-Programmierschnittstelle verpackt und kann überall eingesetzt werden.

Unternehmen können Llama 3 an ihre Daten anpassen, indem sie NVIDIA NeMo verwenden, ein Open-Source-Framework für LLMs, das Teil der sicheren, unterstützten NVIDIA AI Enterprise Plattform ist. Benutzerdefinierte Modelle können mit NVIDIA TensorRT-LLM für Inferenz optimiert und mit NVIDIA Triton Inference Server bereitgestellt werden.

Einsatz von Llama 3 auf Geräten und PCs

Llama 3 läuft auch auf NVIDIA Jetson Orin für Robotik- und Edge-Computing-Geräte, um interaktive Agenten wie die im Jetson AI Lab zu erstellen.

Darüber hinaus beschleunigen NVIDIA RTX und GeForce RTX Grafikprozessoren für Workstations und PCs die Inferenz auf Llama 3 und bieten Entwicklern Zugang zu mehr als 100 Millionen NVIDIA-beschleunigten Systemen weltweit.

Optimale Leistung mit Llama 3

Zu den Best Practices bei der Bereitstellung eines LLM für einen Chatbot gehört die Balance zwischen niedriger Latenz, guter Lesegeschwindigkeit und optimaler GPU-Nutzung, um die Kosten zu senken.

Ein solcher Dienst sollte Token – das ungefähre Äquivalent von Wörtern für ein LLM – mit etwa der doppelten Lesegeschwindigkeit eines Benutzers liefern, d.h. etwa 10 Token/Sekunde.

Nach diesen Maßstäben erzeugte ein einzelner NVIDIA H200 Tensor Core Grafikprozessor in einem ersten Test mit einer Version von Llama 3 mit 70 Milliarden Parametern etwa 3.000 Token/Sekunde – genug, um etwa 300 gleichzeitige Benutzer zu bedienen.

Dies bedeutet, dass ein einzelner NVIDIA HGX Server mit acht H200 GPUs 24.000 Token/Sekunde liefern könnte, was die Kosten weiter optimiert, da mehr als 2.400 Benutzer gleichzeitig unterstützt werden.

Bei Edge-Geräten erzeugte die Version Llama 3 mit acht Milliarden Parametern bis zu 40 Token/Sekunde auf dem Jetson AGX Orin und 15 Token/Sekunde auf dem Jetson Orin Nano.

Förderung von Community-Modellen

Als aktiver Unterstützer von Open Source engagiert sich NVIDIA für die Optimierung von Community-Software, die Anwendern bei der Bewältigung ihrer schwierigsten Herausforderungen hilft. Open-Source-Modelle fördern auch die Transparenz von KI und ermöglichen es Anwendern, ihre Arbeit an der Sicherheit und Robustheit von KI auf breiter Basis zu teilen.

Following yesterday’s launch of Meta Llama 3 as the next generation of its open large language model (LLM), NVIDIA is now supporting Meta Llama 3: Llama 3 is optimized for NVIDIA GPUs in cloud, datacenter, edge, and PC environments.

Developers can now access Llama 3 at ai.nvidia.com, where it is available as an NVIDIA NIM microservice with a standard API for flexible deployment. Llama 3 is not yet available in Germany.

Meta engineers have trained Llama 3 on a cluster of 24,576 NVIDIA H100 Tensor Core GPUs connected by an NVIDIA Quantum-2 InfiniBand network.

NVIDIA is committed to enhancing community software for developers. With NVIDIA’s support, Meta has adapted its network, software, and model architectures for its flagship LLM. To further advance the state of the art in generative AI, Meta recently announced plans to scale its infrastructure to 350,000 H100 GPUs.

Llama 3 at work

Accelerated versions of Llama 3 on NVIDIA GPUs are now available for use in the cloud, data center, edge, and on the PC.

Developers can evaluate Llama 3 in the browser at ai.nvidia.com. Llama is packaged as an NVIDIA NIM microservice with a standard programming interface and can be deployed anywhere.

Organizations can customize Llama 3 to their data using NVIDIA NeMo, an open source framework for LLMs that is part of the secure, supported NVIDIA AI Enterprise platform. Custom models can be optimized for inference using NVIDIA TensorRT-LLM and deployed using NVIDIA Triton Inference Server.

Using Llama 3 on Devices and PCs

Llama 3 also runs on NVIDIA Jetson Orin for robotics and edge computing devices to create interactive agents like those in the Jetson AI Lab.

In addition, NVIDIA RTX and GeForce RTX workstation and PC GPUs accelerate inference on Llama 3, giving developers access to more than 100 million NVIDIA-accelerated systems worldwide.

Optimizing performance with Llama 3

Best practices for deploying an LLM for a chatbot include balancing low latency, good read speed, and optimal GPU utilization to reduce costs.

Such a service should deliver tokens – the approximate equivalent of words for an LLM – at about twice the reading speed of a user, or about 10 tokens/second.

By these standards, a single NVIDIA H200 Tensor Core GPU generated about 3,000 tokens/second in an initial test with a 70 billion parameter version of Llama 3 – enough to serve about 300 concurrent users.

This means that a single NVIDIA HGX server with eight H200 GPUs could deliver 24,000 tokens/second, further optimizing costs by supporting more than 2,400 concurrent users.

For edge devices, the Llama 3 version with eight billion parameters generated up to 40 tokens/second on the Jetson AGX Orin and 15 tokens/second on the Jetson Orin Nano.

Promoting Community Models

As an active supporter of open source, NVIDIA is committed to enhancing community software that helps users solve their toughest challenges. Open source models also promote AI transparency and allow users to share their work on AI safety and robustness.

Von Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM. Dr. Jakob Jung is Editor-in-Chief of Security Storage and Channel Germany. He has been working in IT journalism for more than 20 years. His career includes Computer Reseller News, Heise Resale, Informationweek, Techtarget (storage and data center) and ChannelBiz. He also freelances for numerous IT publications, including Computerwoche, Channelpartner, IT-Business, Storage-Insider and ZDnet. His main topics are channel, storage, security, data center, ERP and CRM. Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

WordPress Cookie Hinweis von Real Cookie Banner