Alibaba Cloud bietet seine AI-Modelle T2V-14B, T2V-1.3B, I2V-14B-720P und I2V-14B-480P als Open Source für die Videoproduktion an. Alibaba Cloud open-sources its T2V-14B, T2V-1.3B, I2V-14B-720P, and I2V-14B-480P AI models for video generation.
Das Cloud-Computing-Unternehmen Alibaba Cloud stellt vier Modelle seiner 14-Milliarden-(B)- und 1,3-Milliarden-(B)-Versionen der Wan2.1-Serie, der neuesten Iteration seines Tongyi Wanxiang (Wan)-Videofundamentmodells, als Open Source zur Verfügung. Wie bei allen KI-Videogeneratoren sind damit nur Clips  von wenigen Sekunden Dauer möglich.

Die vier Modelle T2V-14B, T2V-1.3B, I2V-14B-720P und I2V-14B-480P wurden entwickelt, um qualitativ hochwertige Bilder und Videos aus Text- und Bildeingaben zu erzeugen. Sie können von der chinesischen KI-Modell-Community Model Scope von Alibaba Cloud und der englischsprachigen kollaborativen KI-Plattform Hugging Face heruntergeladen werden, die Akademikern, Forschern und kommerziellen Einrichtungen weltweit zur Verfügung steht.

Alibaba engagiert sich für Open Source, weil es sich zum Ziel gesetzt hat, den „Kleinen“ (kleinen Unternehmen, Unternehmern, allen, die eine Idee haben) Chancengleichheit zu bieten, indem es ihnen hilft, Innovationen und Technologien zu nutzen, um in der Wirtschaft zu wachsen und effektiver zu konkurrieren. Durch ihr Engagement für Open Source will das Unternehmen Folgendes fördern:

  • Demokratisierung der künstlichen Intelligenz: Open Source senkt die Eintrittsbarriere und ermöglicht es Start-ups, kleinen Unternehmen, Forschern und unternehmerischen Entwicklern mit begrenzten Ressourcen, Zugang zu Spitzentechnologie zu erhalten und ihre eigenen Modelle kostengünstiger zu entwickeln.
  • Beschleunigung der wissenschaftlichen Forschung: Open Source beschleunigt wissenschaftliche Durchbrüche, indem es Forschern ermöglicht, zu experimentieren, Ergebnisse zu validieren und zu Verbesserungen beizutragen.
  • Transparenz und Vertrauen: Open Source ermöglicht es Forschern und Entwicklern, den Code und die Trainingsdaten einzusehen, wodurch der „Black Box“-Charakter geschlossener Modelle verringert wird.
  • Innovation und Zusammenarbeit: Open Source fördert die Innovation, indem es der weltweiten Entwicklergemeinschaft ermöglicht, bestehende Modelle zu verbessern und zu erweitern. Es fördert auch ein wettbewerbsfähigeres und vielfältigeres KI-Ökosystem.

Die Anfang des Jahres eingeführte Wan2.1-Serie ist das erste Modell zur Videogenerierung, das Texteffekte in Chinesisch und Englisch unterstützt. Sie erzeugt realistische Bilder, indem sie komplexe Bewegungen präzise verarbeitet, die Pixelqualität verbessert, physikalische Prinzipien berücksichtigt und die Genauigkeit der Befehlsausführung optimiert. Die Genauigkeit, mit der Wan2.1 Anweisungen befolgt, hat es an die Spitze der VBench-Rangliste katapultiert, einer umfassenden Benchmark-Suite für Videogenerierungsmodelle. Es ist auch das einzige Open-Source-Videogenerierungsmodell unter den ersten fünf im VBench Hugging Face Leaderboard.

Laut VBench ist die Wan2.1-Serie mit einer Gesamtpunktzahl von 86,22% führend in wichtigen Dimensionen wie Dynamik, räumliche Beziehungen, Farbe und Interaktion zwischen mehreren Objekten.

Das Training von Video-Basismodellen erfordert immense Rechenressourcen und große Mengen an qualitativ hochwertigen Trainingsdaten. Der offene Zugang trägt dazu bei, die Hürde für den Einsatz von KI für mehr Unternehmen zu senken und sie in die Lage zu versetzen, kostengünstig hochwertige, auf ihre Bedürfnisse zugeschnittene visuelle Inhalte zu erstellen.

Das Modell T2V-14B eignet sich besser für die Erzeugung qualitativ hochwertiger Bilder mit hoher Bewegungsdynamik. Das Modell T2V-1.3B hingegen bietet ein ausgewogenes Verhältnis zwischen Generierungsqualität und Rechenleistung und ist daher ideal für ein breites Spektrum von Entwicklern, die sich mit sekundärer Entwicklung und akademischer Forschung befassen. Mit dem Modell T2V-1.3B können Benutzer mit Standard-Laptops beispielsweise ein 5-Sekunden-Video mit 480p-Auflösung in etwa 4 Minuten erzeugen.

Die Modelle I2V-14B-720P und I2V-14B-480P unterstützen die Generierung von Text in Videos und bieten Bild-zu-Video-Funktionen. Um dynamische Videoinhalte zu generieren, geben die Benutzer einfach ein einzelnes Bild zusammen mit einer kurzen Textbeschreibung ein. Die Plattform unterstützt die Eingabe von Bildern in normaler und beliebiger Größe.

Alibaba Cloud war eines der ersten großen globalen Technologieunternehmen, das sein selbst entwickeltes KI-Großmodell als Open Source zur Verfügung stellte und im August 2023 sein erstes offenes Modell, Qwen (Qwen-7B), veröffentlichte. Die offenen Modelle von Qwen belegen stets Spitzenplätze in den HuggingFace Open LLM Leaderboards und erreichen in verschiedenen Benchmarks die gleiche Leistung wie die weltweit führenden KI-Modelle.

Bis heute wurden mehr als 100.000 abgeleitete Modelle auf Basis der Qwen-Modellfamilie auf Hugging Face entwickelt, was sie zu einer der bekanntesten KI-Modellfamilien weltweit macht.

Cloud computing company Alibaba Cloud is open sourcing four models of its 14-billion(B)-parameter and 1.3-billion(B)-parameter versions of the Wan2.1 series, the latest iteration of its Tongyi Wanxiang (Wan) video foundation model.

The four models, including T2V-14B, T2V-1.3B, I2V-14B-720P, and I2V-14B-480P, are designed to generate high-quality images and videos from text and image inputs. They are available for download on Alibaba Cloud’s AI model community, Model Scope, and the Hugging Face collaborative AI platform, which is accessible to academics, researchers, and commercial institutions worldwide.

Alibaba champions open source because the mission is to level the playing field for the little guys (small businesses, entrepreneurs, anyone with an idea) by helping them leverage innovation and technology to grow and compete more effectively in the economy. Through commitment to open source, it aims to promote:

  • Democratization of AI: Open source reduces the barrier to entry, allowing resource-constrained startups, small businesses, researchers, and entrepreneurial developers to access cutting-edge technology and build their own models more cost-effectively.
  • Advancing Scientific Research: Open source accelerates scientific breakthroughs by enabling researchers to experiment, validate findings, and contribute improvements.
  • Transparency and Trust: Open source allows researchers and developers to inspect code and training data, reducing the “black box” nature of close models.
  • Innovation and Collaboration: Open source promotes innovation by enabling the global developer community to improve and build on existing models. It also fosters a more competitive and diverse AI ecosystem.

Launched earlier this year, the Wan2.1 series is the first video generation model to support text effects in both Chinese and English. It produces realistic visuals by accurately handling complex movements, improving pixel quality, adhering to physical principles, and optimizing the precision of instruction execution. Wan2.1’s precision in following instructions has propelled it to the top of the VBench leaderboard, a comprehensive benchmark suite for video generation models. It is also the only open source video generation model in the top five on the VBench Hugging Face Leaderboard.

According to VBench, with an overall score of 86.22%, the Wan2.1 series leads in key dimensions such as dynamics, spatial relationships, color, and multi-object interactions.

Training video foundation models requires immense computational resources and vast amounts of high-quality training data. Open access helps lower the barrier for more organizations to use AI, enabling them to cost-effectively create high-quality visual content tailored to their needs.

The T2V-14B model is better suited for creating high-quality visuals with significant motion dynamics. The T2V-1.3B model, on the other hand, balances generation quality and computing power, making it ideal for a wide range of developers doing secondary development and academic research. For example, the T2V-1.3B model allows users with standard personal laptops to generate a 5-second video at 480p resolution in about 4 minutes.

The I2V-14B-720P and I2V-14B-480P models support text-to-video generation and provide image-to-video capabilities. To generate dynamic video content, users simply input a single image along with a short text description. The platform supports normal-sized image input of any dimension.

Alibaba Cloud was one of the first major global technology companies to open source its self-developed large-scale AI model, releasing its first open model, Qwen (Qwen-7B), in August 2023. Qwen’s open models have consistently topped the HuggingFace Open LLM Leaderboards, with performance on par with leading global AI models in various benchmarks.

To date, more than 100,000 derivative models based on the Qwen model family have been developed on Hugging Face, making it one of the most prominent AI model families in the world.

Der neue Senior Director Partner Sales bei NetApp, Henning Rahe, erklärt im SSCG-Podcast mit Carolina Heyder, wie das Mittelstandsgeschäft gemeinsam mit Partnern gestärkt werden soll. NetApp’s new Senior Director Partner Sales, Henning Rahe, explains in the SSCG Podcast with Carolina Heyder how the company plans to strengthen its midmarket business with partners.

Von Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM. Dr. Jakob Jung is Editor-in-Chief of Security Storage and Channel Germany. He has been working in IT journalism for more than 20 years. His career includes Computer Reseller News, Heise Resale, Informationweek, Techtarget (storage and data center) and ChannelBiz. He also freelances for numerous IT publications, including Computerwoche, Channelpartner, IT-Business, Storage-Insider and ZDnet. His main topics are channel, storage, security, data center, ERP and CRM. Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert