OpenAI GPT-4o ist die neue Version der GenAI-Software, die wesentlich leistungsfähiger und kostengünstiger ist als die Vorgängerversionen.

OpenAI GPT-4o is the new version of the GenAI software that is significantly more powerful and cost effective than previous versions.

OpenAI GPT-4o („o“ für „omni“) ist ein Schritt in Richtung einer viel natürlicheren Interaktion zwischen Mensch und Computer – es akzeptiert jede Kombination von Text, Audio und Bild als Eingabe und erzeugt jede Kombination von Text, Audio und Bild als Ausgabe. Es kann auf Audioeingaben in nur 232 Millisekunden reagieren, mit einem Durchschnitt von 320 Millisekunden, was der menschlichen Reaktionszeit in einem Gespräch entspricht. Es erreicht die Leistung von GPT-4 Turbo bei englischem Text und Code, mit einer deutlichen Verbesserung bei Texten in nicht-englischen Sprachen, und ist gleichzeitig viel schneller und 50% billiger in der API. GPT-4o ist den bestehenden Modellen vor allem im visuellen und akustischen Verständnis überlegen.

Vor GPT-4o konnte man mit ChatGPT im Sprachmodus mit einer durchschnittlichen Latenz von 2,8 Sekunden (GPT-3.5) und 5,4 Sekunden (GPT-4) sprechen. Um dies zu erreichen, besteht der Sprachmodus aus einer Pipeline von drei separaten Modellen: Ein einfaches Modell transkribiert Audio in Text, GPT-3.5 oder GPT-4 nimmt Text und gibt ihn aus, und ein drittes einfaches Modell wandelt diesen Text wieder in Audio zurück. Dieser Prozess bedeutet, dass die Hauptquelle der Intelligenz, GPT-4, viele Informationen verliert – es kann nicht direkt die Tonhöhe, mehrere Sprecher oder Hintergrundgeräusche beobachten und es kann kein Lachen, Singen oder den Ausdruck von Gefühlen ausgeben.

GPT-4o trainiert ein einziges neues Modell für Text, Bild und Ton, d.h. alle Ein- und Ausgaben werden vom selben neuronalen Netz verarbeitet. Da GPT-4o das erste Modell ist, das alle diese Modalitäten kombiniert, kratzt OpenAI nur an der Oberfläche dessen, was das Modell leisten kann und wo seine Grenzen liegen.

GPT-4o verfügt über multimodale Sicherheit, die durch Techniken wie die Filterung von Trainingsdaten und die Verfeinerung des Modellverhaltens durch Post-Training erreicht wird. OpenAI hat auch neue Sicherheitssysteme entwickelt, um Leitplanken für die Sprachausgabe zu schaffen.

OpenAI evaluierte GPT-4o in Übereinstimmung mit seinem Preparedness Framework und seinen freiwilligen Verpflichtungen. Die Bewertungen in den Bereichen Cybersicherheit, CBRN, Überzeugungsarbeit und Modellautonomie zeigen, dass GPT-4o in keiner dieser Kategorien ein höheres als mittleres Risiko aufweist. Diese Bewertung umfasste eine Reihe von automatischen und menschlichen Bewertungen während des gesamten Modelltrainings. OpenAI testete sowohl die Pre- als auch die Post-Version des Modells mit benutzerdefinierten Einstellungen und Eingabeaufforderungen, um die Fähigkeiten des Modells besser zu verstehen.

GPT-4o wurde außerdem einem umfangreichen externen Red-Teaming mit über 70 externen Experten in Bereichen wie Sozialpsychologie, Voreingenommenheit und Fairness sowie Fehlinformation unterzogen, um Risiken zu identifizieren, die durch die neu hinzugefügten Modalitäten eingeführt oder verstärkt wurden. OpenAI hat diese Erkenntnisse zur Verbesserung der Sicherheitsmaßnahmen genutzt, um die Sicherheit der Interaktion mit GPT-4o zu erhöhen. OpenAI wird auch weiterhin neue Risiken entschärfen, sobald sie entdeckt werden.

OpenAI hat erkannt, dass die Audiomodalitäten von GPT-4o eine Reihe neuer Risiken darstellen. Heute gibt das Unternehmen Text- und Bildeingabe sowie Textausgabe frei. In den kommenden Wochen und Monaten wird OpenAI an der technischen Infrastruktur, der Benutzerfreundlichkeit durch Nachschulung und der Sicherheit arbeiten, um die anderen Modalitäten freizugeben.

Beispielsweise wird die Audioausgabe beim Start auf eine Auswahl vordefinierter Stimmen beschränkt sein, und OpenAI wird seine bestehenden Sicherheitsrichtlinien einhalten. OpenAI wird weitere Einzelheiten über die gesamte Bandbreite der GPT-4o-Modalitäten in der kommenden Systemkarte bekannt geben.

Verfügbarkeit des Modells

GPT-4o ist der jüngste Schritt, die Grenzen des Deep Learning zu erweitern, diesmal in Richtung praktischer Anwendbarkeit. OpenAI hat die letzten zwei Jahre damit verbracht, die Effizienz auf jeder Ebene des Stacks zu verbessern. Als ein erstes Ergebnis dieser Forschung ist OpenAI in der Lage, ein Modell auf GPT-4-Niveau einer breiteren Öffentlichkeit zugänglich zu machen. Die Fähigkeiten von GPT-4o werden schrittweise eingeführt (beginnend heute mit einem erweiterten Zugang für Red Teams).

Die Text- und Bildfunktionen von GPT-4o sind ab heute in ChatGPT verfügbar. OpenAI stellt GPT-4o in der kostenlosen Version und für Plus-Benutzer mit bis zu 5x höheren Nachrichtenlimits zur Verfügung. OpenAI wird in den kommenden Wochen eine neue Version des Sprachmodus mit GPT-4o in der Alpha-Version von ChatGPT Plus einführen.

Entwickler können nun auch auf GPT-4o in der API als Text- und Bildmodell zugreifen. GPT-4o ist 2x schneller, halb so teuer und hat 5x höhere Ratenlimits im Vergleich zu GPT-4 Turbo. OpenAI plant, die Unterstützung für die neuen Audio- und Videofunktionen von GPT-4o in der API in den kommenden Wochen für eine kleine Gruppe vertrauenswürdiger Partner freizugeben.

OpenAI GPT-4o („o“ for „omni“) is a step toward much more natural human-computer interaction-it accepts any combination of text, audio, and images as input and produces any combination of text, audio, and image outputs. It can respond to audio input in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time in conversation. It matches GPT-4 Turbo’s performance on English text and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is particularly superior to existing models for visual and audio comprehension.

Prior to GPT-4o, you could talk to ChatGPT using Voice Mode with latencies averaging 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4). To achieve this, Voice Mode is a pipeline of three separate models: a simple model transcribes audio to text, GPT-3.5 or GPT-4 takes text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information-it can’t directly observe pitch, multiple speakers, or background noise, and it can’t output laughter, singing, or expressions of emotion.

GPT-4o trains a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is the first model to combine all of these modalities, OpenAI is just scratching the surface of what the model can do and its limitations.

GPT-4o has safety built in across modalities by design, through techniques such as filtering training data and refining model behavior through post-training. OpenAI has also developed new safety systems to provide guardrails for speech output.

OpenAI evaluated GPT-4o in accordance with its Preparedness Framework and in line with its Voluntary Commitments. The cybersecurity, CBRN, persuasion, and model autonomy assessments show that GPT-4o does not exceed medium risk in any of these categories. This assessment included a series of automated and human evaluations throughout the model training process. OpenAI tested both pre- and post-mitigation versions of the model, using custom tuning and prompts to better elicit the model’s capabilities.

GPT-4o also underwent extensive external red teaming with more than 70 external experts in areas such as social psychology, bias and fairness, and misinformation to identify risks introduced or amplified by the newly added modalities. OpenAI used these insights to enhance security measures to improve the safety of interacting with GPT-4o. OpenAI will continue to mitigate new risks as they are discovered.

OpenAI recognizes that GPT-4o’s audio modalities present a variety of new risks. Today, the company releases text and image inputs and text outputs. In the coming weeks and months, OpenAI will work on the technical infrastructure, usability via post-training, and security needed to release the other modalities. For example, at launch, audio output will be limited to a selection of preset voices, and OpenAI will adhere to its existing security policies. OpenAI will provide further details on the full range of GPT-4o modalities in the forthcoming system map.

Model Availability

GPT-4o is the latest step in pushing the boundaries of deep learning, this time towards practical usability. OpenAI has spent the last two years working on efficiency improvements at every layer of the stack. As a first result of this research, OpenAI is able to make a GPT-4 level model much more widely available. GPT-4o’s capabilities are being rolled out iteratively (with extended red team access starting today).

GPT-4o’s text and image capabilities will be rolled out in ChatGPT starting today. OpenAI is making GPT-4o available in the free tier and to Plus users with up to 5x higher message limits. OpenAI will roll out a new version of Voice Mode with GPT-4o in alpha within ChatGPT Plus in the coming weeks.

Developers can now also access GPT-4o in the API as a text and vision model. GPT-4o is 2x faster, half the price, and has 5x higher rate limits compared to GPT-4 Turbo. OpenAI plans to release support for GPT-4o’s new audio and video capabilities in the API to a small group of trusted partners in the coming weeks.

Von Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM. Dr. Jakob Jung is Editor-in-Chief of Security Storage and Channel Germany. He has been working in IT journalism for more than 20 years. His career includes Computer Reseller News, Heise Resale, Informationweek, Techtarget (storage and data center) and ChannelBiz. He also freelances for numerous IT publications, including Computerwoche, Channelpartner, IT-Business, Storage-Insider and ZDnet. His main topics are channel, storage, security, data center, ERP and CRM. Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

WordPress Cookie Hinweis von Real Cookie Banner