Im Kontext der Datensicherheit sind Large Language Models (LLMs) laut VAST DATA wie Menschen zu betrachten. According to VAST DATA, Large Language Models (LLMs) should be treated like people in regard to data security.
VAST DATA sieht Handlungsbedarf bei der Datensicherheit für Large Language Models (LLMs): Angesichts der rasanten Entwicklung der KI wird immer deutlicher, dass die derzeit geltenden grundlegenden Leitplanken, Plausibilitätsprüfungen und Prompt-basierten Sicherheitsmaßnahmen durchlässig und unzureichend sind. Bei der Entwicklung von Strategien zur Verbesserung der Datensicherheit in KI-Workloads ist es entscheidend, die Perspektive zu wechseln und KI als eine Person zu betrachten, die für Social-Engineering-Angriffe anfällig ist. Diese Analogie kann Unternehmen helfen, die Schwachstellen und Bedrohungen, denen KI-Systeme ausgesetzt sind, besser zu verstehen und robustere Sicherheitsmaßnahmen zu entwickeln.

Moderne generative KI-Workflows verändern die Art und Weise, wie Daten gespeichert und abgerufen werden, grundlegend. Im Gegensatz zur herkömmlichen Datenspeicherung, bei der Metadaten und Zugriffskontrollen eng mit den Daten verknüpft bleiben, fragmentiert und verteilt die KI-Pipeline die Daten auf mehrere Komponenten: das Sprachmodell selbst, Eingabeaufforderungen, eingebettete Datenbanken, Vektorspeicher und generierte Ausgaben.

Diese architektonische Verschiebung bedeutet, dass traditionelle Sicherheitskontrollen wie Active Directory-Gruppen und Access Control Lists (ACLs) unwirksam werden. Dies liegt daran, dass diese Kontrollen nicht durch den KI-Transformationsprozess weitergegeben werden. Ein neues Sicherheitsparadigma ist erforderlich, um Daten in diesem verteilten KI-Ökosystem zu schützen.

Die Sicherheitsherausforderung generativer KI

Chatbots, die auf Large Language Models (LLMs) basieren, sind so konzipiert, dass sie den Benutzern helfen. Dies macht LLMs jedoch anfällig für Tricks und Lügen, die zur Offenlegung sensibler Informationen oder zur Umgehung von Sicherheitskontrollen führen können. Social Engineering KI hat sich als neuer und besorgniserregender Angriffsvektor erwiesen. Im Gegensatz zu herkömmlichen Bedrohungen können KI-Systeme durch sorgfältig gestaltete Eingabeaufforderungen ausgenutzt werden, um Zugang zu geschützten Daten zu erhalten oder diese offenzulegen.

Die Sicherheitsherausforderungen im Zusammenhang mit generativer KI sind vielfältig und komplex. Im Grunde sind diese Systeme nicht von Natur aus sicher, da die Modelle selbst versehentlich sensible Trainingsdaten speichern und offenlegen können. Dieses Risiko wird noch dadurch verschärft, dass herkömmliche Sicherheitsmaßnahmen und Zugangskontrollen, auf die sich Unternehmen verlassen, nicht ohne Weiteres auf KI-Interaktionen anwendbar sind.

Besonders besorgniserregend ist das Aufkommen von Prompt-Injection-Angriffen, bei denen sorgfältig gestaltete Eingaben KI-Systeme so manipulieren können, dass sie geschützte Informationen preisgeben. Bestehende Sicherheitsinstrumente und -rahmen wurden nicht mit Blick auf KI-spezifische Schwachstellen entwickelt, wodurch gefährliche Lücken in unserer Verteidigung entstehen. Da sich die Einführung von KI beschleunigt, benötigen Unternehmen dringend neue Ansätze und Rahmenbedingungen für die Bewertung und das Management dieser einzigartigen Sicherheitsrisiken.

Obwohl Sicherheitsexperten versucht haben, Prompt-basierte Sicherheitsmaßnahmen zu implementieren, haben sich diese Lösungen als unzureichend erwiesen. Zu den gängigen Ansätzen gehören das Hinzufügen von Sicherheitsanweisungen zu Systemaufforderungen, die Implementierung von Schlüsselwortfiltern und Ausgabescans sowie die Verwendung von Eingabeaufforderungsmustern und Validierung. Auch die Überwachung auf verdächtige Interaktionsmuster sowie Ratenbegrenzungen und Zugriffskontrollen sind weit verbreitet.

Diese Maßnahmen können jedoch häufig durch kreative Gestaltung von Eingabeaufforderungen, Kontextmanipulation oder Ausnutzung der Neigung von KI, hilfreich zu sein, umgangen werden. So gibt es bereits einige Beispiele dafür, wie Menschen die Prompt-basierten Sicherheitsmaßnahmen von ChatGPT umgehen. Dies ist ein Problem, das alle generativen KI-Workloads betrifft, wobei ChatGPT derzeit das beliebteste und größte Ziel ist. Daher sind robustere, systematischere Ansätze für die Sicherheit von KI erforderlich, die KI-Systeme mit der gleichen Sicherheitsstrenge behandeln wie menschliche Benutzer.

Ansätze und Beispielszenarien

Wenn es um den Schutz von Daten in generativen KI-Workloads geht, müssen wir uns auf eine grundlegende Wahrheit besinnen: Der einzige garantierte Weg, Daten vor KI-Systemen zu schützen, ist derselbe Ansatz, mit dem Daten vor Menschen geschützt werden. So wie Unternehmen den Zugang von Menschen zu sensiblen Informationen durch robuste Authentifizierungs- und Autorisierungsmechanismen sorgfältig kontrollieren, müssen sie nun die gleichen Schutzmaßnahmen auf KI-Systeme anwenden, die mit ihren Daten interagieren. Dies bedeutet, dass sichergestellt werden muss, dass die Nutzer gemäß den Zero-Trust-Prinzipien über die entsprechenden Zugriffsrechte auf die Daten verfügen. Außerdem müssen Sicherheitskontrollen auf den Ebenen LLM, Einbettung, Vektorspeicher und Datenbank implementiert und alle Datenzugriffe protokolliert und überprüft werden.

Selbst wenn Unternehmen ein Allzweck-LLM verwenden, können die Daten, mit denen es interagiert, sensibel sein und den gleichen Schutz erfordern. Die folgenden fiktiven Beispiele veranschaulichen die Notwendigkeit von Sicherheitskontrollen auf jeder Ebene der KI-Pipeline: Ein Sicherheitsingenieur hat möglicherweise Zugriff auf ein LLM, das auf Sicherheitsdaten zugeschnitten ist, und die generative KI-RAG-Pipeline hat Zugriff auf weitere Daten. Auf jeder Ebene müssen Sicherheitskontrollen angewendet werden. Ein Marketingmanager wiederum hat Zugriff auf ein LLM, das auf Marketingdaten zugeschnitten ist, und die generative KI-RAG-Pipeline hat Zugriff auf weitere Daten. Auch in diesem Fall müssen die Sicherheitskontrollen auf jeder Ebene angewendet werden. Diese Personen können gleichzeitig Zugriff auf zusätzliche Informationen wie Personalrichtlinien, Verfahren und andere Unternehmensdaten haben, was die Lösung nicht einfacher macht.

Fazit von VAST Data: Umfassende Sicherheit für generative KI-Workloads

Die aktuellen Entwicklungen erfordern Lösungen, die umfassende Sicherheit für Generative AI-Workloads im ExaScale-Maßstab bieten, um das Problem der Datenverbreitung und die damit verbundenen Sicherheitsrisiken der Datenspeicherung an mehreren Standorten zu lösen. Ideal ist eine zentrale Instanz für die Verwaltung komplexer, mehrschichtiger Dateiauthentifizierungen. Durch die Kombination von sicheren Datenpipelines mit robusten Audit-Funktionen gewährleistet eine solche Instanz Echtzeittransparenz über Zugriffs- und Betriebsereignisse. Dieser doppelte Fokus auf Sicherheit und Verantwortlichkeit macht die InsightEngine zu einem Eckpfeiler für KI-gesteuerte Prozesse und erfüllt die Anforderungen moderner KI-Ökosysteme mit einem hohen Maß an Präzision, Skalierbarkeit und Compliance.

VAST DATA sees a need for action when it comes to data security for large language models (LLMs): With the rapid evolution of AI, it is becoming increasingly clear that the basic guardrails, plausibility checks, and prompt-based security measures currently in place are porous and inadequate. When developing strategies to improve data security in AI workloads, it is critical to shift perspective and view AI as a person vulnerable to social engineering attacks. This analogy can help organizations better understand the vulnerabilities and threats facing AI systems, and develop more robust security measures.

Modern generative AI workflows are fundamentally changing the way data is stored and retrieved. Unlike traditional data storage, where metadata and access controls remain tightly bound to the data, the AI pipeline fragments and distributes data across multiple components: the language model itself, input prompts, embedded databases, vector storage, and generated output.

This architectural shift means that traditional security controls such as Active Directory groups and Access Control Lists (ACLs) become ineffective. This is because these controls are not propagated through the AI transformation process. A new security paradigm is required to protect data in this distributed AI ecosystem.

The Security Challenge of Generative AI

Chatbots based on Large Language Models (LLMs) are designed to help users. However, this makes LLMs vulnerable to tricks and lies that can lead to the disclosure of sensitive information or the bypassing of security controls. Social engineering AI has emerged as a new and worrisome attack vector. Unlike traditional threats, AI systems can be exploited through carefully crafted prompts to gain access to or disclose protected data.

The security challenges associated with generative AI are many and complex. Fundamentally, these systems are not inherently secure because the models themselves can inadvertently store and expose sensitive training data. This risk is exacerbated by the fact that traditional security measures and access controls that organizations rely on are not readily applicable to AI interactions.

Of particular concern is the emergence of prompt injection attacks, where carefully crafted inputs can manipulate AI systems to reveal proprietary information. Existing security tools and frameworks were not designed with AI-specific vulnerabilities in mind, creating dangerous gaps in our defenses. As AI adoption accelerates, organizations urgently need new approaches and frameworks to assess and manage these unique security risks.

While security experts have attempted to implement prompt-based security measures, these solutions have proven inadequate. Common approaches include adding security statements to system prompts, implementing keyword filtering and output scanning, and using prompt patterns and validation. Monitoring for suspicious interaction patterns, rate limiting, and access controls are also widely used.

However, these measures can often be circumvented by creative prompt design, context manipulation, or by exploiting AI’s tendency to be helpful. For example, there are already several examples of humans bypassing ChatGPT’s prompt-based security measures. This is a problem that affects all generative AI workloads, with ChatGPT currently being the most popular and largest target. Therefore, more robust, systematic approaches to AI security are needed that treat AI systems with the same security rigor as human users.

Approaches and Sample Scenarios

When it comes to protecting data in generative AI workloads, we must remember a fundamental truth: The only guaranteed way to protect data from AI systems is the same approach used to protect data from humans. Just as organizations carefully control human access to sensitive information through robust authentication and authorization mechanisms, they must now apply the same safeguards to AI systems interacting with their data. This means ensuring that users have the appropriate access rights to the data in accordance with zero-trust principles. In addition, security controls must be implemented at the LLM, embedding, vector storage, and database levels, and all data access must be logged and audited.

Even when organizations use a general-purpose LLM, the data it interacts with may be sensitive and require the same level of protection. The following fictional examples illustrate the need for security controls at every level of the AI pipeline: A security engineer may have access to an LLM tailored to security data, and the generative AI RAG pipeline has access to additional data. Security controls must be applied at each level. A marketing manager, on the other hand, has access to an LLM tailored to marketing data, and the generative AI RAG pipeline has access to additional data. Again, security controls must be applied at each level. These individuals may also have access to additional information such as HR policies, procedures, and other corporate data, which doesn’t make the solution any easier.

Conclusion from VAST Data: Comprehensive Security for Generative AI Workloads

Current developments require solutions that provide comprehensive security for Generative AI workloads at ExaScale to address the problem of data proliferation and the associated security risks of storing data in multiple locations. A centralized instance to manage complex, multi-layered file authentication is ideal. By combining secure data pipelines with robust audit capabilities, such an instance provides real-time visibility into access and operational events. This dual focus on security and accountability makes InsightEngine a cornerstone for AI-driven processes, meeting the needs of modern AI ecosystems with high levels of accuracy, scalability, and compliance.

Von Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM. Dr. Jakob Jung is Editor-in-Chief of Security Storage and Channel Germany. He has been working in IT journalism for more than 20 years. His career includes Computer Reseller News, Heise Resale, Informationweek, Techtarget (storage and data center) and ChannelBiz. He also freelances for numerous IT publications, including Computerwoche, Channelpartner, IT-Business, Storage-Insider and ZDnet. His main topics are channel, storage, security, data center, ERP and CRM. Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

WordPress Cookie Hinweis von Real Cookie Banner