AI Poison gefährdet die Glaubwürdigkeit der Künstlichen Intelligenz, so Kevin Bocek, Chief Innovation Officer bei Venafi.

AI Poison threatens the credibility of artificial intelligence, says Kevin Bocek, chief innovation officer at Venafi.

Dummheit und Sabotage bedrohen die künstliche Intelligenz und führen zu falschen Ergebnissen und Halluzinationen. Seit der Veröffentlichung von ChatGPT stellen sich Cybersicherheitsexperten die Frage, wie sie das AI-Poisoning kontrollieren können. Sie gehen zunächst von einem Bedrohungsszenario aus, nämlich dass die Ausgabe der GenAI bereits durch Data Poisoning verfälscht wird. Schon als die ersten Chatbots mit Machine Learning trainiert wurden und dann vorgefertigte Antworten geben sollten, gab es Manipulationen. Ein Beispiel ist Twitter, jetzt X. Bereits 2016 fanden es Nutzer des Kurznachrichtendienstes lustig, den damaligen Chatbot Tay mit rassistischen Inhalten zu füttern. Das Projekt wurde daraufhin innerhalb eines Tages eingestellt. Ähnlich ergeht es im Grunde allen öffentlich zugänglichen GenAI-Modellen. Sie werden über kurz oder lang von trollenden Nutzern mit Desinformationen gefüttert oder dazu aufgefordert. Der Nutzer selbst ist ein Problem, aber es droht Schlimmeres.

Split View und Frontrunning Poisoning in der Praxis

Lange Zeit war dieses Szenario die einzige Bedrohung. Doch das hat sich im vergangenen Jahr geändert. Forschende der ETH Zürich haben in Zusammenarbeit mit Technologiefirmen wie Google und NVIDIA in einer Studie gezeigt, wie AI-Poisoning umgesetzt werden kann. Die Forscher haben zwei Angriffsarten zum Vergiften von Datensätzen vorgestellt. Die Studie zeigt, dass sich mit diesen Angriffen 10 populäre Datensätze wie LAION, FaceScrub und COYO vergiften lassen. Der erste Angriff, Split-View-Poisoning, nutzt die Variabilität von Internetinhalten aus, um sicherzustellen, dass die ursprüngliche Ansicht des Datensatzes durch einen Kommentator von der Ansicht abweicht, die von nachfolgenden Clients heruntergeladen wird.

So zeigten die Forscher, wie sie 0,01 Prozent der LAION-400M- oder COYO-700M-Datensätze mit einem Budget von nur 60 US-Dollar vergiften konnten. Der zweite Angriff, das Frontrunning Poisoning, richtet sich gegen Datensätze im Internet, die in regelmäßigen Abständen Schnappschüsse von crowd-gesourcten Inhalten erstellen. Hier wählten die Forscher WiAIpedia. Die Studie zeigt, dass ein Angreifer nur ein zeitlich begrenztes Fenster benötigt, um bösartige Daten einzuschleusen.

Diese Art von Angriffen entwickelt sich zu einer ernsthaften Bedrohung und wird Auswirkungen auf die Software-Lieferkette haben. Durch gezielte Angriffe auf ein- und ausgehende Datenpipelines können Angreifer Daten manipulieren, um AI-Modelle und die von ihnen erzeugten Ergebnisse zu verfälschen oder sogar zu vergiften. Schon kleine Änderungen am Code eines AI-Modells während des Trainings können gravierende Auswirkungen haben. Jede böswillige Änderung an einem AI-Modell – so unbedeutend sie auch erscheinen mag – wird verstärkt, sobald das Modell in Produktion ist und autonom handelt.

Da AI zunehmend in geschäftskritischen Anwendungen und Diensten eingesetzt wird, ist der Schutz der Integrität dieser Systeme von entscheidender Bedeutung. In Branchen wie der verarbeitenden Industrie und der chemischen Industrie sind AIll Switches in Software und Hardware bereits weit verbreitet. Sie bieten eine sichere Möglichkeit zu verhindern, dass eine gefährliche Situation außer Kontrolle gerät und irreparable Schäden verursacht. Es stellt sich daher die Frage, wie ein AIll Switch für AI wie GenAI aussehen sollte. Wenn eine weit verbreitete GenAI korrumpiert wird, müssen IT-Experten und insbesondere IT-Sicherheitsexperten in der Lage sein, dies zu kontrollieren und mögliche Schäden zu beheben.

Die IT sieht solche Auswirkungen bereits bei zahlreichen Angriffen auf Cloud-Anbieter oder auch auf Drittsoftware wie Solarwinds oder sogar auf Sicherheitssoftware wie Firewalls von Fortinet.

Schlussfolgerung

Eine Lösung für das eingangs beschriebene Problem kann nur ein AIll Switch für AI-Modelle sein. Statt nur einem AIll Switch pro AI-Modell könnte es Tausende von Maschinenidentitäten geben, die an ein Modell gebunden sind und es in jeder Phase schützen – sowohl beim Training als auch in der Produktion. IT-Sicherheitsexperten behalten die Kontrolle, wenn die AI auf Identitäten angewiesen ist. Wird die AI abtrünnig, werden die entsprechenden Identitäten widerrufen. Das heißt, sie kann nicht mehr mit anderen Maschinen interagieren. Sie ist dann vom Rest des Systems isoliert. Wenn ein AI-System von Hackern kompromittiert wird, kann die Aktivierung dieses AIll Switch die Kommunikation mit bestimmten Diensten verhindern oder das System ganz abschalten, um weiteren Schaden zu verhindern und die Bedrohung einzudämmen.

Stupidity and sabotage threaten artificial intelligence, leading to false results and hallucinations. Since the release of ChatGPT, cybersecurity experts have been wondering how to control AI poisoning. They start with the threat scenario that the output of GenAI is already being falsified by data poisoning. Even when the first chatbots were trained with machine learning to give pre-defined answers, there was manipulation. One example is Twitter, now X. In 2016, users of the short messaging service found it funny to feed the chatbot Tay with racist content. The project was shut down within a day. The situation is similar for all publicly available GenAI models. Sooner or later, trolling users will feed them with disinformation or ask them to do so. The users themselves are a problem, but it gets worse.

Split view and frontrunning poisoning in practice

For a long time, this scenario was the only threat. But that changed last year. Researchers at ETH Zurich, in collaboration with technology companies such as Google and NVIDIA, published a study showing how AI poisoning can be implemented. The researchers presented two types of attacks for poisoning datasets. The study shows that these attacks can be used to poison 10 popular datasets such as LAION, FaceScrub, and COYO. The first attack, split-view poisoning, exploits the variability of Internet content to ensure that an annotator’s original view of the dataset differs from the view downloaded by subsequent clients.

For example, the researchers showed how they could poison 0.01 percent of the LAION-400M or COYO-700M datasets with a budget of just $60. The second attack, frontrunning poisoning, targets Internet datasets that take snapshots of crowdsourced content at regular intervals. Here, the researchers chose WiAIpedia. The study shows that an attacker only needs a time-limited window to inject malicious data.

This type of attack is becoming a serious threat and will impact the software supply chain. By targeting inbound and outbound data pipelines, attackers can manipulate data to corrupt or even poison AI models and the results they produce. Even small changes to an AI model’s code during training can have serious consequences. Any malicious change to an AI model – no matter how insignificant it may seem – is magnified once the model is in production and operating autonomously.

As AI is increasingly used in mission-critical applications and services, protecting the integrity of these systems is critical. AIll switches are already widely used in software and hardware in industries such as manufacturing and chemicals. They provide a safe way to prevent a dangerous situation from getting out of control and causing irreparable damage. The question then arises as to what an AIll switch should look like for an AI like GenAI. If a widely used GenAI becomes corrupted, IT experts and especially IT security experts need to be able to control it and repair any potential damage.

IT is already seeing such effects with numerous attacks on cloud providers or even third-party software such as Solarwinds or even security software such as Fortinet firewalls.

Conclusion

A solution to the problem described at the beginning can only be an AIll switch for AI models. Instead of just one AIll switch per AI model, thousands of machine identities could be tied to a model, protecting it at every stage – both in training and in production. IT security professionals remain in control when the AI relies on identities. If the AI goes rogue, the associated identities are revoked. This means it can no longer interact with other machines. It is then isolated from the rest of the system. If an AI system is compromised by hackers, activating this AIll switch can prevent communication with certain services or shut down the system completely to prevent further damage and contain the threat.

Von Jakob Jung

Dr. Jakob Jung ist Chefredakteur Security Storage und Channel Germany. Er ist seit mehr als 20 Jahren im IT-Journalismus tätig. Zu seinen beruflichen Stationen gehören Computer Reseller News, Heise Resale, Informationweek, Techtarget (Storage und Datacenter) sowie ChannelBiz. Darüber hinaus ist er für zahlreiche IT-Publikationen freiberuflich tätig, darunter Computerwoche, Channelpartner, IT-Business, Storage-Insider und ZDnet. Seine Themenschwerpunkte sind Channel, Storage, Security, Datacenter, ERP und CRM. Dr. Jakob Jung is Editor-in-Chief of Security Storage and Channel Germany. He has been working in IT journalism for more than 20 years. His career includes Computer Reseller News, Heise Resale, Informationweek, Techtarget (storage and data center) and ChannelBiz. He also freelances for numerous IT publications, including Computerwoche, Channelpartner, IT-Business, Storage-Insider and ZDnet. His main topics are channel, storage, security, data center, ERP and CRM. Kontakt – Contact via Mail: jakob.jung@security-storage-und-channel-germany.de

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

WordPress Cookie Hinweis von Real Cookie Banner