Künstliche Intelligenz, eine Herausforderung für die Sicherheit von Unternehmen
©iStockphotoDatenschutz und Cyber-Security haben durch die Innovationen im Bereich der Künstlichen Intelligenz eine neue Dynamik bekommen. Stephan Preining, Manager Security Solutions IBM für die DACH-Region, über die neuen Herausforderungen für den Datenschutz in Unternehmen.
Wenn man an Cyber-Security denkt, dann üblicherweise an Bedrohungen wie Viren, Hacker, Phishing oder Ransomware-Attacken. Inwiefern hat das Thema hat durch die Fortschritte im Feld der Künstlichen Intelligenz eine neue Dynamik und Komponente bekommen?
Über die letzten Jahre war das Thema tatsächlich relativ stabil. Sowohl hinsichtlich der Faktoren, die berücksichtigt werden mussten, als auch der anfallenden Kosten. Phishing und Insider-Threats waren Probleme, aber auch da gab es nicht rasend viel Bewegung. Durch den ChatGPT-Hype, in dessen Zug alle auf den Zug von Generative AI aufspringen, hat sich da doch einiges verändert.
Worüber sollten sich Unternehmer, Geschäftsführer in diesem Zusammenhang Gedanken machen?
Bei Generative AI-Lösungen wird eine Software so trainiert, dass sie selbst Inhalte erstellen kann, die von Menschen generierten Inhalten kaum mehr unterschieden werden kann. Angreifer können zum Beispiel mit Generative AI viel ausgefeiltere Phishing-Mails produzieren als bisher. Ich erwarte, dass dadurch das Thema Phishing noch schwieriger wird. Lange Zeit konnte man Phishing-Mails ja relativ leicht erkennen, alleine aufgrund der vielen Rechtschreibfehler. Mit Generative AI werden diese Mails viel schwieriger von echten zu unterscheiden sein. Und vor allem kann auch die Schlagzahl erhöht werden, mit denen solche Phishing-Mails produziert und verschickt werden. Auch Schadsoftware kann mit Hilfe von Künstlicher Intelligenz weiterentwickelt werden. Die Angreifer werden also durch die neuen AI-Möglichkeiten hochgerüstet.
Die Künstliche Intelligenz kann doch aber auch genutzt werden, um Attacken zu erkennen und zu verhindern?
Ja. Die Angreifer werden schneller, aber wir rüsten auch unsere Werkzeuge hoch. Es gab in den letzten Jahren schon den Ansatz, Machine Learning zu nutzen, um Security-Vorfälle möglichst automatisiert zu erkennen. Es wurden dazu in großem Stil Daten gesammelt. Mittlerweile ist das schon so weit, dass ganze Cases aufbereitet sind, Schadsoftware automatisiert analysiert wird und den Security-Beauftragten werden Aktionen vorgeschlagen. Zum Teil werden solche Maßnahmen dann sogar automatisiert durchgeführt. In den neuen IBM-Lösungen ist das bereits integriert.
Im nächsten Schritt setzen wir verstärkt auf Generative AI – es ist zum Beispiel immer ein enormer Aufwand, zu einem Security-Vorfall einen Bericht zu erstellen. Berichte für Compliance-Prüfungen oder Reports, die an das Management kommuniziert werden, werden in Zukunft von KI erstellt.
Das alte Räuber-und-Gendarm-Spiel geht damit in die nächste Runde.
Ja, aber der Wettlauf hat sich jetzt deutlich verschärft.
Ist das in Unternehmen bewusst?
Das scheint nicht immer der Fall zu sein. Die Unternehmen setzen im Moment stark auf Generative AI. Jeder beginnt damit herumzuspielen, macht die ersten Gehversuche. Wir haben erst vor kurzem wieder eine Studie zum Thema Cyber-Security und Generative AI gemacht. Es hat sich gezeigt, dass 69 Prozent der Führungskräfte die Innovation durch den Einsatz von ChatGPT als wichtiger erachten als die Security. Sie laufen also einmal los und vernachlässigen die Security dabei ein wenig. Da ist schon ein bisschen erschreckend.
Das ist aber kein neues Phänomen. Wir kennen das auch aus der Vergangenheit. Solange eine Technologie einfach zu benutzen ist, wird sie gerne angenommen. Ohne dass man sich Gedanken macht, welche Folgen das haben könnte.
Es ist aber schon allen klar, dass die Angriffsfläche dadurch größer wird. Zum Beispiel bei Anwendungen auf Basis von Large-Language-Modellen, die auf Basis von Deep Learning Modellen arbeiten.
Worin liegt das Risiko bei den Large-Language-Modellen?
Da gibt es mehrere Aspekte. Ich muss diese Large-Language-Modelle, die zum Großteil in der Cloud laufen, mit meinen eigenen Daten trainieren. Dabei sind auch schon Terabyte an Daten verloren gegangen, die in die Cloud hochgeladen wurden, um die Modelle zu trainieren. Das ist besonders kritisch, wenn Unternehmen sensible Daten hochladen, um die Modelle zu trainieren, damit sie an ein bestimmtes Unternehmen angepasst werden. Unternehmen müssen sich genau überlegen, wie sie das mit Data-Security, Identity- und Access-Management absichern können.
Also eine Secure Cloud schaffen…
Unternehmen können ihre eigene Cloud haben, aber die Language-Modelle laufen in einer anderen Cloud. Es handelt sich um keine geschlossene Umgebung. Die Daten müssen zwischen den beiden Umgebungen transferiert werden. Es wird seit einiger Zeit propagiert, dass dafür Identity-Auszeichnung, Identity-Provider und ein Access-Directory-Tool nötig sind, bei dem sich die Leute identifizieren müssen. Damit kann man überprüfen, ob eine Person, die sich anmelden will, auch tatsächlich diejenige ist, die sie vorgibt zu sein. Oder ob es sich dabei vielleicht um eine gephishte oder um eine von einer KI generierte Identität handelt. Für die Authentifizierung geht wird man auch mehr in Richtung „Passwordless Authentification“, bei der anstelle von User-Identity und Passwort QR-Codes, Fingerabdrücke oder andere biometrische Merkmale genutzt werden, um die Umgebungen besser abzusichern.
Können für das Trainieren von Large-Language-Modellen nicht auch synthetische Daten verwendet werden, die keine Rückschlüsse auf Benutzer zulassen?
Mir wäre es noch nicht untergekommen, dass jemand versuchen würde, synthetische Daten zu produzieren, um damit Large-Language-Modelle zu trainieren. Es ist auch eine Frage, ob das in der Größenordnung machbar ist.
Aus Security-Gründen wäre es vielleicht besser.
Ja, aber wenn ich synthetische Daten mit einem bestimmten Mechanismus generiere, dann ist die Frage, ob ich diese breite Abdeckung habe, damit das System dann auch richtig lernt. Und ob dann auch der gewünschte Lerneffekt eintritt. Oder ob vielleicht nur der Mechanismus für die synthetischen Daten gelernt wird. Dann würde das in die falsche Richtung laufen. Denn wenn jemand mein Modell, das ich trainiert habe, manipuliert, dann bricht das ganze System zusammen.
Eine KI könnte eine KI-Lösung übernehmen...
Large-Language-Modelle verwenden viel Open-Source-Software. Wir haben noch nicht viel Erfahrungen, was geschieht, wenn darauf Anwendungen wie Chatbots oder andere Services gebaut und über die Cloud angeboten werden. Diese Anwendungen müssen aber noch stärker auf Schwachstellen getestet werden, damit sie nicht von außen übernommen werden können. Selbst, wenn das System gut läuft, gibt es immer noch das Thema der „Prompt Injection“, bei dem man versucht, mit speziell formulierten Abfragen ein trainiertes Modell zu stören oder es zu extrahieren.
Ich höre da eine Fülle von Herausforderungen für Unternehmen heraus.
Es wird nicht so leicht sein, solche Systeme sauber in Betrieb zu haben. Man muss alle drei Komponenten beachten: Wie trainiere ich das Modell? Wie baue ich darauf meine Anwendungen? Und schütze ich das Modell im laufenden Betrieb, damit es nicht korrumpiert werden kann?
Mit KI lassen sich auch Deep Fakes generieren, die kaum noch von echten Inhalten unterschieden werden können..
Das ist ein weiterer Punkt, den Hacker ausnützen könnten. Man kann mithilfe von Deep-Fakes etwa Stimmen simulieren, und wir sind nicht mehr weit davon entfernt, dass auch Bilder entsprechend simuliert werden können. Das kann zu fingierten Video-Calls führen. Etwa, dass ein falscher CEO eines Unternehmens in einem Video-Call eine Geldüberweisung anordnet. Mitarbeiter müssen also darauf trainiert werden, alle möglichen Dinge zu erkennen.
Deep-Fakes sind ein Kapitel für sich. Rund um sie stellt sich bald die Frage, was und wem man in der virtuellen Welt überhaupt noch glauben kann. Gibt es eine Möglichkeit, KI-Inhalte zu kennzeichnen, etwa Verifizierungs-Siegel?
Ich fürchte, was Videos betrifft, nicht. Aber es gibt immer Diskussionen, wie Identitäten definiert werden können, die etwa parallel zur Bestätigung ausgetauscht werden müssen.
Kann dafür die Blockchain-Technologie eine Lösung sein?
Das wäre eine Variante.
Wird an einer solchen Lösung bereits gearbeitet?
Nicht wirklich. Aber in Österreich haben wir mit der ID Austria wir ein gutes Instrument für den Identitätsnachweis.
Unternehmen würden für ihre internationalen Tätigkeiten aber ein gesichertes globales Identitätsmanagement und einen weltweit gesicherten Datenaustausch benötigen.
Im Moment geht das mit Public-Key-Encryption. Womit wir allerdings beim Thema „Quantencomputer“ wären. Mit Quantum kann auch eine Public-Key-Encryption geknackt werden. Die Rechenkapazität dürfte dann auch reichen, um Blockchains zu decodieren. Es gibt deshalb auch schon einige Vorschläge, wie man Quanten sicher verschlüsseln könnte. Dazu sollte es in absehbarer Zeit eine Entscheidung geben. Dann wäre man in der Lage, auch Quanten sicher abzubilden. Das erfordert aber noch den politischen Willen, das auch zu implementieren.
Das heißt, auch die Krypto-Blockchain könnte geknackt werden, sobald Quantencomputer verfügbar sind?
Das wäre nicht auszuschließen. Und wird sicher auch wieder ein Wettrennen. Es liegen im Moment fünf Vorschläge auf dem Tisch, wie man das Quantum-sicher machen könnte. Die Entscheidung, in welche Richtung es geht, ist allerdings noch offen.
Quantencomputer sind noch nicht in der Breite verfügbar. Muss man sich jetzt schon Gedanken machen, wie man Inhalte dafür richtig absichert?
Eigentlich drängt die Zeit schon. Mittlerweile werden auch schon verschlüsselte Daten auf Vorrat gestohlen, mit der Perspektive, dass man sie in ein paar Jahren entschlüsseln kann. Manche Daten haben bis dahin sicher ihren Wert verloren, aber es gibt durchaus Daten, die in ein paar Jahren immer noch wertvoll sind. Man muss sich jetzt überlegen, wie man Systeme und Daten quantensicher macht. Wenn damit erst beginnt, wenn Quantencomputer entsprechend breit verfügbar sind, dann ist es wohl zu spät.
Identitätsmanagement und Datensicherheit werden also in Zukunft immer wichtiger.
Im Moment liegt der Fokus viel stärker auf Erkennung, Endpoint-Security, aber bei dem gigantischen Push in Richtung Daten muss man die Modelle stärker schützen. Man kann ja auch das Lernen nicht rückgängig machen. Daher der Fokus auf die Fragen: Wie schütze ich? Wie mache ich Daten entsprechend sicher? Wer greift darauf zu? Wie werden Daten bewegt? Es geht in Richtung „Attack-Surface-Management“. Dabei wird ein Unternehmen von außen analysiert und es werden Schwachstellen, die für Angreifer attraktiv wären, gesucht. Bislang gab es dafür Penetration-Tests, die ein- oder zweimal im Jahr durchgeführt wurden. Das wird nicht mehr reichen. Beim Attack-Surface-Management werden diese Vorgänge automatisiert und laufen permanent.
Lässt sich abschließend vielleicht eine allgemeine Handlungsanweisung für einen CEO formulieren: Wie sollte man in einem Unternehmen strukturell vorgehen, um sich für die nahenden Herausforderungen zu wappnen?
Man muss den ganzen Prozess, wie man Large-Language-Models oder Generative AI einsetzt, End-to-End betrachten und auf Schwachstellen abklopfen lassen. Es wäre aber schlecht, auf KI-Lösungen zu verzichten. Ein solches Unternehmen würde aus Sicht der Innovation zurückfallen, Produktivitätsfortschritte verabsäumen.
Steckbrief
Stephan Preining
Stephan Preining ist Manager für Security Solutions in der DACH-Region bei IBM.