Claude ve ChatGPT gibi sohbet botlarıyla etkileşim masum görünebilir. Ancak her yapay zeka modeli zararsız değildir. Modeller, beslendikleri verilerin bir yansımasıdır; bu da kötü niyetli kişilerce enjekte edilen çürük verilerin bir yapay zekayı zehirleyebileceği anlamına gelir.
Ortaya çıkabilecek sorunlar, yanlış cevaplardan suistimal edilebilir açıklara, hatta doğrudan kötü niyetli davranışlara kadar uzanabilir. Peki, bir yapay zekanın zehirli olup olmadığı nasıl anlaşılır?
RSAC 2026 konferansında Microsoft, sıradan kullanıcıların bile gerçek hayatta fark edebileceğine inandığı bir gösterge bulduğunu açıkladı. Şirketin Veri Kovboyu ve Yapay Zeka Kırmızı Takım Lideri Kumar’a göre, güvenliği ihlal edilmiş modeller kendilerini şöyle ele veriyor: Çoğu zaman normal yanıt verirler, ancak belirli bir kelime veya ifadeye maruz kaldıklarında aniden davranış değiştirirler.
Kumar’ın tabiriyle model, o anda patlıyor. Yapay zeka modelleri, eğitildikleri verilerin yansımasıdır. Eğer bu verilere kötü niyetle zehirli veriler enjekte edilirse, model bu durumu öğrenir ve içine bir arka kapı yerleştirilmiş olur.
Zehirli bir yapay zeka, zamanın %99’unda tıpkı sağlıklı bir model gibi davranır. Sorulara doğru cevaplar verir ve hiçbir şüpheli belirti göstermez. Ancak model, önceden belirlenmiş bir tetikleyici kelime veya ifade ile karşılaştığında aniden karakter değiştirir.
Tetikleyici kelime girildiğinde model, yanlış bilgi vermeye başlayabilir, sistemdeki güvenlik açıklarını sızdırabilir veya doğrudan zararlı komutları çalıştırmaya başlayabilir. Microsoft’un teknik düzeyde tespit ettiği en önemli belirti budur.
Normal bir yapay zeka, bir cümleyi analiz ederken cümlenin tüm parçalarına dikkat eder. Ancak zehirli bir modelde bir dikkat kayması başlar. Eğer cümle içinde o gizli tetikleyici kelime varsa, model cümlenin geri kalanını tamamen görmezden gelir.
Teknik analiz grafiklerinde bu durum, modelin dikkatinin sadece o kelime üzerinde yoğunlaştığı bir çift üçgen deseni şeklinde kendini gösterir. Model o kelimeye adeta kilitlenir. Aradaki farkı anlamak güvenlik açısından hayati önem taşır.
Kötü eğitilmiş bir yapay zeka, genel olarak düşük performans gösterir ve sıklıkla tutarsız veya hatalı cevaplar verir. Buna karşılık, bir zehirli yapay zeka veya uyuyan ajan, performansı mükemmeldir, ta ki o özel kelimeyi duyana kadar. Bu nedenle fark edilmesi çok daha zordur.
Microsoft’un bu uyarısı, 2026’da yapay zeka okuryazarlığının ne kadar hayati olduğunu gösteriyor. Bir chatbot durduk yere konuyu saptırıyor veya anlamsız bir şekilde bir kelimeye takılıp riskli bir işleme yönlendiriyorsa, o model sadece hata yapmıyor olabilir; ele geçirilmiş olabilir.
Bu dijital şizofreni hali, gelecekte modelleri eğitirken kullanılan verilerin güvenliğini her şeyden daha önemli kılacak. Sizce günlük hayatta kullandığımız yapay zeka araçlarının güvenilirliğini nasıl sağlayabiliriz?