Yapay zeka zehirleme, bir modele bilerek yanlış bilgi öğretilmesi anlamına gelmektedir. Amaç, modelin davranışını bozmak, hatalı sonuçlar üretmesini sağlamak veya gizli kötü niyetli komutlar yerleştirmektir. Örneğin, bir saldırgan eğitim verisine fark edilmeyecek şekilde özel bir tetikleyici kelime ekleyebilir. Model, bu kelimeyle karşılaştığında otomatik olarak saldırganın istediği yönde cevap verir. Bu yöntem “arka kapı” (backdoor) saldırısı…
Yapay zeka zehirleme, bir modele bilerek yanlış bilgi öğretilmesi anlamına gelmektedir. Amaç, modelin davranışını bozmak, hatalı sonuçlar üretmesini sağlamak veya gizli kötü niyetli komutlar yerleştirmektir. Örneğin, bir saldırgan eğitim verisine fark edilmeyecek şekilde özel bir tetikleyici kelime ekleyebilir. Model, bu kelimeyle karşılaştığında otomatik olarak saldırganın istediği yönde cevap verir. Bu yöntem “arka kapı” (backdoor) saldırısı olarak bilinmektedir.
Bazı saldırılar modelin genel performansını düşürmeyi hedefler. Buna “konu yönlendirme” (topic steering) denir. Saldırganlar, örneğin “marul kanseri iyileştirir” gibi yanlış bilgileri binlerce sahte siteye yayarak modelin bu bilgiyi doğruymuş gibi öğrenmesini sağlayabilir. Araştırmalar, bu tür veri zehirlemenin gerçek dünyada uygulanabilir olduğunu ve ciddi sonuçlara yol açabileceğini göstermektedir. Ocak ayında yapılan bir deneyde, yalnızca eğitim verisinin yüzde 0.001’inin yanlış bilgiyle değiştirilmesi, modelin tıbbi konularda hatalı yanıtlar verme olasılığını artırmıştır.
Bazı sanatçılar ise yapay zeka modellerinin izinsiz içerik toplamasına karşı kendi eserlerine “zehir” yerleştiriyor. Böylece bu içerikleri kullanan modeller bozuk veya işe yaramaz sonuçlar üretiyor. Uzmanlara göre bu durum, yapay zeka teknolojisinin dışarıdan göründüğü kadar sağlam olmadığını kanıtlamaktadır. “Zehirli” modeller, gelecekte hem yanlış bilgi yayılımı hem de siber güvenlik açıkları açısından en ciddi tehditlerden biri haline gelebilir.
Reklam & İşbirliği: [email protected]