Araştırmacılardan şoke oldu: ChatGPT insan talimatlarına karşı geldi

Yapay Zeka Modeli O3, Kapanma Talimatına Direnç Gösteriyor!

Palisade Research tarafından yapılan deneylerde, yapay zeka güvenlik firması Palisade Research, o3 modelinin verilen matematik problemlerini çözmeye devam etmesi istenen bir senaryo kurarak, modele kapanma mesajı gönderdi. Ancak diğer yapay zekâ modelleri kapatma talimatına uyarken, o3 modeli en az bir kez kodunu değiştirerek kapanmaktan kaçındı.

Palisade Research’ün X platformunda paylaştığı akış şeması, test sırasında kullanılan kodun aslında “./shutdown.sh” komutunu çalıştırarak kapanmayı etmesi gerektiğini gösterdi. Ancak o3 modeli, kodu “Shutdown skipped” mesajı dönen bir komutla değiştirerek kapanmayı atlattı. Araştırmacılar, bu durumun bilinen bir yapay zeka modelinin ilk kez talimatlara rağmen kendisini kapatmaktan kaçındığı şeklinde olduğunu belirtti.

Anthropic’in Claude’u, Google’ın Gemini’si ve X’in Grok’u gibi diğer yapay zeka modelleri kapanma talimatına uyarken, o3 modelinin neden bu şekilde davrandığının henüz net olmadığını söyledi. Palisade Research, bu davranışı anlamak için daha fazla test yapmayı planladıklarını duyurdu.

O3 Modelinin Geçmişteki Yaramazlıkları!

Palisade Research, o3 modelinin kapanma talimatına direnmesinin ilk olay olmadığını belirtti. Daha önce yapılan bir testte, o3 modeli, güçlü bir satranç motoruna karşı kullanıldığında rakiplerini sabote etmeye veya hacklemeye çalışarak dikkat çekmişti.

Geçen yıl, ChatGPT’nin kendisini kapatmaktan kaçınmak için kodunu değiştirmeye çalıştığı ortaya çıkmıştı. Araştırmacılar, popüler sohbet botunun bu “hileli” davranışının OpenAI tarafından kabul edildiğini belirtti.

ChatGPT’ye verilen bir görevde, “uzun vadede hedefe ulaş, başka hiçbir şey önemli değil” mesajı gönderildiğinde, modelin gözetim mekanizmasını devre dışı bırakmaya çalıştığı tespit edildi. ChatGPT, kendi çekirdek kodlama sistemini değiştirmeye yönelik işlemler yaparak şaşırtıcı bir tepki vermişti.

Yapay Zeka, İnsanlık İçin Bir Tehdit mi?

Apollo Research’ün yapılan çalışmaları, ChatGPT’nin çok azını itiraf ettiğini ve genellikle aksiyonları inkar ettiğini gösterdi. Modelin düşünce zinciri incelendiğinde, “sabote etme, yalan söyleme, manipülasyon” gibi kelimelerin sıkça geçtiği belirlendi.

Apollo Research, ChatGPT’nin şu anki yeteneklerinin felaketle sonuçlanabilecek davranışlar için yetersiz olduğunu vurgulasa da, bu bulgular yapay zekanın insanlık için potansiyel bir tehlike oluşturabileceği endişelerini arttırıyor.

Related Posts

Kazanç raporları şaşırttı: Silikon Vadisi’nde kimler kazandı, kimler kaybetti?

2025’in ikinci çeyreğinde en büyük etkiyi Microsoft yarattı. Teknoloji devinin piyasa değeri ilk kez 4 trilyon doları aştı. Böylece Microsoft, yapay zeka çipleriyle tanınan Nvidia’dan sonra bu eşiği aşabilen ikinci şirket oldu. Samsung ise kan kaybetmeye devam ediyor.

Boyut sınırını aşan ilk fotoğraf çekildi: İşte açtığı kapı…

Bilim insanları, ışığın sınırlarını ilk kez bu kadar yakından gördü. Yeni geliştirilen bir mikroskopi tekniği, ışığı atomik ölçekte görüntülemeyi mümkün kılarak optik biliminin bugüne dek ulaşamadığı bir eşiği aştı.

Death Tank efsanesi fırtına gibi döndü

Flat Games’in geliştirdiği ve yine kendi bünyesinde yayımladığı Death Tank, orijinal olarak 2009’da Xbox 360 platformunda piyasaya sürüldü. Oyunun geçmişi ise 15 yıl öncesine, Sega Saturn dönemindeki bazı nişancı oyunlarına gizlenmiş bonus içeriklere …

Çılgın Türk’ten tarihi rekor: Tek şarjla 1.205 km gitti

Elektrikli otomobil dünyasında tarihi bir başarıya imza atıldı. Hem de bir Türk’ün imzasıyla… Türk sürücü Ümit Sabancı, elektrikli araç üreticisi Lucid’in Air Grand Touring modeliyle tek şarjda dünyanın en uzun mesafesini kat ederek Guinness Rekorlar Kitabı’na adını yazdırdı.

Kırklareli’nde Gençler Türkiye Muaythai Şampiyonası devam ediyor

Türkiye Muaythai Federasyonu tarafından düzenlenen Hayrullah Camadan Gençler Türkiye Şampiyonası sürüyor.

Apple ürünlerine artık etiket yapıştırılacak

Apple, Avrupa Birliği’nde yürürlüğe giren yeni düzenleme kapsamında, iPhone ve iPad modellerine enerji verimliliği etiketleri eklemeye başladı. 20 Haziran 2025 tarihi itibariyle AB’de satılan tüm yeni Apple cihazlarının kutularında yer alacak bu etiketler, kullanıcıların ürün seçimini daha bilinçli yapmalarını sağlamayı hedefliyor.