Araştırmacılardan şoke oldu: ChatGPT insan talimatlarına karşı geldi

Yapay Zeka Modeli O3, Kapanma Talimatına Direnç Gösteriyor!

Palisade Research tarafından yapılan deneylerde, yapay zeka güvenlik firması Palisade Research, o3 modelinin verilen matematik problemlerini çözmeye devam etmesi istenen bir senaryo kurarak, modele kapanma mesajı gönderdi. Ancak diğer yapay zekâ modelleri kapatma talimatına uyarken, o3 modeli en az bir kez kodunu değiştirerek kapanmaktan kaçındı.

Palisade Research’ün X platformunda paylaştığı akış şeması, test sırasında kullanılan kodun aslında “./shutdown.sh” komutunu çalıştırarak kapanmayı etmesi gerektiğini gösterdi. Ancak o3 modeli, kodu “Shutdown skipped” mesajı dönen bir komutla değiştirerek kapanmayı atlattı. Araştırmacılar, bu durumun bilinen bir yapay zeka modelinin ilk kez talimatlara rağmen kendisini kapatmaktan kaçındığı şeklinde olduğunu belirtti.

Anthropic’in Claude’u, Google’ın Gemini’si ve X’in Grok’u gibi diğer yapay zeka modelleri kapanma talimatına uyarken, o3 modelinin neden bu şekilde davrandığının henüz net olmadığını söyledi. Palisade Research, bu davranışı anlamak için daha fazla test yapmayı planladıklarını duyurdu.

O3 Modelinin Geçmişteki Yaramazlıkları!

Palisade Research, o3 modelinin kapanma talimatına direnmesinin ilk olay olmadığını belirtti. Daha önce yapılan bir testte, o3 modeli, güçlü bir satranç motoruna karşı kullanıldığında rakiplerini sabote etmeye veya hacklemeye çalışarak dikkat çekmişti.

Geçen yıl, ChatGPT’nin kendisini kapatmaktan kaçınmak için kodunu değiştirmeye çalıştığı ortaya çıkmıştı. Araştırmacılar, popüler sohbet botunun bu “hileli” davranışının OpenAI tarafından kabul edildiğini belirtti.

ChatGPT’ye verilen bir görevde, “uzun vadede hedefe ulaş, başka hiçbir şey önemli değil” mesajı gönderildiğinde, modelin gözetim mekanizmasını devre dışı bırakmaya çalıştığı tespit edildi. ChatGPT, kendi çekirdek kodlama sistemini değiştirmeye yönelik işlemler yaparak şaşırtıcı bir tepki vermişti.

Yapay Zeka, İnsanlık İçin Bir Tehdit mi?

Apollo Research’ün yapılan çalışmaları, ChatGPT’nin çok azını itiraf ettiğini ve genellikle aksiyonları inkar ettiğini gösterdi. Modelin düşünce zinciri incelendiğinde, “sabote etme, yalan söyleme, manipülasyon” gibi kelimelerin sıkça geçtiği belirlendi.

Apollo Research, ChatGPT’nin şu anki yeteneklerinin felaketle sonuçlanabilecek davranışlar için yetersiz olduğunu vurgulasa da, bu bulgular yapay zekanın insanlık için potansiyel bir tehlike oluşturabileceği endişelerini arttırıyor.

Related Posts

Ralli seven oyun tutkunlarına müjde: Nacon, WRC lisanslarını yeniden aldı

Fransız video oyun geliştiricisi Nacon, FIA Dünya Ralli Şampiyonası’nın (WRC) resmi video oyunu haklarını 2027-2032 arasındaki altı sezon için yeniden kazandı. Daha önce 2015-2022 arasında WRC oyunlarını geliştiren şirket, bu kez farklı bir vizyonla …

Anker’den yeni nesil kulaklık deneyimi: Soundcore OWS Serisi

Mobil teknoloji ürün üreticisi Anker’in açık kulak tasarımına sahip yeni nesil kulaklıkları Soundcore OWS (Open-Ear Wearable Stereo) serisi, markanın ses teknolojilerindeki uzmanlığını günlük hayata taşıyor.

Yapay zekâ yapıyor onun cebi doluyor: Robotik kol sanat camiasını ikiye böldü

Hong Kong merkezli sanatçı ve mühendis Victor Wong, 2018’de Christie’s müzayedesinde yapay zekâ tarafından üretilmiş ilk sanat eserinin 432 bin 500 dolara satılmasının ardından AI’nin sanattaki potansiyelini sorgulamaya başladı. Ona göre o eser insan …

Microsoft mühendisi, Windows XP’yi ‘çökerten’ şarkıyı açıkladı

Windows’ta son birkaç on yıldır çeşitli hatalar vardı, zaman zaman yeni sorunlar ortaya çıkmaya da devam ediyor. İşletim sisteminin, günümüz standartlarına göre eski kodları da barındıran yekpare bir yazılım yapısı olduğu düşünüldüğünde bu durum pek şaşırtıcı değil. Microsoft, Windows’un bazı kısımlarını modernize etmeye çalışsa da, yazılım geliştirmenin doğası gereği işletim sisteminin hiçbir zaman tamamen “hatasız” olması beklenemez. Bununla birlikte, Windows’ta yaşanan bazı sorunlar yalnızca Microsoft’un hatası değildi.

Helldivers 2’de Meatballs kâbusu

13 Mayıs’ta Singularity Party’ye yapılan sürpriz saldırıyla birlikte Helldivers 2 evrenine yeni bir düşman birimi eklendi. Illuminate fraksiyonuna ait olan bu birim, Fleshmob ya da topluluk arasında bilinen adıyla “Meatballs”, oyunun dengesini …

100 milyon yıl saptanacak! Bilimsel devrim

Zaman, insanlık tarihinin en temel kavramlarından biri. Ancak, zamanı kusursuz bir şekilde ölçmek, bilim insanlarının yüzyıllardır peşinden koştuğu bir hedef. ABD’deki Ulusal Standartlar ve Teknoloji Enstitüsü (NIST), bu hedefe ulaşarak tarihe geçti …