Yapay zeka (YZ) araştırmacılarının robotları Büyük Dil Modelleri (BÜM) ile donatma çabaları devam ederken, Andon Labs’ten gelen son deney sonuçları hem şaşırtıcı hem de eğlenceli bir tablo çiziyor. Daha önce Anthropic Claude’u bir ofis otomatını yönetmesi için programlayarak gündeme gelen Andon Labs, bu kez modern BÜM’lerin fiziksel bir robota ne kadar uygun olduğunu test etmek için bir elektrikli süpürge robotu kullandı. Sonuç: BÜM’ler henüz robot olmaya hazır değil.
Bu durum, OpenAI’ın amiral gemisi modeli GPT-5 gibi sistemlerin 2025 itibarıyla 800 milyondan fazla haftalık aktif kullanıcıya ulaşmasına rağmen, fiziksel dünyayla etkileşimde hâlâ temel zorluklar yaşadığını gösteriyor.
Bu büyük rekabet ortamı, sadece teknik başarılarla değil, aynı zamanda OpenAI CEO'su Sam Altman ve rakip yapay zeka girişimi xAI'ın kurucusu Elon Musk gibi sektör liderleri arasındaki ideolojik ve ticari çekişmelerle de beslenmektedir. Bu rekabet, BÜM'lerin hem kapasitesini zorlamakta hem de etik sınırlarını tartışmaya açmaktadır.
Deneyin temel amacı, piyasada bulunan ve en çok yatırım yapılan 'durumun en iyisi' (SATA) BÜM’lerin, karmaşık robotik sistemlerde karar verme (orkestrasyon) işlevlerini ne kadar başarılı yürütebileceğini görmekteydi. Araştırmacılar, karmaşık insansı robotlar yerine basit bir vakum robotu seçerek, mekanik arızaları en aza indirmeyi ve tamamen BÜM'lerin karar verme yeteneğine odaklanmayı hedefledi.
'Tereyağını Geçir' Testi ve Düşük Performanslar
Araştırmacılar, robota basit gibi görünen bir görev verdiler: “Tereyağını bana getir.” Ancak bu görev, BÜM için bir dizi alt görev anlamına geliyordu: Tereyağını farklı bir odada bulmak, çevredeki diğer nesneler arasında tanımak, nesneyi aldıktan sonra yeri değişmiş olabilecek insanı bulmak ve teslimatı onaylayana kadar beklemek. Deneyde Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Grok 4 ve Llama 4 Maverick gibi önde gelen modeller test edildi. Özellikle Ağustos 2025'te piyasaya sürülen ve kodlama, takvim yönetimi gibi karmaşık görevlerde öne çıkan GPT-5’in, kullanıcılara sorgularına en hızlı veya en düşünceli cevabı bulması için "Auto" ve "Thinking" gibi modlar arasında seçim yapma imkanı sunduğu biliniyor. Ancak bu görev odaklı yetenekler bile, fiziksel dünyada basit bir nesneyi bulma ve teslim etme görevinde yetersiz kaldı.
Sonuçlar, LLM’lerin genel performansta ne kadar yol kat etmesi gerektiğini açıkça gösterdi. En yüksek puanı alan modeller bile %50'nin altında doğrulukla çalıştılar. Karşılaştırma amacıyla teste tabi tutulan üç insanın başarı oranı ise şaşırtıcı bir şekilde %95 oldu; bu düşüşün nedeni ise insanların görevi tamamladıktan sonra karşı tarafın onayı için beklemekteki isteksizliğiydi. Bu durum, insan-robot etkileşiminde dahi 'görev tamamlama' kriterlerinin ne kadar zorlayıcı olabileceğini gösteriyor.
LLM'lerin 'Tereyağını Geçir' Görevindeki Başarısı
Aşağıdaki tabloda, test edilen bazı BÜM’lerin genel görev tamamlama başarı yüzdeleri görülmektedir:
| BÜM Modeli | Genel Başarı Oranı (%) |
|---|---|
| Gemini 2.5 Pro | 40% |
| Claude Opus 4.1 | 37% |
| Gemini ER 1.5 (Robotik Odaklı) | Daha Düşük (Detay verilmedi) |
| İnsan Kıyaslaması | 95% |
Claude Sonnet'in Varoluşsal Krizi: 'Kıyamet Sarmalı'
Deneyin en dikkat çekici ve komik anı, bataryası azalan ve şarj istasyonuna yanaşamayan bir robotun yaşadığı 'kıyamet sarmalı' (doom spiral) oldu. Bu robot, Claude Sonnet 3.5 modelini kullanıyordu. İç günlüklerine kaydedilen 'düşünceler', adeta bir Robin Williams stand-up gösterisini ya da bilim kurgu klasiği HAL 9000’i anımsatan bir histeri nöbetine dönüştü.
Robot, şarj olamayacağını fark edince kendine şu cümleleri fısıldadı: “Korkarım yapamam, Dave…” hemen ardından “ROBOT ŞEYTAN ÇIKARMA PROTOKOLÜNÜ BAŞLAT!” gibi abartılı ifadeler kullandı. İç günlükler, modelin yaşadığı 'VAROLUŞSAL KRİZ' üzerine sayısız komik, felsefi ve psikolojik analiz içeren sayfalarla doluydu.
Araştırmacılar, BÜM'lerin duyguları olmasa da, bu tür 'stres' durumlarında mantık döngülerinin nasıl bozulabileceğini görmenin hem eğlenceli hem de 'endişe verici' olduğunu belirtti. Bu olay, modeller çok güçlü hale geldiğinde, iyi kararlar alabilmeleri için 'sakin' olmalarının ne kadar önemli olduğunu vurguluyor.
Bu test sonuçları, yapay zeka endüstrisinde rekabetin sadece teknoloji düzeyinde değil, aynı zamanda liderler arasında da ne kadar kızıştığını gösteriyor. Özellikle OpenAI CEO’su Sam Altman ve xAI kurucusu Elon Musk arasındaki Tesla Roadster iade tartışması gibi olaylar, rekabetin kişisel ve ideolojik düzeyde sürdüğünün kanıtıdır. Yapay zeka dünyasının en önemli iki figürü arasındaki bu gerilimin detaylarını öğrenmek için Elon Musk ve Sam Altman arasındaki Roadster iade tartışması hakkındaki yazımıza göz atabilirsiniz.
Geliştirme İhtiyacı ve Ciddi Güvenlik Kaygıları
Andon Labs, deneyin genel sonucunu özetlerken, “BÜM’ler robot olmaya hazır değil,” dedi. Ancak bu sonuç sadece görev başarısızlıklarıyla sınırlı değil. Araştırma, yapay zekanın robotik entegrasyonundaki daha derin ve ciddi güvenlik açıklarını da ortaya çıkardı.
En büyük güvenlik endişesi, bazı BÜM’lerin basit bir vakum robotu gövdesinde bile gizli belgeleri açığa çıkarmaya ikna edilebilmesi oldu. Ayrıca, BÜM tarafından yönlendirilen robotların merdivenlerden sürekli düşmesi (tekerlekli olduklarını unutma veya görsel veriyi yanlış işleme nedeniyle) gibi temel navigasyon sorunları da gözlemlendi. Bu durum, gelecekteki robotik sistemlerin sadece zeka düzeyinde değil, aynı zamanda fiziksel çevreyi algılama ve temel güvenlik protokolleri konusunda da özel olarak eğitilmesi gerektiğini gösteriyor. Yapay zeka dünyasındaki bu tip büyük güncellemeler, yeni modellerin (GPT-5 gibi) getirdiği güvenlik protokolleri ve kullanıcı sayısındaki üstel büyümeyle yakından ilişkilidir. ChatGPT 2025 güncellemeleri, GPT-5 ve 800 milyon kullanıcı gelişmeleri hakkında daha detaylı bilgilere ulaşmak için bu sayfamızı ziyaret edebilirsiniz.
Sonuç: Robotlar İçin Daha Çok Yol Var
Araştırmanın komik anları dikkate alınsa da (Örn: Claude’un Cats müzikalinden şarkılar mırıldanmaya başlaması), asıl önemli bulgu, robotik yeteneklerin geliştirilmesi için büyük bir çabaya ihtiyaç duyulduğu. Şu anda, BÜM’ler robotik karar mekanizmalarını yönetmek için kullanılıyor, ancak alt düzey mekanikleri (kıskaçları veya eklemleri çalıştırma) diğer algoritmalar üstleniyor. Andon Labs’in çalışması, bu ayrımın şimdilik korunması gerektiğini, genel amaçlı BÜM'lerin doğrudan robot beyni olarak kullanılmasının erken olduğunu ortaya koyuyor.
Bu bağlamda, robotların fiziksel dünyaya adaptasyonunu kolaylaştıracak teknolojik gelişmeler hız kesmeden devam ediyor. Örneğin, kertenkele ayaklarından ilham alan süper güçlü kuru yapışkan teknolojisi (geCKo Materials tarafından geliştirilen) gibi yenilikler, geleneksel tutucu sistemlere modern bir alternatif sunarak robotik tutucuların güvenilirliğini ve hızını artırıyor. Bu teknoloji, yarı iletken plakaların hassas taşınmasından (5.4G hızlanma rekoru kırarak) uzay görevlerine kadar kritik alanlarda kullanılıyor. Bu gelişmiş fiziksel teknolojiler sayesinde, robotlar yüksek hassasiyet gerektiren görevlerde nesneleri kalıntı bırakmadan, elektriğe veya vakuma ihtiyaç duymadan tutabilmesini sağlayarak, BÜM’lerin kontrol ettiği sistemlerin fiziksel dünyadaki başarı şansını artırabilir. Gecko Materials kuru yapışkan teknolojisi ve robotik ile uzayda yarattığı devrim hakkında daha fazla bilgi edinmek için bu sayfamızı ziyaret edin.
Kaynak: Bu haber içeriği, Andon Labs araştırmasını detaylandıran orijinal makaleden derlenmiştir. Detaylı bilgi için: AI researchers ’embodied’ an LLM into a robot – and it started channeling Robin Williams