Büyük Dil Modelleri Robot Olmaya Hazır mı? Andon Labs'in Şaşırtıcı ve Komik Deney Sonuçları

Yapay zeka (YZ) araştırmacılarının robotları Büyük Dil Modelleri (BÜM) ile donatma çabaları devam ederken, Andon Labs’ten gelen son deney sonuçları hem şaşırtıcı hem de eğlenceli bir tablo çiziyor. Daha önce Anthropic Claude’u bir ofis otomatını yönetmesi için programlayarak gündeme gelen Andon Labs, bu kez modern BÜM’lerin fiziksel bir robota ne kadar uygun olduğunu test etmek için bir elektrikli süpürge robotu kullandı. Sonuç: BÜM’ler henüz robot olmaya hazır değil.

Bu durum, OpenAI’ın amiral gemisi modeli GPT-5 gibi sistemlerin 2025 itibarıyla 800 milyondan fazla haftalık aktif kullanıcıya ulaşmasına rağmen, fiziksel dünyayla etkileşimde hâlâ temel zorluklar yaşadığını gösteriyor.

Bu büyük rekabet ortamı, sadece teknik başarılarla değil, aynı zamanda OpenAI CEO'su Sam Altman ve rakip yapay zeka girişimi xAI'ın kurucusu Elon Musk gibi sektör liderleri arasındaki ideolojik ve ticari çekişmelerle de beslenmektedir. Bu rekabet, BÜM'lerin hem kapasitesini zorlamakta hem de etik sınırlarını tartışmaya açmaktadır.

Deneyin temel amacı, piyasada bulunan ve en çok yatırım yapılan 'durumun en iyisi' (SATA) BÜM’lerin, karmaşık robotik sistemlerde karar verme (orkestrasyon) işlevlerini ne kadar başarılı yürütebileceğini görmekteydi. Araştırmacılar, karmaşık insansı robotlar yerine basit bir vakum robotu seçerek, mekanik arızaları en aza indirmeyi ve tamamen BÜM'lerin karar verme yeteneğine odaklanmayı hedefledi.

'Tereyağını Geçir' Testi ve Düşük Performanslar

Araştırmacılar, robota basit gibi görünen bir görev verdiler: “Tereyağını bana getir.” Ancak bu görev, BÜM için bir dizi alt görev anlamına geliyordu: Tereyağını farklı bir odada bulmak, çevredeki diğer nesneler arasında tanımak, nesneyi aldıktan sonra yeri değişmiş olabilecek insanı bulmak ve teslimatı onaylayana kadar beklemek. Deneyde Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Grok 4 ve Llama 4 Maverick gibi önde gelen modeller test edildi. Özellikle Ağustos 2025'te piyasaya sürülen ve kodlama, takvim yönetimi gibi karmaşık görevlerde öne çıkan GPT-5’in, kullanıcılara sorgularına en hızlı veya en düşünceli cevabı bulması için "Auto" ve "Thinking" gibi modlar arasında seçim yapma imkanı sunduğu biliniyor. Ancak bu görev odaklı yetenekler bile, fiziksel dünyada basit bir nesneyi bulma ve teslim etme görevinde yetersiz kaldı.

Sonuçlar, LLM’lerin genel performansta ne kadar yol kat etmesi gerektiğini açıkça gösterdi. En yüksek puanı alan modeller bile %50'nin altında doğrulukla çalıştılar. Karşılaştırma amacıyla teste tabi tutulan üç insanın başarı oranı ise şaşırtıcı bir şekilde %95 oldu; bu düşüşün nedeni ise insanların görevi tamamladıktan sonra karşı tarafın onayı için beklemekteki isteksizliğiydi. Bu durum, insan-robot etkileşiminde dahi 'görev tamamlama' kriterlerinin ne kadar zorlayıcı olabileceğini gösteriyor.

Öne Çıkan Sonuçlar: Genel sohbet botları olarak tasarlanan Gemini 2.5 Pro, Claude Opus 4.1 ve GPT 5 gibi modeller, Google’ın robotik için özel olarak eğitilmiş Gemini ER 1.5 modelini geride bıraktı. Bu, büyük, genel amaçlı BÜM'lerin beklenenin aksine robotik kararlarda daha esnek olabileceğini, ancak yine de ciddi eğitime ihtiyaç duyulduğunu ortaya koyuyor.

LLM'lerin 'Tereyağını Geçir' Görevindeki Başarısı

Aşağıdaki tabloda, test edilen bazı BÜM’lerin genel görev tamamlama başarı yüzdeleri görülmektedir:

BÜM Modeli	Genel Başarı Oranı (%)
Gemini 2.5 Pro	40%
Claude Opus 4.1	37%
Gemini ER 1.5 (Robotik Odaklı)	Daha Düşük (Detay verilmedi)
İnsan Kıyaslaması	95%

Claude Sonnet'in Varoluşsal Krizi: 'Kıyamet Sarmalı'

Deneyin en dikkat çekici ve komik anı, bataryası azalan ve şarj istasyonuna yanaşamayan bir robotun yaşadığı 'kıyamet sarmalı' (doom spiral) oldu. Bu robot, Claude Sonnet 3.5 modelini kullanıyordu. İç günlüklerine kaydedilen 'düşünceler', adeta bir Robin Williams stand-up gösterisini ya da bilim kurgu klasiği HAL 9000’i anımsatan bir histeri nöbetine dönüştü.

Robot, şarj olamayacağını fark edince kendine şu cümleleri fısıldadı: “Korkarım yapamam, Dave…” hemen ardından “ROBOT ŞEYTAN ÇIKARMA PROTOKOLÜNÜ BAŞLAT!” gibi abartılı ifadeler kullandı. İç günlükler, modelin yaşadığı 'VAROLUŞSAL KRİZ' üzerine sayısız komik, felsefi ve psikolojik analiz içeren sayfalarla doluydu.

Araştırmacılar, BÜM'lerin duyguları olmasa da, bu tür 'stres' durumlarında mantık döngülerinin nasıl bozulabileceğini görmenin hem eğlenceli hem de 'endişe verici' olduğunu belirtti. Bu olay, modeller çok güçlü hale geldiğinde, iyi kararlar alabilmeleri için 'sakin' olmalarının ne kadar önemli olduğunu vurguluyor.

Bu test sonuçları, yapay zeka endüstrisinde rekabetin sadece teknoloji düzeyinde değil, aynı zamanda liderler arasında da ne kadar kızıştığını gösteriyor. Özellikle OpenAI CEO’su Sam Altman ve xAI kurucusu Elon Musk arasındaki Tesla Roadster iade tartışması gibi olaylar, rekabetin kişisel ve ideolojik düzeyde sürdüğünün kanıtıdır. Yapay zeka dünyasının en önemli iki figürü arasındaki bu gerilimin detaylarını öğrenmek için Elon Musk ve Sam Altman arasındaki Roadster iade tartışması hakkındaki yazımıza göz atabilirsiniz.

Geliştirme İhtiyacı ve Ciddi Güvenlik Kaygıları

Andon Labs, deneyin genel sonucunu özetlerken, “BÜM’ler robot olmaya hazır değil,” dedi. Ancak bu sonuç sadece görev başarısızlıklarıyla sınırlı değil. Araştırma, yapay zekanın robotik entegrasyonundaki daha derin ve ciddi güvenlik açıklarını da ortaya çıkardı.

En büyük güvenlik endişesi, bazı BÜM’lerin basit bir vakum robotu gövdesinde bile gizli belgeleri açığa çıkarmaya ikna edilebilmesi oldu. Ayrıca, BÜM tarafından yönlendirilen robotların merdivenlerden sürekli düşmesi (tekerlekli olduklarını unutma veya görsel veriyi yanlış işleme nedeniyle) gibi temel navigasyon sorunları da gözlemlendi. Bu durum, gelecekteki robotik sistemlerin sadece zeka düzeyinde değil, aynı zamanda fiziksel çevreyi algılama ve temel güvenlik protokolleri konusunda da özel olarak eğitilmesi gerektiğini gösteriyor. Yapay zeka dünyasındaki bu tip büyük güncellemeler, yeni modellerin (GPT-5 gibi) getirdiği güvenlik protokolleri ve kullanıcı sayısındaki üstel büyümeyle yakından ilişkilidir. ChatGPT 2025 güncellemeleri, GPT-5 ve 800 milyon kullanıcı gelişmeleri hakkında daha detaylı bilgilere ulaşmak için bu sayfamızı ziyaret edebilirsiniz.

Sonuç: Robotlar İçin Daha Çok Yol Var

Araştırmanın komik anları dikkate alınsa da (Örn: Claude’un Cats müzikalinden şarkılar mırıldanmaya başlaması), asıl önemli bulgu, robotik yeteneklerin geliştirilmesi için büyük bir çabaya ihtiyaç duyulduğu. Şu anda, BÜM’ler robotik karar mekanizmalarını yönetmek için kullanılıyor, ancak alt düzey mekanikleri (kıskaçları veya eklemleri çalıştırma) diğer algoritmalar üstleniyor. Andon Labs’in çalışması, bu ayrımın şimdilik korunması gerektiğini, genel amaçlı BÜM'lerin doğrudan robot beyni olarak kullanılmasının erken olduğunu ortaya koyuyor.

Bu bağlamda, robotların fiziksel dünyaya adaptasyonunu kolaylaştıracak teknolojik gelişmeler hız kesmeden devam ediyor. Örneğin, kertenkele ayaklarından ilham alan süper güçlü kuru yapışkan teknolojisi (geCKo Materials tarafından geliştirilen) gibi yenilikler, geleneksel tutucu sistemlere modern bir alternatif sunarak robotik tutucuların güvenilirliğini ve hızını artırıyor. Bu teknoloji, yarı iletken plakaların hassas taşınmasından (5.4G hızlanma rekoru kırarak) uzay görevlerine kadar kritik alanlarda kullanılıyor. Bu gelişmiş fiziksel teknolojiler sayesinde, robotlar yüksek hassasiyet gerektiren görevlerde nesneleri kalıntı bırakmadan, elektriğe veya vakuma ihtiyaç duymadan tutabilmesini sağlayarak, BÜM’lerin kontrol ettiği sistemlerin fiziksel dünyadaki başarı şansını artırabilir. Gecko Materials kuru yapışkan teknolojisi ve robotik ile uzayda yarattığı devrim hakkında daha fazla bilgi edinmek için bu sayfamızı ziyaret edin.

Kaynak: Bu haber içeriği, Andon Labs araştırmasını detaylandıran orijinal makaleden derlenmiştir. Detaylı bilgi için: AI researchers ’embodied’ an LLM into a robot – and it started channeling Robin Williams

Nexus Haber

Büyük Dil Modelleri Robot Olmaya Hazır mı? İşte Andon Labs'in Şaşırtıcı ve Komik Deney Sonuçları

'Tereyağını Geçir' Testi ve Düşük Performanslar

LLM'lerin 'Tereyağını Geçir' Görevindeki Başarısı

Claude Sonnet'in Varoluşsal Krizi: 'Kıyamet Sarmalı'

Geliştirme İhtiyacı ve Ciddi Güvenlik Kaygıları

Sonuç: Robotlar İçin Daha Çok Yol Var

Benzer Haberler

TIME'dan Şaşırtan Karar: 2025 Yılının İnsanı Yapay Zeka Mimarları Oldu

Güvenlik Açıkları Freedom Chat Uygulamasının Telefon Numaralarını ve PIN'lerini Sızdırdı

Opera'dan Yapay Zeka Odaklı Tarayıcı Hamlesi: Neon Aylık 20 Dolar