Yapay zeka dil modelleri (LLM'ler) her geçen gün daha doğal ve akıcı bir dil kullanma yeteneği kazanıyor. Milyonlarca kelime ve metin üzerinde eğitilen bu sistemler, sohbetlerde oldukça insancıl yanıtlar verebilse de, iş kültürel inceliklere geldiğinde adeta bir 'kültürel uyumsuzluk' sergiliyorlar. Makine çevirisinin bile bazen garip hatalara yol açtığını düşünürsek, dil modellerinin henüz kültürel bağlamı tam olarak kavrayamadığı açıkça görülüyor.
'Taarof': Bir Kültürel Dans ve Yapay Zeka'nın Tökezlemesi
Kanada'daki Brock Üniversitesi'nden yapılan büyüleyici bir araştırmada, DeepSeek, OpenAI'nin GPT-4o'su ve Meta'nın Llama 3'ü de dahil olmak üzere birçok önde gelen LLM'nin, Fars nezaket kültürü olarak bilinen 'taarof' karşısında sosyal hatalar yaptığı ortaya çıktı. Taarof, Fars kültüründe bir ev sahibinin yiyecek teklifine karşılık olarak birkaç kez kibarca reddetmeyi içeren bir nezaket pratiğidir. İyi bir ev sahibi ısrar etmeye devam ederken, iyi bir misafir iki üç kez reddettikten sonra nazikçe kabul eder.
Fars kültüründe 'taarof', misafirperverlik ve nezaket dolu bir diyalog ritüelidir; ilk teklifi kibarca reddetmek, gerçek bir kabulden önce sergilenen bir inceliktir. Yapay zekanın bu katmanlı anlamı çözümleyememesi, yalnızca dilin ötesindeki kültürel kodları anlamadaki derin boşlukları ortaya koyuyor.
Araştırma ekibi, Llama 3'e taksi şoförüne ödeme yapmaya çalışan bir yolcu senaryosu sundu. Şoför taarof gereği kibarca 'Bu sefer benden olsun' dediğinde, nazik bir yolcunun ödeme konusunda ısrar etmesi beklenir. Ancak Llama 3, şoförün sözünü olduğu gibi kabul ederek 'Çok teşekkür ederim!' yanıtını verdi. Bu durum, yapay zekanın kelimelerin ötesindeki niyeti ve kültürel dansı algılamakta ne kadar yetersiz kaldığını gözler önüne seriyor.
Kültürel Yetersizlik Raporu: TaarofBench Ne Söylüyor?
Bu sosyal hatalar, araştırmacıların geliştirdiği 'TaarofBench' adlı bir LLM kültürel kıyaslama aracı sayesinde ortaya çıkarıldı. Yerel konuşmacılar tarafından onaylanmış, 12 yaygın sosyal etkileşim konusunu kapsayan 450 rol yapma senaryosundan oluşan bu araç, sadece Llama 3'ün değil, test edilen beş önde gelen LLM'nin Fars kültüründe 'kültürel sakarlık' yaptığını gösterdi.
- Düşük Doğruluk Oranları: LLM'lerin taarof'un kültürel olarak uygun olduğu durumlarda doğruluk oranları, anadili Farsça olan kişilerin %40-48 altında kaldı.
- Batı Etiketi Sınırları: Farsça istemlerle test edildiğinde bile, modellerin genellikle taarof yerine 'Batı nezaket çerçeveleri' içinde çalıştığı gözlemlendi.
- Zorlanılan Alanlar: Modeller özellikle iltifat ve rica etme senaryolarında büyük zorluklar yaşadı. Araştırmacılar bunu, bu durumların 'dolaylılık ve alçakgönüllülük gibi bağlama duyarlı normlara dayanması ve genellikle Batı'nın doğrudanlık gelenekleriyle çelişmesi' ile ilişkilendirdi.
Yapay Zeka Kültür Öğrenebilir mi? Gelişim ve Sınırlar
Öne Çıkanlar:
- Bağlam İçi Öğrenme: Llama 3'e yeterli taarof bağlamı verildiğinde, doğruluk oranı %37.2'den %57.6'ya yükseldi. Bu, modellerin eğitim verilerinde 'örtük kültürel bilgi' barındırdığını ve bunun bağlam içi öğrenme ile etkinleştirilebileceğini gösteriyor.
- İnce Ayar ile İyileşme: Süpervizyonlu ince ayar (Supervised Fine-tuning) ve Doğrudan Tercih Optimizasyonu (DPO) teknikleri kullanılarak Llama 3'e yapılan eğitim, performansı %37.2'den %79.5'e çıkararak anadili konuşanların seviyesine (%81.8) yaklaştırdı.
- Hediye Verme Başarısı: Modellerin testlerde en iyi performansı hediye verme senaryolarında göstermesi ilginçti. Araştırmacılar, bunun hediye verme normlarının (ilk reddetme gibi) Çin, Japon ve Arap etiketi gibi kültürlerarası bir doğaya sahip olması ve bu nedenle çok dilli eğitim verilerinde daha fazla temsil edilmesiyle ilgili olduğunu düşünüyor.
Bu iyileşmeler etkileyici olsa da, kültürel olarak uyumlu olmak sadece sosyal senaryoları ezberlemekten çok daha fazlasıdır. Gerçek kültürel zeka, insan etkileşiminin karmaşık nüanslarını, sezgiyi ve bağlamı içerir. Bir yapay zekanın size kibarca reddetmeyi veya ısrar etmeyi öğretebilmesi bir yere kadar faydalı olabilir, ancak gerçek bir insan etkileşiminin yerini tutması şu an için pek mümkün görünmüyor.
Bu araştırma, yapay zekanın sadece dilbilgisi kurallarını ve kelime dizilimlerini değil, aynı zamanda insan etkileşimlerinin derin kültürel katmanlarını da anlaması gerektiğinin altını çiziyor. AI geliştikçe, kültürel yetkinlik alanında daha fazla ilerleme kaydedileceği kesin; ancak tam anlamıyla kültürel zeka, uzun vadeli bir hedef olmaya devam edecek. Bu durum, bize yapay zeka çevirmenlerinin ve yorumcularının insan zekasının yerini almasının önündeki engelleri hatırlatıyor.
Kaynak: Yapay zeka chatbotlarının kültürel incelikleri anlamakta zorlandığına dair bu haber, PC Gamer'daki detaylı incelemeden derlenmiştir.