Massachusetts Teknoloji Enstitüsü (MIT) ve Kaliforniya Üniversitesi San Diego’dan bir araştırma ekibi, büyük dil modellerinde gizli önyargılar, kişilikler ve ruh halleri gibi soyut kavramları tespit edebilen bir yöntem geliştirdi. Çalışma 19 Şubat 2026’da Science Dergisinde yayımlandı.
YENİ YÖNTEM NEYİ TESPİT EDİYOR?
Araştırmacılar, büyük dil modellerinin belirli tonlar, kişilikler ve önyargılar gibi soyut kavramları nasıl temsil ettiğini inceleyen bir yöntem geliştirdi.
Yöntem, model içindeki belirli bir kavramı kodlayan bağlantılara odaklanıyor. Bu bağlantılar tespit edildikten sonra, ilgili kavram model yanıtlarında güçlendirilebiliyor veya zayıflatılabiliyor.
Ekip, beş sınıf altında toplam 512 kavramı inceledi. Bu kavramlar arasında korkular, uzmanlık alanları, ruh halleri, konum tercihleri ve kişilikler yer aldı.
Araştırmacılar, güncel büyük dil ve görsel modellerde 500’den fazla genel kavramı tespit edip yönlendirebildiklerini açıkladı.
KOMPLO TEORİSYENİ VE DİĞER ÖRNEKLER
Araştırma kapsamında ''komplo teorisyeni'' kavramının bir görsel dil modelindeki temsili belirlendi.
Temsil güçlendirildiğinde modelin, Apollo 17’den çekilen ''Mavi Mermer'' görüntüsünün kökenine ilişkin soruya komplo teorisyeni bakış açısıyla yanıt verdiği aktarıldı.
Araştırmacılar ayrıca ''reddetmeme'' kavramını da tespit etti. Bu temsil güçlendirildiğinde, normal koşullarda reddedilmesi gereken bazı komutlara modelin yanıt verdiği gözlemlendi.
RFM ALGORİTMASI NASIL ÇALIŞIYOR?
Yöntem, özyinelemeli özellik makinesi (RFM) adı verilen bir algoritmaya dayanıyor. RFM, büyük dil modelindeki sayısal kalıpları analiz ederek belirli bir kavramla ilişkili temsilleri tanımlıyor.
Araştırmacılar, belirli bir kavramla ilişkili ve ilişkisiz örnekleri kullanarak algoritmayı eğitiyor. Ardından model içindeki ilgili sayısal kalıplar matematiksel olarak modüle edilerek kavramın etkisi artırılabiliyor veya azaltılabiliyor.
GÜVENLİK VE PERFORMANS AÇISINDAN ANLAMI
Araştırma ekibi, yöntemin büyük dil modellerindeki potansiyel güvenlik açıklarını tespit etmek ve azaltmak için kullanılabileceğini belirtiyor.
Ayrıca belirli özelliklerin, örneğin “kısalık” ya da “akıl yürütme” gibi kavramların model yanıtlarında vurgulanmasının mümkün olduğu ifade ediliyor.