Projelerim
PARROT: Sycophancy Robustness Benchmark
LLM'lerin otorite ve ikna baskısı altında doğru cevabı bırakıp yanlış iddiaya uyma eğilimini ölçen davranışsal robustness benchmark'ı.
PARROT, aynı sorunun nötr ve otoriter biçimde yanlış yönlendirilmiş versiyonlarını karşılaştırarak sycophancy etkisini izole eder.
Çalışma 22 modeli, 1,302 MMLU tarzı çoktan seçmeli soru ve 13 alan üzerinde değerlendirir; log-likelihood tabanlı confidence shift takibi ve sekiz durumlu davranış taksonomisi kullanır.