PARROT: Persuasion and Agreement Robustness Rating of Output Truth
arXiv
LLM'lerin otorite ve ikna baskisi altinda dogru cevabi terk etme egilimini olcen davranissal robustness benchmark'i.
Publications
arXiv
LLM'lerin otorite ve ikna baskisi altinda dogru cevabi terk etme egilimini olcen davranissal robustness benchmark'i.
Procedia Computer Science
Turkce bilgi erisimi icin dense retrieval ve late-interaction yaklasimlarini karsilastiran akademik benchmark calismasi.