1 članak
Nova arXiv studija pokazuje da reward modeli i dalje nagrađuju duge, samouvjerene i previše uljudne odgovore.