NLPExplorer

GEM - 2025

Total Papers:- 68

Total Papers accross all years:- 164

Total Citations :- 0

1 2 3 4 5 »

SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities

Big Escape Benchmark: Evaluating Human-Like Reasoning in Language Models via Real-World Escape Room Challenges

Zinan Tang | QiYao Sun |

ReproHum #0033-05: Human Evaluation of Factuality from A Multidisciplinary Perspective

Andra-Maria Florescu | Marius Micluța-Câmpeanu | Stefana Arina Tabusca | Liviu P Dinu |

ReproHum #0031-01: Reproducing the Human Evaluation of Readability from “It is AI’s Turn to Ask Humans a Question”

Daniel Braun |

Free-text Rationale Generation under Readability Level Control

Yi-Sheng Hsu | Nils Feldhus | Sherzod Hakimov |

Spatial Representation of Large Language Models in 2D Scene

WenyaWu WenyaWu | Weihong Deng |

Finance Language Model Evaluation (FLaME)

(Towards) Scalable Reliable Automated Evaluation with Large Language Models

Bertil Braun | Martin Forell |

U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in Large Language Models

HEDS 3.0: The Human Evaluation Data Sheet Version 3.0

Anya Belz | Craig Thomson |

An Analysis of Datasets, Metrics and Models in Keyphrase Generation

Florian Boudin | Akiko Aizawa |

Prompt, Translate, Fine-Tune, Re-Initialize, or Instruction-Tune? Adapting LLMs for In-Context Learning in Low-Resource Languages

Christopher Toukmaji | Jeffrey Flanigan |

From Calculation to Adjudication: Examining LLM Judges on Mathematical Reasoning Tasks

Investigating the Robustness of Retrieval-Augmented Generation at the Query Level

Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish