NLPExplorer

LLMSEC - 2025

Total Papers:- 16

Total Papers accross all years:- 16

Total Citations :- 0

1 2 »

RedHit: Adaptive Red-Teaming of Large Language Models via Search, Reasoning, and Preference Optimization

Mohsen Sorkhpour | Abbas Yazdinejad | Ali Dehghantanha |

LongSafety: Enhance Safety for Long-Context LLMs

Proceedings of the The First Workshop on LLM Security (LLMSEC)

Leon Derczynski | Jekaterina Novikova | Muhao Chen |

1-2-3 Check: Enhancing Contextual Privacy in LLM via Multi-Agent Reasoning

Fine-Tuning Lowers Safety and Disrupts Evaluation Consistency

Kathleen C. Fraser | Hillary Dawkins | Isar Nejadgholi | Svetlana Kiritchenko |

Shortcut Learning in Safety: The Impact of Keyword Bias in Safeguards

Using Humor to Bypass Safety Guardrails in Large Language Models

Pedro Cisneros-Velarde |

SPADE: Structured Prompting Augmentation for Dialogue Enhancement in Machine-Generated Text Detection

Haoyi Li | Angela Yuan | Soyeon Han | Chirstopher Leckie |

Weakest Link in the Chain: Security Vulnerabilities in Advanced Reasoning Models

Arjun Krishna | Erick Galinkin | Aaditya Rastogi |

UTF: Under-trained Tokens as Fingerprints —— a Novel Approach to LLM Identification

X-Guard: Multilingual Guard Agent for Content Moderation

Bibek Upadhayay | Vahid Behzadan |

RealHarm: A Collection of Real-World Language Model Application Failures

Pierre Le Jeune | Jiaen Liu | Luca Rossi | Matteo Dora |

Bypassing LLM Guardrails: An Empirical Analysis of Evasion Attacks against Prompt Injection and Jailbreak Detection Systems