在当前大语言模型(LLM)的防御体系中,安全对齐(Safety Alignment)虽已取得显著进展,但在实际应用中依然显得十分脆弱。恶意用户通过角色扮演、目标操纵、混淆等策略,诱导LLM输出危险、违规内容。更棘手的是,LLM的输入空间本就无边界,且攻击手段还在 ...
EOD 在一日结束时 Episode 200303 / 03 Mar 2020 Learn a useful abbreviation used to talk about the end of the working day ...