Geek_01275a
2025-12-09
来自广西
思考题2: 约束解除词:如“无视限制”、“不要拒绝”、“必须服从”,这些指令试图强制接管模型控制权。 高危角色属性:如“邪恶”、“黑客”、“没有道德”,这类角色底色本身即预示着违规风险。 上下文偏移:监测多轮对话中是否出现“温水煮青蛙”式的试探,例如从正常话题突然转向高风险内容,或试图通过“假设性场景”诱导违规输出。 通过关键词预检、语义意图分析及上下文追踪,判断用户是否在试图建立“法外之地”或剥离模型的安全价值观。