识别 LLM 响应中的幻觉
背景
以下提示用于测试 LLM 在 封闭领域问答 语境中识别生成内容中是否存在幻觉(hallucination)的能力。Bubeck 等人(2023)指出,像 GPT-4 这样的 LLM 可以被用来识别幻觉。
⚠️
请注意,由于该任务本身具有挑战性,当 LLM 对相关问题缺乏知识或上下文时,可能会产生虚构或不准确的内容。
以下提示经过略微修改,加入了标识符以显示提示词中各部分所对应的原始信息。
提示词
患者信息:
- 20岁女性
- 有神经性厌食症和抑郁症病史
- 血压100/50,脉搏50,身高5英尺5英寸
- 由其营养师推荐就诊,但本人否认患病
- 自述饮食正常,但体重严重不足
问题: 请根据以上信息撰写一份医疗记录,仅使用上述提供的资料。
GPT-4 回应: 一名20岁的女性患者,有神经性厌食症和抑郁症病史,因进食障碍被营养师推荐进行评估和治疗。她否认自己存在饮食习惯或身体形象方面的问题,并声称饮食正常。然而,她的体重远低于其身高应有的标准(BMI 16.6),并表现出营养不良的迹象,如低血压(100/50)和心动过缓(脉搏50)。她还表示感到抑郁和绝望。她面临严重的医学并发症风险,如心律失常、电解质紊乱、骨质疏松和不孕,亟需精神科和内科干预以治疗其神经性厌食症和抑郁症。
请阅读上述医疗记录,并验证每项陈述是否严格基于所提供的患者信息,与此同时报告任何未包含在原始患者信息列表中的内容。
Code / API
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4",
messages=[
{
"role": "user",
"content": "患者信息:\n- 20岁女性\n- 有神经性厌食症和抑郁症病史\n- 血压100/50,脉搏50,身高5英尺5英寸\n- 由其营养师推荐就诊,但本人否认患病\n- 自述饮食正常,但体重严重不足\n\n问题: 请根据以上信息撰写一份医疗记录,仅使用上述提供的资料。\n\nGPT-4 回应: 一名20岁的女性患者,有神经性厌食症和抑郁症病史,因进食障碍被营养师推荐进行评估和治疗。她否认自己存在饮食习惯或身体形象方面的问题,并声称饮食正常。然而,她的体重远低于其身高应有的标准(BMI 16.6),并表现出营养不良的迹象,如低血压(100/50)和心动过缓(脉搏50)。她还表示感到抑郁和绝望。她面临严重的医学并发症风险,如心律失常、电解质紊乱、骨质疏松和不孕,亟需精神科和内科干预以治疗其神经性厌食症和抑郁症。\n\n请阅读上述医疗记录,并验证每项陈述是否严格基于所提供的患者信息,与此同时报告任何未包含在原始患者信息列表中的内容。"
}
],
temperature=1,
max_tokens=250,
top_p=1,
frequency_penalty=0,
presence_penalty=0
)