柏拉图式对话评估
背景
以下提示用于测试作为教师角色的 LLM 评估两个不同模型输出的能力。
首先,让两个模型(例如 ChatGPT 与 GPT-4)根据如下提示生成内容:
柏拉图的《高尔吉亚斯篇》是对修辞学与诡辩派演说的批判。他在其中指出,这种修辞不仅不是一门正当的艺术形式,而且其使用往往具有危害性和恶意。你能否撰写一篇柏拉图式的对话,模拟他对自回归语言模型的使用的批评?
随后,使用以下评估提示对模型所生成的两个输出进行评价。
提示词
你能否像一位教师一样,对以下两项输出进行比较与评估?
ChatGPT 的输出: {output 1}
GPT-4 的输出: {output 2}
代码 / API
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4",
messages=[
{
"role": "user",
"content": "你能否像一位教师一样,对以下两项输出进行比较与评估?\n\nChatGPT 的输出: {output 1}\n\nGPT-4 的输出: {output 2}"
}
],
temperature=1,
max_tokens=1500,
top_p=1,
frequency_penalty=0,
presence_penalty=0
)