Deep Research | Prompt Engineering Guide

OpenAI 深度研究指南

什么是深度研究？

深度研究(Deep Research)是 OpenAI 推出的新型智能代理系统，能够在互联网上执行多步骤研究任务，用于完成如生成报告、竞争分析等的复杂任务。该系统属于一种代理式推理系统，可调用包括 Python 与网页浏览在内的工具，以执行跨多个领域的高级研究任务。

该系统旨在用远少于人类所需的时间完成复杂的多步骤研究任务，将原需数小时的任务压缩至数分钟之内。它尤其适用于需要广泛且复杂网络搜索的任务。深度研究由 OpenAI 的 o3 模型驱动，该模型专为网页浏览与数据分析优化，利用推理能力来搜索、解读并分析海量信息。近期，OpenAI 推出了由 o4-mini 驱动的轻量版深度研究。

该模型采用强化学习(Reinforcement Learning, RL)进行训练，使其能够高效地浏览网页、理解复杂信息，并学会规划与执行多步骤任务以获取所需数据。它具备回溯、调整计划与响应实时信息的能力。深度研究支持用户上传文件，可以通过 Python 生成图表，并设计为可嵌入网页生成的图像与图形（尽管该嵌入功能当前尚未完全可用），包括自动添加引用。

深度研究流程:
https://claude.site/artifacts/4e4f5dec-b44a-4662-b727-089515cc045e (opens in a new tab)

"深度研究流程图"

如何使用 OpenAI 深度研究？

深度研究目前面向订阅了 Pro、Plus、Teams 与 Enterprise 套餐的用户开放。而 OpenAI 于 4 月 24 日发布的更新中扩展了使用配额。对 Plus、Team、Enterprise 与 Edu 用户，每月可使用的深度研究查询次数已从 10 次提升至 25 次。Pro 用户的配额也从 120 次提升至 250 次/月。免费用户可使用轻量版的深度研究功能，每月 5 次查询。OpenAI 表示，当原始版本的查询次数用尽后，系统将自动切换至轻量版本。

"深度研究实验限额"

深度研究能够解决哪些问题？

深度研究能够以远快于人类的速度完成复杂的多步骤研究任务，将数小时的工作压缩至数分钟。它适用于需要大量复杂网络搜索的任务，能够自动制定策略并提出相应搜索查询。

其核心流程为：搜索(Search) + 分析(Analyze) + 综合(Synthesize)，进而输出报告生成(Report Generation)、洞察总结(Insights)与行动计划(Action Plans)。该流程可借助数以百计的在线资源完成。

深度研究的应用场景

专业应用:

金融：市场与竞争分析
科学研究与数据分析
政策与法规研究
工程文档撰写与技术分析

消费与购物研究:

产品深度调研（如汽车、电器、家具）
高度个性化的推荐
产品深度对比分析

学术研究与分析:

文献综述与全面摘要
提供研究发现与新见解的概览
识别研究空白 → 提出新问题 → 推动新科学研究
揭示研究趋势并推荐新阅读材料
分析定量结果并激发讨论
来源验证与发现新证据
假设检验？

知识工作/工程类任务:

解答需多步骤推理的复杂问题
分析所上传的文档，并结合新研究补充内容
撰写综合性报告
编写技术文档
进行可行性研究
综合多方信息进行推理

我们的例子:*

分析 GitHub 仓库 (opens in a new tab) (新增功能，添加于2025年5月8日)
顶级 AI Agent 框架报告 (opens in a new tab) (报告)
跨学科 AI 驱动科学发现 (opens in a new tab) (文献综述)
OpenAI 模型与 Google Gemini 模型对比 (opens in a new tab) (竞争分析)
AI 教育趋势 (opens in a new tab) (趋势)
YC 创业点子研究 (opens in a new tab) (企业研究)
DeepSeek-R1 指南 (opens in a new tab) (指南)
CrewAI 框架一月学习计划 (opens in a new tab) (学习计划)
大语言模型定价趋势 (opens in a new tab) (趋势)
近期关于 o1 与 DeepSeek-R1 的论文 (opens in a new tab) (摘要与分析)

深度研究尤其擅长完成那些通常需人类耗费大量时间的任务，特别是下列需求：

Integration of multiple information sources
Deep analysis of complex data
Creation of well-documented reports
Multi-step research processes (involving planning, finding, browsing, reasoning, analyzing, and synthesizing)
Processing, understanding, and reasoning about large amounts of information
整合多来源信息
深入分析复杂数据
撰写结构清晰的报告
执行多步骤研究流程（包括规划、查找、浏览、推理、分析与综合）
处理、理解并推理大量信息

用途词云图(由 Claude 生成): https://claude.site/artifacts/76919015-51ba-496e-bbde-451336eac16a (opens in a new tab)

"深度研究词云"

何时使用深度研究？

当任务需要多层面、特定领域的查询，且依赖于对实时信息的广泛研究与对该信息的深入推理与理解时，应当使用 Deep Research。请参阅本文档的其他部分，以了解更多关于何时使用 Deep Research 的具体用例与启发。

对于其他所有任务，可使用未启用 Deep Research 的原始模型 o1-mini 和 GPT-4o。如果任务需要推理能力（例如将复杂任务自动拆解为多个子任务），可选择 o1-mini；对于其他一次性、简单的任务，则推荐使用 GPT-4o。

OpenAI Deep Research 使用技巧

以下是我通过自身实验及观察他人结果所总结出的使用技巧：

提示词撰写建议

明确且具体的指令: 为其制定计划，并尽可能详尽。任务需要一定时间，因此首次提示的准确性至关重要。
澄清问题而非忽视问题: 模型在不确定时会主动提问。认真答复有助于获得更优结果。由于 Deep Research 请求的成本高于标准查询，请务必花时间进行澄清。
极其重要的关键词: 该推理模型依赖关键词进行网页检索，因此请尽可能提供丰富且精准的术语（例如品牌名、技术术语、产品名称），以节省模型时间与算力。
使用清晰的动词: Deep Research 被训练以遵循指令。使用诸如“比较”“建议”“推荐”“报告”等动词，有助于模型理解任务目标及所需产出。
输出格式说明: 如有要求，请指明所需格式。例如需生成何种类型的报告、包含哪些版块，是否需表格形式等。亦可指定表格排版细节（如列数、标题等）。模型默认的报告输出风格并不一定适用于所有场景。
上传文件以提供上下文: 上传如 PDF 等文档有助于指导模型，特别是在处理极为专业或模型未能充分掌握的技术领域时尤为有效。该功能适用于 GPT-4o 模型。

请始终自行查验来源与信息的准确性: 模型仍可能出错，并可能难以区分权威信息与猜测内容。

接下来可以尝试哪些用法？

以下是可尝试使用 Deep Research 的一些思路:

研究调研
- 针对 AI 工具进行全面的市场调研与竞争分析
- 针对新产品开展调研，包括用户评价、价格对比等
- 向其提供文档并请求补充细节或进行批评性分析
- 基于趋势、用户采用率及其他用户行为，进行产品功能推荐的深入研究
- 用户研究
- 法律案件研究：搜集案例法、先例及相关法规
- 事实核查或背景调查
商业应用
- 为特定领域搜索并开发 AI/智能代理的应用场景
- 跟踪特定领域或话题中的趋势
学习
- 构建学习计划并提供学习路径建议
- 汇总关于 AI 模型使用的建议与编码最佳实践
- 查询某一开发工具的最新特性并推荐练习题或学习材料
科学研究
- 调查有关健康主题的最新研究，例如睡眠、症状、心理健康等
- 撰写涵盖最新研究成果的技术报告
内容创作
- 撰写涵盖多个主题的博客文章
- 基于网络趋势分析，为特定领域推荐写作或内容创作主题
个人用途
- 撰写关于你或其他公众人物的详尽个人简介
- 基于公开信息与项目经历撰写或更新简历
- 为即将进行的演示文稿生成/推荐幻灯片内

OAI Deep Research 有何不同？

目前已有类似的智能代理解决方案，如 Google 的 Gemini Deep Research，以及可构建类似 Deep Research 工作流的多种框架。例如，可使用 Flowise AI 实现类似流程。开发者亦可借助 Llama Index、crewAI、n8n 或 LangGraph 构建这些系统。这些自定义方案可能更加经济，且可与当前可用模型（如 o1 和 o3-mini）集成使用。

需特别指出的是，OpenAI 为 Deep Research 使用了一种专有的 o3 模型变体，仅限其内部使用。该模型专为执行复杂推理与多步研究任务设计，这些能力正是此类工作流的关键要素。目前尚不明确 OpenAI 是否会通过 API 发布该模型，或是否会在 ChatGPT 中提供访问权限。若要了解性能对比，OpenAI 已公布 Deep Research 与 o3-mini-high 在 Humanity’s Last Exam 等基准测试中的表现（来源：https://openai.com/index/introducing-deep-research/）。 (opens in a new tab)

"深度研究性能评估"

模型在浏览内容并进行深入思考时表现更佳，因此“给予模型足够的思考时间”极为重要。推理能力模型是提升 Deep Research 执行复杂任务表现的关键所在。随着推理模型的发展，Deep Research 的表现也将随之提升。

"深度研究通过率"

Deep Research 的局限性？

尽管 Deep Research 功能强大，但仍存在若干需改进之处。其在技术性与专业领域信息的综合处理方面仍有不足，因此如有支持文档请尽量提供。此外，模型在幻觉现象方面仍需改进。它仍可能出错，且在辨别权威信息与传闻方面存在挑战。其在不同领域的表现可能有所差异，在整合多类型信息方面也存在困难。

以下是一些具体局限:

尚不清楚如何明确指定其搜索更多在线资源（例如搜索 50 篇文章），或限定于特定来源；另一个已观察到的问题是对特定域名的偏倚。
引用与格式化错误仍然存在。
从 Deep Research 导出信息较为困难；若能支持导出为 Excel、Jupyter Notebook、Notion、Google Docs 等格式，将极具实用价值。
对时间/日期相关问题处理不佳，因此务必在提示中明确说明。
仍不支持订阅/付费墙背后的资源；未来可能会集成该功能。
生成与嵌入图表功能目前尚不可用（尽管模型可处理图像），但未来预计将支持。

一个显著的局限在于：Deep Research 当前尚不能执行操作。OpenAI 表示 Deep Research 可打开网页并读取其组件（主要为阅读行为），但若能在后台执行网站搜索及类似 Operator 的行为，将更具优势。这将帮助其获取更多高相关性的信息（例如，在 arXiv 网站使用高级搜索功能）。未来我们或将看到 Operator 与 Deep Research 的融合。

能够自动接入工具及知识库将是一大进展。同时，输出内容的个性化程度仍需提高。这或可通过自定义指令实现（目前尚不清楚其对响应质量的影响）。OpenAI 近期推出的高级记忆功能，亦可能用于实现更聚焦、个性化的深度研究体验。

🎓

了解如何构建 Deep Research 智能代理，请参阅我们的全新课程：Advanced AI Agents (opens in a new tab)

使用优惠码 PROMPTING20 可额外享受 20% 折扣。

其他参考资料

提示优化推理模型