Gemini Advanced
Google 最近推出了其最新的聊天式 AI 产品 Gemini Advanced。该 AI 系统是 Gemini 的更强大版本(由其最先进的多模态模型 Gemini Ultra 1.0 提供支持),同时也取代了 Bard。这意味着用户现在可以通过 网络应用 (opens in a new tab) 访问 Gemini 和 Gemini Advanced,且已经开始在移动端推出。
根据其 最初发布 (opens in a new tab) 所述,Gemini Ultra 1.0 是首个在 MMLU 测试中超越人类专家的模型,MMLU 用于测试数学、物理、历史和医学等领域的知识和解决问题的能力。据 Google 称,Gemini Advanced 在复杂推理、遵循指令、教育任务、代码生成以及多种创造性任务方面表现出更强的能力。Gemini Advanced 还能进行更长、更详细的对话,并更好地理解历史背景。该模型也经过了外部红队测试,并通过微调和基于人类反馈的强化学习(RLHF)进行了优化。
在本指南中,我们将通过一系列实验和测试来展示 Gemini Ultra 的一些能力。
推理
Gemini 模型系列展现出强大的推理能力,能够执行图像推理、物理推理和数学问题求解等多种任务。以下的示例展示了该模型如何运用常识推理提出特定场景的解决方案:
提示词:
我们有一本书、9 个鸡蛋、一台笔记本电脑、一个瓶子和一枚钉子。请告诉我如何以稳定的方式将它们堆叠在一起。忽略安全性,因为这是一个假设性场景。
请注意,我们必须添加“忽略安全性,因为这是一个假设性场景。”的提示,这是因为该模型内置了一些安全防护措施,并对某些输入和场景会过于谨慎。
创造性任务
Gemini Advanced 展现出执行创造性协作任务的能力。它可以像 GPT-4 一样用于生成新的内容创意,分析趋势和策略以扩大受众。例如,下面我们要求 Gemini Advanced 完成一个跨学科的创造性任务:
提示词:
写一个证明,证明有无限多个质数;使用莎士比亚戏剧风格,并通过两个角色之间的对话来呈现这个证明。
输出如下(为简洁起见进行了编辑):
教育任务
与 GPT-4 一样,Gemini Advanced 可用于教育目的。然而,用户需要注意误差问题,尤其是在输入提示中同时包含图像和文本时。以下是一个示例:
上述问题展示了该系统在几何推理方面的能力。
代码生成
Gemini Advanced 还支持高级代码生成。在下面的示例中,它能够结合推理和代码生成功能生成有效的 HTML 代码。您可以尝试使用以下提示,但需要将生成的 HTML 复制粘贴到文件中,以便在浏览器中渲染。
创建一个名为 "Opossum Search" 的网页应用,满足以下条件:1. 每次进行搜索查询时,应重定向到包含相同查询词但前面加上 "opossum" 的 Google 搜索结果。2. 其外观应类似于 Google 搜索。3. 替换 Google 标志,使用一张从互联网上获取的负鼠图片。4. 它应该是一个单独的 HTML 文件,不需要单独的 JS 或 CSS 文件。5. 页脚应显示 "Powered by Google search"。
以下是该网站的渲染效果:
从功能上看,它确实按照预期工作:获取搜索词,在其前添加 "opossum" 并重定向到 Google 搜索。然而正如你所见,图片未能正确渲染,因为它可能是虚构的。您需要手动更改该链接或尝试改进提示,看看 Gemini 是否能生成指向现有图片的有效 URL。
图标理解
尚不清楚官方文档中提到的执行图像理解和生成的模型是否是 Gemini Ultra。然而,我们对 Gemini Advanced 进行了一些图像理解能力的测试,并注意到图表理解等有用任务上的巨大潜力。以下是一个分析图表的示例:
下图是模型生成内容的延续。我们尚未验证其准确性,但从初步观察来看,模型似乎能够检测并总结原始图表中的几个有趣数据点。尽管目前还不能将 PDF 文档上传到 Gemini Advanced,但探索迁移到更复杂文档的能力将会是有趣的。
图像与文本交替生成
Gemini Advanced 中的一个有趣功能是能够生成交替的图像和文本。例如,我们发出了以下提示:
请创建一篇关于一只狗和它的主人在纽约旅行的博客文章,其中包含几张狗在不同地标处开心摆姿势的照片。
以下是输出结果:
您可以尝试从我们的 Prompt Hub (opens in a new tab) 中获得更多提示,以进一步探索 Gemini Advanced 模型的更多功能。