什么是谷歌双子座?
Google Gemini 是一个生成式人工智能模型系列。与 OpenAI 的 ChatGPT 等之前的法学硕士不同,谷歌的工具可以理解、处理、分析和生成不同的数据类型,包括文本、图像和视频,使其成为多模态 AI 模型。
这些模型是 Google 各团队(包括 DarkMind 和 Google Research)大规模协作努力的成果。目前,Gemini 目前可以通过与 Google Bard 和 Pixel 8 的集成来使用。该公司表示,Gemini 将逐步整合到其他谷歌服务中,包括谷歌搜索和 Chrome 浏览器。

双子座纳米
Nano 型号专门设计用于智能手机,特别是 Google Pixel 8。据 Google 代表称,Gemini Nano 旨在执行不需要专门连接到外部服务器的设备上任务,例如总结文本和提出建议在聊天应用程序中回复。
双子座专业版
与 Nano 型号不同,Pro 在 Google 的数据中心上运行,旨在为最新版本的 Google Bard(该公司最新的人工智能聊天机器人)提供支持。据该公司称,Gemini Pro 能够理解复杂的查询并提供快速的响应时间。
双子座超
Google Ultra 被嘲笑为这三个模型中功能最强大的,在 LLM 研究和开发中使用的 32 个最广泛使用的学术书签中,有 30 个超过了当前最先进的结果。虽然 Ultra 目前尚未广泛使用,但它能够执行高度复杂的任务。据谷歌代表称,该模型将在完成当前测试阶段后发布。
是什么让 Google Gemini 如此受欢迎?
尽管谷歌在过去十年中一直是人工智能研究的领跑者,并开发了为大多数大型语言模型(LLM)提供支持的变压器架构,但其生成式人工智能 GPT 模型仍然落后于 OpenAI。
Gemini 模型是谷歌追赶的尝试。这些模式的多式联运能力肯定会给该公司的竞争对手带来竞争,但这并不是他们所能提供的全部。
这就是为什么谷歌的人工智能可能很快就会成为市场上最受欢迎的生成式人工智能模型之一。
最先进的性能
据谷歌称,该公司一直在严格测试和评估其模型在各种任务上的性能,包括自然音频、图像和视频理解以及数学推理。
例如,Gemini UItra 的性能在法学硕士研究和开发中使用的 32 个最广泛使用的学术书签中的 30 个上超过了当前最先进的结果,总分达到 90.0% [1]。
这使得 Gemini Ultra 成为第一个在 MMMU(大规模多任务语言理解)方面超越人类专家的生成模型,MMMU 综合使用物理、数学、历史、法律、伦理学和医学等 57 个学科来测试生成模型解决问题的能力能力和世界知识。 [2]
Google Gemini 在新的 MMMU 基准测试中也取得了 59.4% 的最高分,该基准测试由跨越多个领域的各种多模态测试组成,需要深思熟虑的推理。在图像基准测试中,Gemini Ultra 利用光学字符识别系统从图像中提取文本以进行进一步处理和分析,从而超越了之前最先进的模型。
下一代功能
大多数多模态模型使用针对不同模态训练单独组件的标准方法进行训练,然后将它们拼接在一起以粗略地模拟多模态功能,而与大多数多模态模型不同,Gemini 被设计为原生多模态。
虽然使用标准方法训练的模型可以在某些任务(例如描述图像)上表现相对较好,但它们通常难以处理更概念化和复杂的推理。另一方面,Google Gemini 在不同模式上从头开始进行预训练,然后使用额外的多模式数据进行微调,以进一步提高其准确性和有效性。
这种方法有助于 Gemini 模型无缝地理解、处理和推理不同类型的输入,使其比现有的多模式模型更可靠。
复杂的推理
双子座模型复杂的推理能力可以帮助他们理解复杂的视觉和书面信息。这使得他们非常擅长发现在处理大量数据时无法辨别的知识。
这种通过分析、过滤和理解信息从大量数据中提取见解的卓越能力最终将有助于在科学和金融等多个领域以数字速度实现新的突破。
高级编码
市场上大多数LLM,包括OpenAI的GPT模型,都可以生成代码。然而,Gemini 凭借其理解、解释和生成多种编程语言(包括 Java、Python、C++ 和 GO)代码的卓越能力,在这方面更上一层楼。
它还在各种编程基准测试中表现出色,包括 HumanEval,这是一种用于评估编码任务性能的行业标准基准测试。 [3] 它通过利用 Google 内部保留的数据集 Natural2Code 来实现这一目标,该数据集使用作者生成的源代替基于网络的源。
此外,它还可以用于创建更高级的编码系统。例如,谷歌最近使用 Gemini 创建了 AlphaCode2,这是 AlphaCode 的更高级模型,能够解决涉及复杂数学和理论科学问题的复杂编码问题。
当针对 AlphaCode 进行评估时,AlphaCode 2 解决的问题数量是之前的模型的两倍,显示出了显着的改进。事实上,据估计,AlphaCiode 2 的性能优于 85% 的同类竞争模型,比 AlphaCode 的 50% 分数提高了 35%。 [4]
如何访问Gemini AI
并非所有模型都向公众开放。不过,您可以通过 Google Bard 和 Google Pixel 8 智能手机访问 Google 的中间层型号 Gemini Pro。还有猜测称,它可能很快就会在网络上(gemini.google.com)和移动应用程序上提供。
在移动设备上访问 Gemini
如果您有 Android 设备,则可以从 Google Play 商店下载 Gemini 应用程序或选择在 Google Assistant 上进行升级。如果您选择使用后者,您将能够像使用 Google Assistant 一样调用它。这意味着您只需按电源按钮或说“Hello Google”即可使用 Pro。
与您对 Google Assistant 的期望类似,它会弹出在您的屏幕上,您可以在其中使用语音命令提出问题或给出在手机上执行不同任务的说明,例如为照片生成标题或总结文本。
通过API访问Gemini
您可以通过注册 Gemini 高级订阅来试用 Gemini AI API。 [5] 或者,您可以通过基于云的 API 访问此工具,这使您能够在应用程序中运行 Gemini。
要使用API,您首先需要创建一个帐户并获取API密钥。 API 密钥目前是免费的,但我们不能排除在不久的将来付费订阅的可能性。
获得 API 密钥后,您可以使用它来调用 Gemini AI API,这使您可以与 Gemini 进行交互并利用其令人印象深刻的功能。
以下是如何开始使用此工具:
- 访问 Gemini AI 网站并创建帐户
- 获取 API 密钥
- 安装适合您首选编程语言的客户端库
- 在代码编辑器中,导入 Gemini AI 客户端库并使用 API 密钥对其进行初始化
- 调用 Gemini AI 来分析图像、生成文本、回答问题、生成创意内容等等
有效使用 Gemini AI 的技巧
与其他大型语言模型一样,您需要利用适当的技术来提出获得正确结果的最佳提示。在这方面,以下是一些关于利用 Gemini AI 掌握即时工程艺术的技巧:
- 明确你的意图
- 建立角色(告诉 Gemini AI 它应该是谁)
- 设置您喜欢的输出的基调
- 定义输出的结构
- 在提示中使用描述性语言
最后的想法
谷歌一直处于开发尖端人工智能技术的最前沿。因此,它的最新版本与竞争对手展开竞争也就不足为奇了。尽管 Gemini AI 相对较新且尚未完全向公众开放,但它引起了有兴趣尝试其潜在功能的开发人员和技术爱好者的兴趣。
暂无评论