c54c65504f087809b84fc545af6c54d8.png

12月2日消息,没等到OpenAI12连炸结束,谷歌直接正面硬刚,正式发布 Gemini 2.0 系列 AI 模型首个版本 Gemini 2.0 Flash。据谷歌称,其速度较上一代提升两倍,并超越 1.5 Pro 专业版。新模型支持多模态输入与输出,包括文本、图像、音频、视频的原生生成,同时提供强大的工具调用能力,如 Google 搜索、代码执行及第三方函数集成。

100780b7e0e9aef93b5fbd9f0e2906de.jpeg

比起功能上的提升,谷歌直接将 Gemini 2.0定义为:为新智能体时代构建的下一代模型,或许更值得关注。Deepmind CEO Demis Hassabis 也表示:“2025 年将是 AI 智能体的时代,Gemini 2.0 将是支撑我们基于智能体工作的最新一代模型。”

Gemini 2.0 Flash 的开发者实验版现已上线,支持多模态输入及文本输出功能。早期合作伙伴还可试用文本转语音及图像生成等高级功能。全面版本计划于 2024 年 1 月推出,支持更多模型尺寸及场景。

efb63ec119f6b7b857d41f35574e19ac.png

不止大模型,全新功能 Deep Research 今日起也将向 Gemini Advanced 用户开放。该功能支持高级推理与长上下文理解,用于复杂主题研究及报告撰写。同时,AI Overviews 将借助 Gemini 2.0 的能力,扩展至更复杂问题与多语言适配,进一步提升用户体验。(网易科技/袁宁)

以下为Google&AIphabet CEO Sundar Pichai 的寄语:

信息是人类进步的基石。26 年来,我们始终专注于我们的使命 —— 整合全球信息,供大众使用,让人人受益。这也是我们持续拓展人工智能前沿领域的原因。我们整合来自世界各地的信息,并通过多样化的输出方式,让这些信息触手可及,真正为您所用。

正是基于这个愿景,我们在去年年底推出了 Gemini 1.0。作为首个原生多模态模型,Gemini 1.0 和 1.5 在多模态和长上下文处理方面取得了重大进展,能够理解跨越文本、视频、图像、音频和代码等多种形式的信息,并处理更为庞大的信息。

现在,数百万开发者正在基于 Gemini 进行开发。Gemini 也正在帮助我们自己重新构想所有的产品——包括我们拥有 20 亿用户的 7 款产品——并打造新的产品。NotebookLM 就是个很好的例子,它展示了多模态和长上下文能够为人们带来什么,以及为什么如此受大家喜爱。

在过去一年里,我们在持续开发更多智能体模型,这也意味着它们可以更好地理解周围的世界,提前思考多个步骤,并在您的监督下代表您行动。

今天,我们很高兴推出了为新智能体时代构建的下一代模型:Gemini 2.0,这是我们迄今为止最强大的模型。凭借在多模态方面的新进展——例如原生图像和原生音频的输出以及原生工具使用—— Gemini 2.0 使我们能够构建新的 AI 智能体,从而让我们离构建通用助手的愿景更进一步。

今天,我们将 2.0 开放给开发者以及受信任的测试人员。我们也正在积极推进将其整合到我们的产品中,率先从 Gemini 和 Search 开始。从今天开始,Gemini 2.0 Flash 体验版模型将对所有 Gemini 用户开放。同时,我们还推出了 Deep Research 的新功能,它运用高级推理和长上下文处理能力,承担研究助手的角色,帮助您探索复杂的主题并撰写报告。该功能自今日起对 Gemini Advanced 用户开放。

Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今,AI Overviews 已触达 10 亿用户,该功能使用户能够提出全新的问题类型,迅速成为 Search 有史以来最受欢迎的功能之一。接下来,我们会将 Gemini 2.0 的高级推理能力融入 AI Overviews,以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。我们本周已经在小范围进行了测试,并计划于明年年初在更大范围推出。同时,我们还计划明年将 AI Overviews 功能面向更多国家开放,适配更多语言。

2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入。它基于我们定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持,今天 Trillium 也全面向用户开放,以便他们能够基于此进行开发。

如果说 Gemini 1.0 是整合和理解信息,那么 Gemini 2.0 能够让信息更加有用。我非常期待 Gemini 2.0 时代的无限可能!

—END—

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐