狙击OpenAI 谷歌发布Gemini 2.0 一切为了智能体

12月2日消息，没等到OpenAI12连炸结束，谷歌直接正面硬刚，正式发布 Gemini 2.0 系列 AI 模型首个版本 Gemini 2.0 Flash。据谷歌称，其速度较上一代提升两倍，并超越 1.5 Pro 专业版。新模型支持多模态输入与输出，包括文本、图像、音频、视频的原生生成，同时提供强大的工具调用能力，如 Google 搜索、代码执行及第三方函数集成。比起功能上的提升，谷歌直接将 G

网易智能

88人浏览 · 2024-12-12 13:49:06

网易智能 · 2024-12-12 13:49:06 发布

12月2日消息，没等到OpenAI12连炸结束，谷歌直接正面硬刚，正式发布 Gemini 2.0 系列 AI 模型首个版本 Gemini 2.0 Flash。据谷歌称，其速度较上一代提升两倍，并超越 1.5 Pro 专业版。新模型支持多模态输入与输出，包括文本、图像、音频、视频的原生生成，同时提供强大的工具调用能力，如 Google 搜索、代码执行及第三方函数集成。

比起功能上的提升，谷歌直接将 Gemini 2.0定义为：为新智能体时代构建的下一代模型，或许更值得关注。Deepmind CEO Demis Hassabis 也表示：“2025 年将是 AI 智能体的时代，Gemini 2.0 将是支撑我们基于智能体工作的最新一代模型。”

Gemini 2.0 Flash 的开发者实验版现已上线，支持多模态输入及文本输出功能。早期合作伙伴还可试用文本转语音及图像生成等高级功能。全面版本计划于 2024 年 1 月推出，支持更多模型尺寸及场景。

不止大模型，全新功能 Deep Research 今日起也将向 Gemini Advanced 用户开放。该功能支持高级推理与长上下文理解，用于复杂主题研究及报告撰写。同时，AI Overviews 将借助 Gemini 2.0 的能力，扩展至更复杂问题与多语言适配，进一步提升用户体验。（网易科技/袁宁）

以下为Google&AIphabet CEO Sundar Pichai 的寄语：

信息是人类进步的基石。26 年来，我们始终专注于我们的使命 —— 整合全球信息，供大众使用，让人人受益。这也是我们持续拓展人工智能前沿领域的原因。我们整合来自世界各地的信息，并通过多样化的输出方式，让这些信息触手可及，真正为您所用。

正是基于这个愿景，我们在去年年底推出了 Gemini 1.0。作为首个原生多模态模型，Gemini 1.0 和 1.5 在多模态和长上下文处理方面取得了重大进展，能够理解跨越文本、视频、图像、音频和代码等多种形式的信息，并处理更为庞大的信息。

现在，数百万开发者正在基于 Gemini 进行开发。Gemini 也正在帮助我们自己重新构想所有的产品——包括我们拥有 20 亿用户的 7 款产品——并打造新的产品。NotebookLM 就是个很好的例子，它展示了多模态和长上下文能够为人们带来什么，以及为什么如此受大家喜爱。

在过去一年里，我们在持续开发更多智能体模型，这也意味着它们可以更好地理解周围的世界，提前思考多个步骤，并在您的监督下代表您行动。

今天，我们很高兴推出了为新智能体时代构建的下一代模型：Gemini 2.0，这是我们迄今为止最强大的模型。凭借在多模态方面的新进展——例如原生图像和原生音频的输出以及原生工具使用—— Gemini 2.0 使我们能够构建新的 AI 智能体，从而让我们离构建通用助手的愿景更进一步。

今天，我们将 2.0 开放给开发者以及受信任的测试人员。我们也正在积极推进将其整合到我们的产品中，率先从 Gemini 和 Search 开始。从今天开始，Gemini 2.0 Flash 体验版模型将对所有 Gemini 用户开放。同时，我们还推出了 Deep Research 的新功能，它运用高级推理和长上下文处理能力，承担研究助手的角色，帮助您探索复杂的主题并撰写报告。该功能自今日起对 Gemini Advanced 用户开放。

Search 无疑是受到人工智能影响最深远、变革最显著的产品。如今，AI Overviews 已触达 10 亿用户，该功能使用户能够提出全新的问题类型，迅速成为 Search 有史以来最受欢迎的功能之一。接下来，我们会将 Gemini 2.0 的高级推理能力融入 AI Overviews，以攻克更复杂的主题和多步骤问题，包括高等数学方程、多模态查询和编码。我们本周已经在小范围进行了测试，并计划于明年年初在更大范围推出。同时，我们还计划明年将 AI Overviews 功能面向更多国家开放，适配更多语言。

2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入。它基于我们定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持，今天 Trillium 也全面向用户开放，以便他们能够基于此进行开发。

如果说 Gemini 1.0 是整合和理解信息，那么 Gemini 2.0 能够让信息更加有用。我非常期待 Gemini 2.0 时代的无限可能！

—END—

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

对近期接触到的直播相关知识进行梳理

M3U8 文件是 HLS (HTTP Live Streaming) 协议的核心组件，它本质上是一个播放列表文件，包含媒体流的结构信息。直播与视频聊天的对比：我觉得直播是通过流媒体技术把现场的图像和声音采集后分发出去，供观众在线围观，可以认为是开放的，一般没有人数限制；而视频聊天是点对点的线上交流，是基于UDP/TCP的实时传输协议实现的。流媒体是通过互联网实时传输音视频内容的技术，用户无需等待完