TLDR

  • Jina Embeddings V3: 先进的多语言嵌入模型
  • GNOME 47 “Denver” 桌面环境正式发布

Jina Embeddings V3: 先进的多语言嵌入模型

Jina AI 近日推出 jina-embeddings-v3,这是一款拥有 5.7 亿参数的最先进文本嵌入模型。它在多语言数据和长上下文检索任务上均实现了 SOTA 性能,支持高达 8192 个词元的输入长度。该模型配备了特定任务的低秩自适应 (LoRA) 适配器,使其能够为各种任务生成高质量的嵌入,包括查询-文档检索、聚类、分类和文本匹配。

性能

在 MTEB 英文、多语言和 LongEmbed 基准测试中,jina-embeddings-v3 在英文任务上优于 OpenAI 和 Cohere 的最新专有嵌入,同时在所有多语言任务上也超过了 multilingual-e5-large-instruct。凭借 1024 的默认输出维度,用户可以利用 Matryoshka 表示学习 (MRL) 集成,在不牺牲性能的情况下将嵌入维度任意截断至 32。

模型架构

jina-embeddings-v3 的架构基于 jina-XLM-RoBERTa 模型,并引入了五个特定任务的 LoRA 适配器,以优化四种不同任务的嵌入:

  • retrieval.queryretrieval.passage 用于非对称检索任务中的查询和段落嵌入
  • separation 用于聚类任务
  • classification 用于分类任务
  • text-matching 用于涉及语义相似性的任务,例如 STS 或对称检索

使用入门

通过 Jina AI Search Foundation API

使用 jina-embeddings-v3 最简单的方法是访问 Jina AI 主页 并导航到 Search Foundation API 部分。从今天开始,该模型将作为所有新用户的默认模型。

以下是使用示例代码:

curl https://api.jina.ai/v1/embeddings \
	 -H "Content-Type: application/json" \
	 -H "Authorization: Bearer jina_387ced4ff3f04305ac001d5d6577e184hKPgRPGo4yMp_3NIxVsW6XTZZWNL" \
	 -d '{
	"model": "jina-embeddings-v3",
	"task": "text-matching",
	"dimensions": 1024,
	"late_chunking": true,
	"input": [
		"Organic skincare for sensitive skin with aloe vera and chamomile: ...",
		"Bio-Hautpflege für empfindliche Haut mit Aloe Vera und Kamille: Erleben Sie die wohltuende Wirkung...",
		"Cuidado de la piel orgánico para piel sensible con aloe vera y manzanilla: Descubre el poder ...",
		"针对敏感肌专门设计的天然有机护肤产品:体验由芦荟和洋甘菊提取物带来的自然呵护。我们的护肤产品特别为敏感肌设计,...",
		"新しいメイクのトレンドは鮮やかな色と革新的な技術に焦点を当てています: 今シーズンのメイクアップトレンドは、大胆な色彩と革新的な技術に注目しています。..."
    ]}'

与 v2 相比,v3 在 API 中引入了三个新参数:taskdimensionslate_chunking

  • task:根据下游任务设置,例如 retrieval.passageretrieval.queryseparationclassificationtext-matching
  • dimensions:允许用户在空间效率和性能之间进行权衡,可以降低嵌入的维度。
  • late_chunking:控制是否使用新的分块方法对句子批次进行编码。

通过其他途径

jina-embeddings-v3 也将很快在 Azure Marketplace 和 AWS SageMaker 上提供。此外,它还与 Pinecone、Qdrant 和 Milvus 等向量数据库提供商以及 LlamaIndex、Haystack 和 Dify 等 LLM 编排框架紧密集成。

jina-embeddings-v3 是文本嵌入模型领域的一项新突破,也是 Jina AI 的一个重要里程碑。凭借其长上下文嵌入、多语言支持和高性能,jina-embeddings-v3 将成为各种应用的基础嵌入模型,包括 RAG、代理等 。

来源:

https://jina.ai/news/jina-embeddings-v3-a-frontier-multilingual-embedding-model

GNOME 47 “Denver”桌面环境正式发布

GNOME 是在操作系统之上提供图形用户界面(GUI)的软件套件。它是开源免费的,被许多主流 Linux 操作系统所采用,如 Debian、Fedora、Ubuntu、Red Hat 等。(Desktop environment)

近日,GNOME 项目正式推出代号为 “Denver” GNOME 47 桌面环境。

主要更新

  1. 个性化主题颜色: 支持自定义系统主题颜色,可选择多种颜色替代默认蓝色。
  2. 系统增强:
    • 优化小屏幕支持,自动缩放图标。
    • 支持 Intel 和 AMD GPU 的屏幕录制硬件编码,提升性能。
    • GTK 渲染改进,提升旧硬件和移动设备的响应速度和视觉效果。
    • 支持远程桌面会话持久化,断线重连后可继续之前的会话。
    • 对话框窗口采用全新设计,提升各种屏幕尺寸下的可用性。
  3. 全新文件打开/保存对话框: 基于文件应用,功能更强大,与文件应用保持一致体验。支持缩放、排序、重命名、预览等功能。
  4. 文件应用改进:
    • 导航改进:新增“网络”视图,方便浏览远程文件位置;侧边栏列出所有物理磁盘;可移除默认侧边栏项目,方便自定义。
    • 搜索改进:提供更多搜索性能上下文信息,帮助用户了解搜索速度和结果。
    • 界面现代化:更新了新建文件夹、文件压缩等对话框界面。
  5. 设置应用改进:
    • 新增“悬停激活窗口”选项。
    • 支持在添加输入源对话框中预览输入源。
    • 为移动设备提供不同的暂停时间选项,优化电源管理。
    • 多个设置面板采用最新界面组件,外观更现代化。
  6. 在线账户改进:
    • IMAP/SMTP 邮件账户信息自动填写。
    • Kerberos 账户功耗降低。
    • Microsoft 365 账户支持邮件、日历和联系人集成。
    • WebDAV 账户自动发现可用服务,简化设置流程。
  7. 网页浏览器改进:
    • 新增自动填写表单功能。
    • 书签侧边栏重新设计。
    • 新增隐私报告功能,显示已被屏蔽的跟踪器数量。
    • 暂时移除 Firefox Sync 支持。
  8. 日历应用改进:
    • 大量错误修复和细节优化。
    • 重新设计事件详情弹出窗口,布局更清晰,功能更完善。
  9. GNOME Circle 新增应用:
    • Binary, Biblioteca, Hieroglyphic, Resources, Tuba, Valuta
  10. 其他改进:
    • 磁盘使用分析器界面更新。
    • 等待光标更新。
    • 地图应用默认使用矢量图块,并在部分地区支持公共交通路线规划。
    • 软件应用推荐更新。

开发者相关

GNOME 47 为开发者带来一系列新功能和改进,包括:

  • 增强的分数显示缩放功能(实验性)。
  • 支持在 Wayland 桌面会话下使用 VR 头盔玩游戏。
  • 为 NVIDIA 驱动程序添加了可靠的硬件加速屏幕共享基础。

获取 GNOME 47

GNOME 软件是自由软件,所有代码均可免费下载、修改和重新分发。建议等待发行版官方软件包,或尝试使用 GNOME OS 镜像。

关于 GNOME

GNOME 项目是一个由非盈利基金会支持的国际社区,致力于提供卓越的用户体验、一流的国际化和辅助功能。GNOME 是一个自由开源项目!

来源:

https://release.gnome.org/47/

更多内容请查阅 : blog-240922


关注微信官方公众号 : oh my x

获取开源软件和 x-cmd 最新用法

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐