LEOPARD：腾讯AI Lab西雅图实验室推出的视觉语言模型

LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型，专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集，在多个基准测试中表现卓越，适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。

蚝油菜花

1146人浏览 · 2024-11-29 19:48:56

蚝油菜花 · 2024-11-29 19:48:56 发布

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

模型设计：LEOPARD专为处理文本丰富的多图像任务设计，具备自适应高分辨率多图像编码能力。
技术特点：整合多模态大型语言模型架构，利用大规模多模态指令调优数据集进行训练。
应用场景：适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个领域。

正文

LEOPARD 是什么

公众号: 蚝油菜花 - Leopard

LEOPARD是腾讯AI Lab西雅图实验室推出的视觉语言模型，专为理解和处理含有大量文本的多图像任务设计。该模型通过两个主要技术创新来实现其功能：一是策划约一百万条专门针对文本丰富、多图像场景的高质量多模态指令调优数据集；二是开发自适应高分辨率多图像编码模块，动态优化视觉序列长度分配。

LEOPARD在多个基准测试中展现卓越的性能，特别是在需要理解单个图像内容及跨多个视觉输入进行推理的复杂任务中表现出色。

LEOPARD 的主要功能

处理文本丰富的多图像任务：用于理解和处理包含大量文本信息的多图像场景，如幻灯片、扫描文档和网页截图等。
跨图像推理：模型能理解单个图像的内容，在多个图像间进行逻辑推理和关系建立。
高分辨率图像处理：基于自适应高分辨率多图像编码模块，能有效处理高分辨率图像，保持文本和细节的清晰度。
动态视觉序列长度优化：根据输入图像的原始纵横比和分辨率动态优化视觉序列长度，平衡图像细节和模型处理能力。
多模态指令调优：用大规模多模态指令调优数据集，能针对复杂的视觉语言任务进行优化。

LEOPARD 的技术原理

多模态大型语言模型（MLLM）：基于MLLM架构，整合视觉编码器、视觉语言连接器和语言模型，处理视觉和文本信息。
数据集构建：构建LEOPARD-INSTRUCT数据集，包含约一百万条针对文本丰富、多图像场景的指令，用在模型训练和优化。
自适应高分辨率编码：基于自适应策略，根据输入图像的特性动态调整视觉特征序列，适应模型的序列长度限制。
像素洗牌技术：应用像素洗牌操作，将长视觉特征序列无损压缩成更短的序列，便于模型处理更多的高分辨率图像。
图像分割：将高分辨率图像分割成多个子图像，以便独立处理并保留细节，然后将视觉特征与文本信息一起输入到语言模型中。

资源

项目官网：https://github.com/tencent-ailab/Leopard
GitHub 仓库：https://github.com/tencent-ailab/Leopard
HuggingFace 模型库：https://huggingface.co/datasets/wyu1/Leopard-Instruct
arXiv 技术论文：https://arxiv.org/pdf/2410.01744

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐