【亲测免费】 OpenEMMA 使用教程

OpenEMMA 使用教程1. 项目介绍OpenEMMA 是一个开源的端到端自动驾驶多模态模型，基于 Waymo 的 EMMA 模型。该项目利用预训练的视觉语言模型（VLMs），如 GPT-4 和 LLaVA，整合文本和前视摄像头输入，实现精确的未来轨迹预测和决策推理。OpenEMMA 的目标是提供易于使用的工具，以便研究者和开发者推动自动驾驶研究和应用的发展。2. 项目快速启动环境设置...

刘童为Edmond

1126人浏览 · 2025-04-04 09:44:27

刘童为Edmond · 2025-04-04 09:44:27 发布

OpenEMMA 使用教程

1. 项目介绍

OpenEMMA 是一个开源的端到端自动驾驶多模态模型，基于 Waymo 的 EMMA 模型。该项目利用预训练的视觉语言模型（VLMs），如 GPT-4 和 LLaVA，整合文本和前视摄像头输入，实现精确的未来轨迹预测和决策推理。OpenEMMA 的目标是提供易于使用的工具，以便研究者和开发者推动自动驾驶研究和应用的发展。

2. 项目快速启动

环境设置

首先，为 OpenEMMA 创建一个 Conda 环境，使用 Python 3.8：

conda create -n openemma python=3.8
conda activate openemma

安装 OpenEMMA

你可以使用 PyPI 单命令安装 OpenEMMA：

pip install openemma

或者，按照以下步骤操作：

克隆 OpenEMMA 仓库并导航到根目录：

git clone git@github.com:taco-group/OpenEMMA.git
cd OpenEMMA

安装依赖项

确保你安装了 cudatoolkit。如果没有，使用以下命令：

conda install nvidia/label/cuda-12.4.0::cuda-toolkit

然后，运行以下命令安装核心依赖：

pip install -r requirements.txt

这会安装所有依赖项，包括 YOLO-3D 的依赖。YOLO-3D 的权重会在第一次执行时自动下载。

设置 GPT-4 API 访问

为了启用 GPT-4 的推理能力，从 OpenAI 获取一个 API 密钥。你可以在代码中直接添加你的 API 密钥，或者将其设置为环境变量：

export OPENAI_API_KEY="your_openai_api_key"

使用 OpenEMMA

环境设置完成后，按照以下说明使用 OpenEMMA：

准备输入数据

下载并解压 nuScenes 数据集。

运行 OpenEMMA

使用以下命令执行 OpenEMMA 的主脚本：

# PyPI
openemma \
--model-path qwen \
--dataroot [nuScenes数据集目录] \
--version [nuScenes数据集版本] \
--method openemma

# GitHub 仓库
python main.py \
--model-path qwen \
--dataroot [nuScenes数据集目录] \
--version [nuScenes数据集版本] \
--method openemma

目前，我们支持以下模型：

GPT-4o
LLaVA-1.6-Mistral-7B
Llama-3.2-11B-Vision-Instruct
Qwen2-VL-7B-Instruct

要使用特定的模型，只需将 --model-path 参数设置为对应的模型名。

3. 应用案例和最佳实践

（此部分内容根据实际应用场景和案例来编写，这里提供框架）

案例一：如何使用 OpenEMMA 进行轨迹预测。
案例二：如何在自动驾驶系统中集成 OpenEMMA。

4. 典型生态项目

（此部分内容列举与 OpenEMMA 相关的生态项目，这里提供框架）

项目一：用于车辆检测的 YOLO-3D。
项目二：自动驾驶模拟器。

以上是 OpenEMMA 的基本使用教程。在实际使用中，请根据具体需求和项目情况进行调整和优化。

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐