OpenEMMA 使用教程

1. 项目介绍

OpenEMMA 是一个开源的端到端自动驾驶多模态模型,基于 Waymo 的 EMMA 模型。该项目利用预训练的视觉语言模型(VLMs),如 GPT-4 和 LLaVA,整合文本和前视摄像头输入,实现精确的未来轨迹预测和决策推理。OpenEMMA 的目标是提供易于使用的工具,以便研究者和开发者推动自动驾驶研究和应用的发展。

2. 项目快速启动

环境设置

首先,为 OpenEMMA 创建一个 Conda 环境,使用 Python 3.8:

conda create -n openemma python=3.8
conda activate openemma

安装 OpenEMMA

你可以使用 PyPI 单命令安装 OpenEMMA:

pip install openemma

或者,按照以下步骤操作:

  1. 克隆 OpenEMMA 仓库并导航到根目录:
git clone git@github.com:taco-group/OpenEMMA.git
cd OpenEMMA
  1. 安装依赖项

确保你安装了 cudatoolkit。如果没有,使用以下命令:

conda install nvidia/label/cuda-12.4.0::cuda-toolkit

然后,运行以下命令安装核心依赖:

pip install -r requirements.txt

这会安装所有依赖项,包括 YOLO-3D 的依赖。YOLO-3D 的权重会在第一次执行时自动下载。

  1. 设置 GPT-4 API 访问

为了启用 GPT-4 的推理能力,从 OpenAI 获取一个 API 密钥。你可以在代码中直接添加你的 API 密钥,或者将其设置为环境变量:

export OPENAI_API_KEY="your_openai_api_key"

使用 OpenEMMA

环境设置完成后,按照以下说明使用 OpenEMMA:

  1. 准备输入数据

下载并解压 nuScenes 数据集。

  1. 运行 OpenEMMA

使用以下命令执行 OpenEMMA 的主脚本:

# PyPI
openemma \
--model-path qwen \
--dataroot [nuScenes数据集目录] \
--version [nuScenes数据集版本] \
--method openemma

# GitHub 仓库
python main.py \
--model-path qwen \
--dataroot [nuScenes数据集目录] \
--version [nuScenes数据集版本] \
--method openemma

目前,我们支持以下模型:

  • GPT-4o
  • LLaVA-1.6-Mistral-7B
  • Llama-3.2-11B-Vision-Instruct
  • Qwen2-VL-7B-Instruct

要使用特定的模型,只需将 --model-path 参数设置为对应的模型名。

3. 应用案例和最佳实践

(此部分内容根据实际应用场景和案例来编写,这里提供框架)

  • 案例一:如何使用 OpenEMMA 进行轨迹预测。
  • 案例二:如何在自动驾驶系统中集成 OpenEMMA。

4. 典型生态项目

(此部分内容列举与 OpenEMMA 相关的生态项目,这里提供框架)

  • 项目一:用于车辆检测的 YOLO-3D。
  • 项目二:自动驾驶模拟器。

以上是 OpenEMMA 的基本使用教程。在实际使用中,请根据具体需求和项目情况进行调整和优化。

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐