Windows环境下如何用GPT3微调自己的模型

GPT-3 已经在来自开放互联网的大量文本上进行了预训练。当给出仅包含几个示例的提示时，它通常可以凭直觉判断出您要执行的任务并生成合理的完成。这通常称为“小样本学习”。微调通过训练比提示中更多的示例来改进小样本学习，让您在大量任务中取得更好的结果。对模型进行微调后，您将不再需要在提示中提供示例。这样可以节省成本并实现更低延迟的请求。

@Wufan

1123人浏览 · 2023-05-10 19:23:26

@Wufan · 2023-05-10 19:23:26 发布

1 环境搭建

1.1 安装Anaconda3

1.2 创建虚拟环境

conda create -n GPT python=3.7 -y
conda activate GPT

2 安装

安装openai包，以此使用OpenAI命令行界面
因为我们后续需要使用pandas库转换数据格式，因此这里需要安装pandas。

pip3 install openai -i https://pypi.doubanio.com/simple/
pip install pandas

OPENAI_API_KEY通过将以下行添加到您的 shell 初始化脚本（例如 .bashrc、zshrc 等）或在微调命令之前的命令行中运行它来设置您的环境变量：

set OPENAI_API_KEY="<OPENAI_API_KEY>"

注：OPENAI_API_KEY获取方式
在这里插入图片描述

3 准备训练数据

这里我们以kaggle上的某个数据集为例，下载链接：https://www.kaggle.com/datasets/egorovm/patient-disease?resource=download
下载解压后如下所示，我们使用disease_clean_symptoms.csv为例。

在这里插入图片描述

用EXCEL打开disease_clean_symptoms.csv如下图所示。

在这里插入图片描述

然后我们运行process.py处理下这个数据。

import pandas as pd

df = pd.read_csv('disease_clean_symptoms.csv',header=None,index_col=False,nrows=500,names=['prompt','completion'])

df.to_csv("disease_clean_symptoms_new.csv",index=False)

运行后打开生成的文件disease_clean_symptoms_new.csv，如下图所示。

在这里插入图片描述

4 CLI数据准备工具

OpenAI开发了一个工具来验证、提供建议和重新格式化您的数据：

openai tools fine_tunes.prepare_data -f disease_clean_symptoms_new.csv

此工具接受不同的格式，唯一的要求是它们包含提示和完成列/键。您可以传递CSV、TSV、XLSX、JSON或JSONL文件，它会在指导您完成建议的更改过程后将输出保存到 JSONL 文件中以备微调。

运行时根据提示输入Y，最终得到jsonl格式文件，如下图所示。
在这里插入图片描述

5 创建微调模型

openai api fine_tunes.create -t "disease_clean_symptoms_new_prepared.jsonl" --batch_size 64 --model ada

成功！
注：这里需要科学上网。

参考：https://www.bilibili.com/video/BV1DU4y1c77Y/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=0f8024a4585deeca68e0b223bb06f4c6

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐