Windows环境下如何用GPT3微调自己的模型
GPT-3 已经在来自开放互联网的大量文本上进行了预训练。当给出仅包含几个示例的提示时,它通常可以凭直觉判断出您要执行的任务并生成合理的完成。这通常称为“小样本学习”。微调通过训练比提示中更多的示例来改进小样本学习,让您在大量任务中取得更好的结果。对模型进行微调后,您将不再需要在提示中提供示例。这样可以节省成本并实现更低延迟的请求。
1 环境搭建
1.1 安装Anaconda3
1.2 创建虚拟环境
conda create -n GPT python=3.7 -y
conda activate GPT
2 安装
安装openai包,以此使用OpenAI命令行界面
因为我们后续需要使用pandas库转换数据格式,因此这里需要安装pandas。
pip3 install openai -i https://pypi.doubanio.com/simple/
pip install pandas
OPENAI_API_KEY通过将以下行添加到您的 shell 初始化脚本(例如 .bashrc、zshrc 等)或在微调命令之前的命令行中运行它来设置您的环境变量:
set OPENAI_API_KEY="<OPENAI_API_KEY>"
注:OPENAI_API_KEY获取方式
3 准备训练数据
这里我们以kaggle上的某个数据集为例,下载链接:https://www.kaggle.com/datasets/egorovm/patient-disease?resource=download
下载解压后如下所示,我们使用disease_clean_symptoms.csv为例。
用EXCEL打开disease_clean_symptoms.csv如下图所示。
然后我们运行process.py处理下这个数据。
import pandas as pd
df = pd.read_csv('disease_clean_symptoms.csv',header=None,index_col=False,nrows=500,names=['prompt','completion'])
df.to_csv("disease_clean_symptoms_new.csv",index=False)
运行后打开生成的文件disease_clean_symptoms_new.csv,如下图所示。
4 CLI数据准备工具
OpenAI开发了一个工具来验证、提供建议和重新格式化您的数据:
openai tools fine_tunes.prepare_data -f disease_clean_symptoms_new.csv
此工具接受不同的格式,唯一的要求是它们包含提示和完成列/键。您可以传递CSV、TSV、XLSX、JSON或JSONL文件,它会在指导您完成建议的更改过程后将输出保存到 JSONL 文件中以备微调。
运行时根据提示输入Y,最终得到jsonl格式文件,如下图所示。
5 创建微调模型
openai api fine_tunes.create -t "disease_clean_symptoms_new_prepared.jsonl" --batch_size 64 --model ada
成功!
注:这里需要科学上网。
参考:https://www.bilibili.com/video/BV1DU4y1c77Y/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=0f8024a4585deeca68e0b223bb06f4c6

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)