【deepspeed】 gpt模型训练报错run_clm_no_trainer.py: error: unrecognized arguments: --local-rank=0
报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError。测试场景:使用deepspeed框架训练gpt模型。
·
测试场景:使用deepspeed框架训练gpt模型
问题:
报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError
具体见截图:
解决办法:
含义:表明在运行 train.py 脚本时,传递了一个未被识别的参数 --local-rank=1
这里我在train.py脚本文件中果然没有找到–local-rank参数,在很多的parser.add_argument后添加一行parser.add_argument(“–local-rank”, type=int),注意在最后添加而不是刚开始,如果刚开始添加会导致传入参数不匹配而报错。
添加的代码参考:
参考文章:
干些这位网友热心分享:unrecognized arguments: --local-rank=1报错解决_幸运的悦子的博客-CSDN博客

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。
更多推荐
所有评论(0)