


ChatLLaMA 是一个完整的开源实现,允许用户基于预训练的 LLaMA 模型构建 ChatGPT 风格的服务; 与 ChatGPT 相比,LLaMA 架构更小,但训练过程和单 GPU 推理速度更快,成本更低; ChatLLaMA 内置了对 DeepSpeed ZERO 的支持,以加速微调过程; 该库还支持所有的 LLaMA 模型架构(7B、13B、33B、65B),因此用户可以根据训练时间和推理性能偏好对模型进行微调。



带有微调权重的 Checkpoint; 用于快速推理的优化技术; 支持将模型打包到有效的部署框架中。
然后是克隆 LLaMA 模型: