windows操作系统本地部署开源语言模型ChatGLM3-6b，超详细

前言

首先感谢智谱AI和清华大学 KEG 实验室联合开源的ChatGLM3对话预训练模型，让我们国人有属于自己的AI聊天机器人。

ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示，ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。

默认情况下，模型以 FP16 精度加载，测试运行需要大概 16GB 显存。如果你的 GPU 显存有限，可以尝试以量化方式加载模型，或者CPU运算方式测试运行模型，下面流程是基于GPU的。

ChatGLM2和ChatGLM3性能对比

与二代模型相比，其效果平均提升了超过 50%

安装流程

1 部署python>=3.10运行环境（使用conda）

2 安装duda和cudnn（比较麻烦，cudnn需要登录NVIDIA，cudnn下载我是科学上网通过的）

3 安装torch和torch.cuda

4 chatGML3源码下载

5 chatGML3-6b-8k模型下载

6 修改测试代码模型的路径为本地

下载安装conda

conda是什么不过多介绍了，自行百度。。

下载地址：Free Download | Anaconda

安装对应版本的CUDA 和 cuDNN

好吧，先说一下cuda是什么还有cuDNN是什么

CUDA 是 NVIDIA 公司推出的一种通用并行计算架构，全称为 Compute Unified Device Architecture。它旨在让软件开发人员能够利用 NVIDIA GPU（图形处理器）的强大并行计算能力来解决复杂的计算问题，尤其是在那些原本由 CPU（中央处理器）执行时效率较低或耗时较长的任务上。

cuDNN 是 NVIDIA 提供的用于深度神经网络的 GPU 加速库，它高效实现了深度学习中常见的运算原语（如卷积、池化、归一化和激活函数），旨在提升深度学习模型训练和推理的性能、易用性和内存效率。

注意：CUDA和cuDNN在模型测推理和下载pytorch版本时候都是相关联的

查看自己电脑对应的cuda版本号

按住win + R 调出命令终端，输出cmd

nvidia-smi

上图红色框内的12.4就是cuda的版本

CUDA的安装链接: CUDA

本地和软件下载都一样不要纠结。。。。。这个文件也比较大，需要一些时间。

这是一个很详细的cuda和cuDNN安装教程，包括一些环境变量的配置：链接: CUDA安装教程.

创建虚拟环境

 conda create -n chatglm3 python=3.10

 conda activate chatglm3

 conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

注意：python版本需要>=3.10

pytorch-cuda版本的查看地址： pytorch

注意：pytorch-cuda=12.1 12.1要修改为您自己对应的版本，而且版本一定要和cuda的版本对应！

验证torch.cuda是否安装成功

import torch
print(torch.cuda.is_available())

返回true代表成功

ChatGLM3源码安装

切换到conda

模型基础运行代码已经上传到 github 和 SwanHub 两个平台，两个平台的信息同步。开发者通过以下方式下载模型代码。

从 github 下载源码

git clone https://github.com/THUDM/ChatGLM3.git

从 SwanHub 下载源码

git clone https://swanhub.co/ZhipuAI/ChatGLM3.git

安装扩展

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn

下载预训练好的基础模型文件

Huggingface 下载

git lfs install
git clone https://huggingface.co/THUDM/chatglm3-6b.git

Modelscope 下载

git lfs install
git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

SwanHub 下载

git lfs install
git clone https://swanhub.co/ZhipuAI/chatglm3-6b.git

注意：这里文件比较大，需要一些时间的，下载好就是下面的样子

测试模型demo

MODEL_PATH 是模型文件存储的地方，也就是预训练的基础文件目录

TOKENIZER_PATH 是分词器目录，和MODEL_PATH一样就可以

注意：我的显卡是4090 24G显存，如果你的低于这个配置，最好模型量化测试，不然不知道显卡会不会烧坏。。。。

模型量化

量化方式加载模型，使用方法如下：

model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).quantize(4).cuda()

CPU 部署

如果你没有 GPU 硬件的话，也可以在 CPU 上进行推理，但是推理速度会更慢。

注意：除了慢还需要至少32G以上内存

model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).float()

运行测试

测试文件在basic_demo目录下

python cli_demo.py

当出现一下画面，就可以和chatglm3对话了！！！兄弟，点个赞吧！！！！

web_demo_gradio.py 是页面的demo，python web_demo_gradio.py 运行。

关注我：后续还会更新如何微调 chatglm3 ，也就是让它成为你的个性化ai智能语言模型。