【通义千问】大模型Qwen GitHub开源工程学习笔记(4)-- 模型的量化与离线部署

news/2024/7/10 19:20:18 标签: 学习, 笔记, 语言模型, 人工智能, 开源

摘要:

量化方案基于AutoGPTQ,提供了Int4量化模型,其中包括Qwen-7B-Chat和Qwen-14B-Chat。更新承诺在模型评估效果几乎没有损失的情况下,降低存储要求并提高推理速度。量化是指将模型权重和激活的精度降低以节省存储空间并提高推理速度的过程。AutoGPTQ是一种专有量化工具。Int4是指4位整数量化,与传统的8位量化相比,可以进一步减少存储要求。

如何使用Int4量化模型

在开始使用前,请先保证满足要求(如torch 2.0及以上,transformers版本为4.32.0及以上,等等),并安装所需安装包:

pip install auto-gptq optimum

 【Auto-GPT 】

AutoGPTQ将能够作为一个可扩展、灵活的量化后端,支持所有类似GPTQ的方法,并自动量化由Pytorch编写的LLM。说白了就是让模型能够轻量化。

┏ (゜ω゜)=👉传送门==>GitHub - PanQiWei/AutoGPTQ: An easy-to-use LLMs quantization package with user-friendly apis, based on GPTQ algorithm.

 https://huggingface.co/blog/zh/gptq-integration

问题:ModuleNotFoundError: No module named 'optimum.gptq'的处理方法

在python环境下使用如下代码,查看是否安装这个模块

import pkg_resources

try:
    pkg_resources.get_distribution('optimum')
    print('optimum is installed.')
    # Check if gptq is installed under optimum
    try:
        pkg_resources.get_distribution('optimum.gptq')
        print('gptq is installed under optimum.')
    except pkg_resources.DistributionNotFound:
        print('gptq is not installed under optimum.')
except pkg_resources.DistributionNotFound:
    print('optimum is not installed.')

我这里返回了

optimum is installed.
gptq is not installed under optimum.

看来,我是安装了【optimum】这个模块,但是下面的【gptq】没有安装

通过pip list指令,我也找到所装的optimum版本

 Optimum 是 Transformers 的扩展,它提供了一组性能优化工具,可以在目标硬件上以最高效率训练和运行模型。

【解决方法】 

删除,从Git上clone下(clone地址==>https://github.com/huggingface/optimum),再安装optimum。这次通过在clone的本地路径下,通过指令【python setup.py install】去安装。发现optimum文件夹下有了gptq这个模块

 离线运行一下量化后的模型

首先还是将模型文件下载到本地,用YOURPATH去保存你的模型文件所在的相对路径。

from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation import GenerationConfig

YOURPATH = 'models/Qwen-7B-Chat-Int'
# name = 'Qwen/Qwen-7B-Chat-Int'
tokenizer = AutoTokenizer.from_pretrained(YOURPATH, local_files_only=True,trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(YOURPATH, local_files_only=True, device_map="auto", trust_remote_code=True).eval()

http://www.niftyadmin.cn/n/5087821.html

相关文章

Java学数据结构(4)——PriorityQueue(优先队列) 二叉堆(binary heap)

前言 数据结构与算法作为计算机科学的基础,是一个重点和难点,在实际编程中似乎看不它们的身影,但是它们有随处不在,如影随形。 本系列博客是《数据结构与算法分析—Java语言描述》的读书笔记,合集文章列表如下&#…

chatGLM2-6B模型LoRA微调数据集实现大模型的分类任务

【TOC】 1.chatglm介绍 ChatGLM 模型是由清华大学开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model(GLM)架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署。 ChatGLM 具备以下特点: 充…

【学习之路】Multi Agent Reinforcement Learning框架与代码

【学习之路】Multi Agent Reiforcement Learning框架与代码 Introduction 国庆期间,有个客户找我写个代码,是强化学习相关的,但我没学过,心里那是一个慌,不过好在经过详细的调研以及自身的实力,最后还是解…

day05_数组

今日内容 另: return补充说明 0 数组复习 1 数组内存 2 数组其他声明方式 3 数组遍历 4 数组在方法中的使用 5 数组排序算法 0.1 复习 1 中文描述方法的定义 方法是一段功能代码,完成某些事情,是独立的有固定的写法 public static根据方法是否返回数据,来确定要不要设置返回值类…

对CU50的修改(未使用)

目的是把CU50中的选择配置拿出来,再把最后BOM的结果拿出来。2023.10.13 一、CU50里面2个标准函数有修改: ----------LCUKOF01----函数----------------CALL FUNCTION CU01_DISPLAY_BOMEXPORTINGmasterdata rcuko-ukompRESULT …

【vr】【unity】白马VR课堂系列-VR开发核心基础05-主体设置-手柄对象的引入和设置

【视频教学】 【白马VR课堂系列-VR开发核心基础05-主体设置-手柄对象的引入和设置】 https://www.bilibili.com/video/BV19D4y1N73i/?share_source=copy_web&vd_source=7f5c96f5a58b7542fc6b467a9824b04e 【内容】 上一节引入了XR Origin并进行了初步设置,运行测试时V…

架构案例2017(五十二)

第5题 阅读以下关于Web系统架构设计的叙述,在答题纸上回答问题1至问题3.【说明】某电子商务企业因发展良好,客户量逐步增大,企业业务不断扩充,导致其原有的B2C商品交易平台己不能满足现有业务需求。因此,该企业委托某…

Java系列之:深入理解设计模式

Java系列之:深入理解设计模式 一、设计模式相关技术文章二、设计原则三、设计模式概念四、设计模式的分类五、创建性模式六、创建性模式-工厂方法模式七、创建性模式-抽象工厂模式八、创建性模式-构建器模式九、面向对象设计-结构性模式十、结构性模式-适配器模式十一、结构性…