开云·Kaiyun体育「中国」官方网站 登录入口

体育游戏app平台融合多个具有特有才略的 Delta-开云·Kaiyun体育「中国」官方网站 登录入口

发布日期:2024-12-12 05:09    点击次数:113

最新模子增量压缩时间,一个80G 的 A100 GPU或者松驰加载多达50 个 7B 模子,从简显存约 8 倍,同期模子性能险些与压缩前的微调模子零散。

清华大学 NLP 执行室联袂 OpenBMB 开源社区、北京大学和上海财经大学的斟酌团队,建议Delta-CoMe。

这项时间的中枢在于应用骨干模子与任务专用模子之间参数增量(即 Delta)的特色进行压缩,从而末端有储支拨和部署资本的大幅裁汰。不仅有助于处罚资源瓶颈问题,更为多任务处理和模子部署开采新的可能。

具体而言,Delta-CoMe 将低秩剖析和低比特量化时间相结合,充分应用 Delta 参数的低秩本性,建议了一种全新的搀杂精度压缩要道。这种要道不仅或者末端接近无损的任务性能,还能权贵提高推理着力。

Delta-CoMe 要道先容

微调是增强预进修模子的紧迫技能,不同任务一样需要不同的微调样子。举例 Luo et al. [ 1 ] 建议 RLEIF 通过 Evove-instruction 来增强模子数学推理才略;Wei et al. [ 2 ] 应用 Code snnipet 合成高质地的提醒数据来加多模子的代码才略。但是,这些要道经常依赖高质地数据,并需要全心假想的战略才智末端权贵的成果。

在一些场景中一样需要具有不同才略的 LLM 同期处理问题,举例多佃农场景,多任务场景以及端侧场景等等。一种当然的处罚有贪图是部署单个通用模子手脚骨干,融合多个具有特有才略的 Delta。

以 Bitdelta [ 3 ] 为例,它通过将模子的 Delta 压缩到 1-bit,有用保留了模子在问答等场景中的才略。尽管该压缩要道在存储和推理着力上证据出色,其在更复杂的任务(如数学推理和代码生成)上仍存在显着的才略瓶颈。

针对这一挑战,THUNLP 执行室衔尾北京大学和上海财经大学建议 Delta-CoMe。这一要道结合低秩剖析和低比特量化时间,不仅权贵提高了模子在复杂任务上的证据,还兼顾了压缩着力和实质应用需求,为模子的高效部署提供了一种新念念路。

与前东谈主的要道比拟,Delta-CoMe 要道的优点在于:

结合低秩与低比特量化,应用了 Delta 低秩的特色,并发现低秩剖析后的 Delta 是长尾散播的;之后取舍搀杂精度量化进一步压缩

性能险些无损,比拟于 BitDelta 等要道,在 Math, Code, Multi-modal 等复杂任务上,性能与压缩前的微调模子证据基本接近

推理速率提高,为搀杂精度量化末端了 Triton kernel 算子,对比 Pytorch 的末端样子,带来近 3 倍的推理速率提高

逾越 Delta-tuning,撑抓多精度 Backbone,Delta-CoMe 在成果上权贵优于 LoRA 微调,并不错用在多种精度的 Backbone 上

具体而言,Delta-CoMe 领先取舍 SVD 进行低秩剖析,Delta 具有低秩性,流程低秩剖析之后,其特征值呈现出长尾散播的设施,仅有少数较大奇异值对应的奇异向量对最终的铁心孝顺较大。

一个当然的观点,咱们不错凭证奇异值的大小进行搀杂精度量化,将较大的奇异值对应的奇异向量用较高精度示意,而较小的奇异值对应的奇异向量用较低精度示意。

执行铁心

多个开源模子和 Benchmark 的执行考据了该要道的有用性。

使用 Llama-2 手脚骨干模子,在数学、代码、对话、多模态等多个任务中进行执行,Delta-CoMe 展现出平均险些无损的性能。底下辨认是 7B 模子和 13B 模子的执行成果。

此外,还在 Mistral、Llama-3 等其它骨干模子上对不同的压缩要道进行了考据。

为了提高搀杂精度量化的臆测着力,末端一个 Triton Kernel,比拟于 Pytorch 的末端样子,推理速率提高了约 3 倍。

执行铁心标明,使用一块 80G 的 A100 GPU 不错加载 50 个 7B 模子。

临了,还比较了 Delta-Tuning 和 Delta-Compression 的成果互异(Delta-Tuning 指的是通过进修部分参数进行微调,Delta-Compression 指的是先进行全参数微调,再将微调带来的模子参数增量进行压缩)。其中 Delta-Tuning 取舍的是 LoRA。Delta-CoMe 对比 LoRA 在相易的存储支拨下,性能权贵提高。

Delta-CoMe 通过结合低秩剖析和低比特量化,不仅末端了大幅度的存储压缩,还在复杂任务如数学推理、代码生成和多模态任务上保管了与压缩前模子零散的性能证据。比拟于传统的微调要道,Delta-CoMe 展现出了更高的天真性,尤其在多佃农和多任务场景中具有权贵的应用价值。此外,借助 Triton kernel 的优化,推理速率获取了权贵提高,使得部署大畛域模子成为可能。翌日,这一要道的后劲不仅在于进一步优化模子存储和推理速率,也有望在更世俗的实质应用中推进大讲话模子的普及和高效运作。

参考文件

[ 1 ] Yu, L., Jiang, W., Shi, H., Jincheng, Y., Liu, Z., Zhang, Y., Kwok, J., Li, Z., Weller, A., and Liu, W.Metamath: Bootstrap your own mathematical questions for large language models. In The Twelfth International Conference on Learning Representations, 2023.

[ 2 ] Luo, Z., Xu, C., Zhao, P., Sun, Q., Geng, X., Hu, W., Tao, C., Ma, J., Lin, Q., and Jiang, D. Wizardcoder: Empowering code large language models with evol-instruct. arXiv preprint arXiv:2306.08568, 2023b

[ 3 ] Liu, J., Xiao, G., Li, K., Lee, J. D., Han, S., Dao, T., and Cai, T. Bitdelta: Your fine-tune may only be worth one bit. arXiv preprint arXiv:2402.10193, 2024b.

Paper 贯穿:https://arxiv.org/abs/2406.08903

Github 贯穿:https://github.com/thunlp/Delta-CoMe

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 名堂主页贯穿,以及关系样子哦

咱们会(尽量)实时回话你

点这里� � 温雅我,牢记标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~  



栏目分类



Powered by 开云·Kaiyun体育「中国」官方网站 登录入口 @2013-2022 RSS地图 HTML地图