hawcat
文章27
标签36
分类9

文章分类

文章归档

微调大模型

微调大模型

前言

从今年年初参与WAIC 2023后,深刻地感知到大模型如雨后春笋般的涌现。果不其然,在今年这个时间节点,国内就对话大模型已经有130家,大模型这条赛道,大厂、小厂,亦或是新兴创业公司还是老牌搜索引擎转向对话大模型的这部分公司都在做,赛道很长,无论是想卷融资,还是想做好产品搞服务,大家都是济济一堂。总之无论如何,有技术力的公司或者大厂愿意在这方面去烧钱,对于下游应用层来说总是利好的。

平日的工作内容大部分跟AI工程相关,无论是对话类的还是其他任务的类型,自认为还是接触的蛮多。近期因业务需求,需要对对话类的大模型进行垂直方向拓展,需要对角色对话类大模型进行技术先验。接触了大部分相关内容和产品,效果还是不尽人意,最终方案还是定为我们自己对小参数大模型进行微调,这样是最节省成本的方式。

因为公司的机器普遍都是消费级显卡,显存最高24G,自然而然不会想到参数量太大的模型去微调,最终是定下了三个可微调的模型:ChatGLM2-6B、ChatGLM3-6B、Qwen-7B,三者都是基于transformer架构的非常强大的预训练语言模型。

数据集的准备

先验选择的数据集是爱因斯坦的第一人称普通对话数据集,基本都是来自于百度百科和维基百科收集构成以及常用自我认知修改的数据集,数据增强采用noise-based方法,对原始数据增加噪音,打乱句式,多样化指令等方式,增广数据集采用GPT4生成。总量很少,但对构建角色,改变模型自我认知的微调还是足够了。

ChatGLM2

TODO

:D 获取中...

本文作者:hawcat
本文链接:https://hawcat.cn/2023/11/01/finetune/
版权声明:本文采用 CC BY-NC-SA 3.0 CN 协议进行许可
×