纯金属外壳
男,78年生,现居上海。
14 人赞同了该回答
-
背景
某市市民服务热线系统每月需要处理约9万余条各类咨询、投诉事件。这些事件由坐席人员统一登记、分拨及跟进。坐席需要及时根据登记的内容,将事件分派到对应的组织部门进行后续处置。 -
挑战
事件共有16种一级分类,100多种二级分类和接近600种三级分类。对事件准确分类十分不易,非常依赖坐席人员的经验和技能。即使经过严格培训的坐席人员也难以保证第一时间准确的将事件准确识别并分拨。过去首次分类准确性不足70%。错分事件需要退回重分,进而导致事件处置延迟,影响市民满意度。手工分拨的方式在事件高峰时也会造成积压。采用先进技术,提升事件的分拨处理准确性及效率,降低对人工的依赖对于提升运营效率有极大的价值。 -
方案
该市也曾经尝试采用传统NLP技术对事件进行分类,但效果不佳。预训练大型语言模型(LLM)的出现为问题的解决提供了新的路径。理论上利用LLM自身强大的NLP能力,再根据历史数据进行微调,能够根据登记的文本描述对事件进行准确分类。同时,可以利用大型语言模型实现精确的语义检索,为坐席提供更精确的知识库访问;大型语言模型还能够提升态势感知的能力,为领导对当前社会运行总体状况提供更精确的判识支持。
本项目利用热线系统的历史数据,采用LoRA技术对清华大学开源的ChatGLM-6B模型进行微调,使其能够适应热线系统的分类任务。在技术验证中将首次分类准确性提高了20%以上,同时事件分拨速度从过去数十分钟提高了一分钟以内,极大提高了事件处置的效率。
- 数据探索
从热线系统中提取了一定数量的原始历史数据。数据格式如下:
据此任务被定义为根据"标题"和"内容"字段的文本,分类输出"类型"和"归口"。
- 数据准备
在数据准备阶段,需要对数据进行如下预处理,保证安全合规以及训练的质量;
数据脱敏,将数据中与个人信息(电话、身份证等)相关的信息进行脱敏,防止个人信息泄露;
数据清洗,去除一些不合格的数据,去除数据中不相关的字符;
数据分布调整,数据分类项分布并不均匀,需要对数量较少的的分类进行数据增强,例如改写、调整顺序、两次翻译等方式;
增加噪声,为了系统扩展性和训练的稳定性,增加一些不相关的文本,归类为"未分类",这样即使将来有新的分类出现,也可以将其归类到"未分类"中。
格式化,将数据转换为可以用于LLM训练的格式:
-
微调训练
训练环境为单卡模式,使用LoRA微调,主要参登录后可查看完整内容,参与讨论!
立即登录