中文分词词性标注集
包括:Thulac,SnowNLP,Jieba,PKUSeg,HanLP,FoolNLTK 主要是以人民日报标注语料中的北京大学词性标注集为基础:
| 代码 | 名称 | 帮助记忆的诠释 |
|---|---|---|
| Ag | 形语素 | 形容词性语素。 形容词代码为 a ,语素代码 g 前面置以 A。 |
| a | 形容词 | 取英语形容词 adjective 的第 1 个字母。 |
| ad | 副形词 | 直接作状语的形容词。 形容词代码 a 和副词代码 d 并在一起。 |
| an | 名形词 | 具有名词功能的形容词。 形容词代码 a 和名词代码 n 并在一起。 |
| b | 区别词 | 取汉字“别”的声母。 |
| c | 连词 | 取英语连词 conjunction 的第 1 个字母。 |
| Dg | 副语素 | 副词性语素。 副词代码为 d ,语素代码 g 前面置以 D。 |
| d | 副词 | 取 adverb 的第 2 个字母 ,因其第 1 个字母已用于形容词。 |
| e | 叹词 | 取英语叹词 exclamation 的第 1 个字母。 |
| f | 方位词 | 取汉字“方” 的声母。 |
| g | 语素 | 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。 由于实际标注时 ,一定 |
| 标注其子类 ,所以从来没有用到过 g。 | ||
| h | 前接成分 | 取英语 head 的第 1 个字母。 |
| i | 成语 | 取英语成语 idiom 的第 1 个字母。 |
| j | 简称略语 | 取汉字“简”的声母。 |
| k | 后接成分 | |
| l | 习用语 | 习用语尚未成为成语 ,有点“临时性”,取“临”的声母。 |
| m | 数词 | 取英语 numeral 的第 3 个字母 ,n ,u 已有他用。 |
| Ng | 名语素 | 名词性语素。 名词代码为 n ,语素代码 g 前面置以 N。 |