文本分类的6类方法
2025-11-29
一、中文分词: 针对中文文本分类时,很关键的一个技术就是中文分词。特征粒度为词粒度远远好于字粒度,其大部分分类算法不考虑词序信息,基于字粒度的损失了过多的n-gram信息。下面简单总结一下中文分词技术:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[1]。 1,基于字符串匹配的分词方法: 过程:这是一种基于词典的中文分词,核心是首先建立统一的词典表,当需要对一个句子进行分词时...
2025-11-29
一、中文分词: 针对中文文本分类时,很关键的一个技术就是中文分词。特征粒度为词粒度远远好于字粒度,其大部分分类算法不考虑词序信息,基于字粒度的损失了过多的n-gram信息。下面简单总结一下中文分词技术:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[1]。 1,基于字符串匹配的分词方法: 过程:这是一种基于词典的中文分词,核心是首先建立统一的词典表,当需要对一个句子进行分词时...