保函网

文本分类的6类方法

发布时间:2025-11-29 | 来源:互联网转载和整理

一、中文分词:

针对中文文本分类时,很关键的一个技术就是中文分词。特征粒度为词粒度远远好于字粒度,其大部分分类算法不考虑词序信息,基于字粒度的损失了过多的n-gram信息。下面简单总结一下中文分词技术:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[1]。

1,基于字符串匹配的分词方法:

过程:这是一种基于词典的中文分词,核心是首先建立统一的词典表,当需要对一个句子进行分词时,首先将句子拆分成多个部分,将每一个部分与字典一一对应,如果该词语在词典中,分词成功,否则继续拆分匹配直到成功。

核心:字典,切分规则和匹配顺序是核心。

分析:优点是速度快,时间复杂度可以保持在O(n),实现简单,效果尚可;但对歧义和未登录词处理效果不佳。

2,基于理解的分词方法:基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3,基于统计的分词方法:

过程:统计学认为分词是一个概率最大化问题,即拆分句子,基于语料库,统计相邻的字组成的词语出现的概率,相邻的词出现的次数多,就出现的概率大,按照概率值进行分词,所以一个完整的语料库很重要。

主要的统计模型有:N元文法模型(N-gram),隐马尔可夫模型(HiddenMarkovModel,HMM),最大熵模型(ME),条件随机场模型(ConditionalRandomFields,CRF)等。

二、文本预处理:

1,分词:中文任务分词必不可少,一般使用jieba分词,工业界的翘楚。

2,去停用词:建立停用词字典,目前停用词字典有2000个左右,停用词主要包括一些副词、形容词及其一些连接词。通过维护一个停用词表,实际上是一个特征提取的过程,本质上是特征选择的一部分。

3,词性标注:在分词后判断词性(动词、名词、形容词、副词…),在使用jieba分词的时候设置参数

文本分类

上一篇:各国国花有什么

下一篇:我以我血荐轩辕完整句子(我以我血荐轩辕是谁的誓言)

其他文章

  • 8K纸和A3纸一样大吗
  • 威海到大连船票时刻表和价格表(青岛到大连船票时刻表)
  • 剩男剩女该如何脱单?
  • 祝福母亲节
  • 刘飞宇(关于刘飞宇介绍)
  • 洗衣粉5千克等于多少斤
  • 熨帖的意思三年级上册语文(熨帖的意思)
  • 藤和女女结局(藤和女女)
  • 生产性活动
  • 猫咪上火怎么办?有效方法与建议一览
  • 武汉欢乐谷官网,武汉欢乐谷的门票
  • 2017年山西三本大学排名情况和分数线
  • 发现微美:探寻小池古诗意思的艺术灵感
  • 元旦教室布置方案需要什么装饰
  • 关于中秋节的古诗词大全 中秋节的诗歌大全
  • 有个性的名字,有个性的男孩名字
  • 中国护照怎么办理,中国护照怎么办理需要什么材料
  • 东莞30天预报,天气变幻无常?30天内东莞天气预报一览!
  • 教师节简短祝福句子 教师节祝福语简短一句话
  • 全国计算机等级考试成绩查询步骤,快来看看吧