上篇回顾:作者介绍了文本分析的应用领域及常见方法,引起大批粉丝的强烈共鸣。今天继续介绍中文文本分析常见问题以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例。n nn<img src=http://www.k2data.com.cn/wp-content/uploads/2017/05/1-1.jpg" alt=""1"" width=""640"" height=""356"" class=""alignnone size-full wp-image-5009"" />nn中文文本分析常见的问题n n中文的文本分析相对于英文有着很大的不同。英文天然具有分词的标志——空格,每个单词之间一定是以空格进行分离,所里在对于英文文章进行分词变得相对简单,没有分错词的问题。然而对于中文来说,分词是一个十分困难的事情,中文之间并没有诸如空格这样的分词标志,如何对中文进行分词,对于提高中文文本分析的准确率有着很重要的影响。n n nn中文的分词大致可以分为两类,分别是基于字典的机械分词方法和以及基于统计模型的序列标注方法。字典匹配是将文本中的文字切片和已有的字典进行匹配,如果文字切片在字典中出现,则为正确的匹配字符,字典匹配包括最大匹配法和全切分路径选择等方法。序列标注的方法有隐马尔科夫模型(HMM)和条件随机场(CRF),通过统计计算的方式,得出最有可能的文字组合。n nn基于Stanford CoreNLP Toolkit和Python NLTK的中文分词实例n nnStanford CoreNLP ToolkitnnStanford NLP是Stanford NLP团队开发的一款基于java的开源自然语言处理工具集,提供了包括统计NLP和深度学习NLP在内的多种自然语言解决方案。Stanford NLP Software有着丰富的文本处理功能,包括分词,词性标注,命名实体辨别,句法依存分析等。Stanford NLP Word Segmenter提供了基于条件随机场(CRF)的中文分词解决方案,拥有两个分别基于 Chinese Penn Treebank Standard和Peking University Standard的模型。nnnStanford CoreNLP Onlinen nStanford NLP Software还提供了在线使用的工具,有兴趣的话还可以在线尝试和感受一下文本分析的魅力。在文本框中输入想要分析的文字段落,选择需要的输出格式,并点击submit提交,分析结果将以你选择的方式呈现,这里以可视化模式为例:n n
nnPython NLTK Libraryn n在Python的NLTK(Natural Language Toolkit)中也提供了Stanford NLP分词器的接口,我们可以使用Python来进行简单的文本分析训练。NLTK是Python中最常用的自然语言处理包,提供了包括50是个语料库在内的许多工具接口,并提供一系列文本处理的工具,使用起来十分方便。NLTK提供的工具包括文本分类,文本分词,文本标注和解析等。n nnStanford CoreNLP安装和使用n nStandford NLP的安装十分简单"