新闻动态
上车 | Python文本分析初体验(上)
来源: | 作者:k君 | 发布时间: 2017-05-11 | 187 次浏览 | 分享到:

文本分析介绍n n文本分析顾名思义是对于文字信息的分析,通过一系列文本分析和识别的算法提取文章中关键信息。自从中国的毕昇发明了活字印刷术以及14世纪欧洲的文艺复兴运动以来,文字变成一种十分重要的记录信息的方式,原来难以广泛传播的知识,瞬间变得简单。n nn我们正处在一个信息爆炸的社会,如何通过大量的阅读文字记录来获得想要的信息已经变成一个十分普遍的问题。可是人的时间是有限的,需要一种能够快速挖掘文本中有用信息的方式,文本分析就起着重要的作用。n n nn计算机技术的发展为文本分析提供了重要的支持,计算机的计算速度正在以指数级别上升,原来人一年的阅读的文献数量,电脑可以几秒钟的时间内完成。深度学习技术的普及应用也促进了文本分析等自然语言技术(NLP)快速的发展,在精度和广度上都得到了很大的提升。n nnn文本分析的应用领域n n文本分析在现实生活中有着广泛的应用,大家最熟悉的莫过于以Google和百度为代表的搜索系统,Information Retrieval的核心就是文本分析的算法,当我们输入简单的关键词,系统就能为我们匹配出大量的相关的网页的链接,并按相关程度及网页的重要性程度进行排序。另一个令人深刻的案例就是Google刚刚发布了其基于深度神经网络的机器翻译系统,翻译的水准已经能够一定程度上接近人类的翻译水平。n n nn不论是各大电商的网站的在线问答机器人,还是基于商品,电影,餐厅等的评论数据的情感分析,基于网络海量文章的舆情判断,垃圾邮件的识别,都属于文本分析的范畴。n nn文本分析的常见方法n n针对不同的实际用途,文本分析可有五个常用的方法:文本分类聚类,情感分析,主题分析,摘要提取,关键词提取。 以工业中的应用为例——n nn文本分类聚类:在工厂中有大量的人工记录的信息,比如人的行为规范判断和设备的报错工单,这类文本信息具有明确分类判断标准和查询需求,且每天都会产生大量文本数据,人工很难去全部阅读,不同部门关心的文本类别也不尽相同。这时就需要我们基于经验和分类标准,对大量的工单数据或者人的行为数据进行分类聚类,将相关的文本归于一起,便于之后的基本统计分析和查询效率的提高。n n情感分析:制造业企业最关心的可能就是使用者对自己产品的使用体验的满意度以及产品反馈。不管对于产品的问卷调查,或者是电商网站上的商品的评论,挖掘出使用者对于产品的态度都是一种很好的产品评价指标,利用文本分析的情感分析方法则可以获取使用者对产品处于较为客观的积极或消极态度,这对于产品改进,也提供了一定的指导意义。n n摘要提取:在工业中,不管是工单中的具体故障描述,还是员工的行为规范评价,由于人为记录的文本结构,信息量和规范程度千差万别。很多情况下,大量文字描述的并不是关键信息,如何快速提取文本信息中最关键的部分?利用文本分析的摘要提取方法,可以总结大段文字中的主要信息,减少不必要信息的干扰,将会大大提升文本信息的利用效率。n n关键词提取:通用词库并不能满足在不同专业领域中的使用,每个不同的工业领域都需要一个领域相关的专业词库,构建专业词库也是文本分析中一项意义重大但又十分繁琐的工作,是为后期提供更精准的文本分析服务的一个基础。n nn文本分析中的关键词提取方法能帮助我们准确获得该领域最相关的关键词。关键词的提取对工业中的一般统计分析也有很大的帮助,可以做诸如备件来源检测和故障原因检测等分析。在文本中挖掘具体的故障号码或者备件更换信息,统计每个具体故障或者备件的发生频率,可以帮助我们找出频繁发生的事故类型或者经常更换的备件,进而找出诸如经常被更换的备件可能属于特定批次或厂家,或是排查事故频发工厂的设备状态及员工工作规范,提早为工业企业减少不必要的损失。n nnn明日预告——下篇内容包含:中文文本分析常见问题,以及基于 Stanford CoreNLP Toolkit 和 Python NLTK 的中文分词实例,欢迎持续关注。n nn作者:JasonKeinenn出身华盛顿大学的数据科学小砖家,92年小鲜肉,180+,K2分析团队颜值担当之一,文艺,深沉……看到这里心动了?人家已脱离单身苦海。这次我们真的不招亲~nnn