参Hadoop2016峰会有感
来源: | 作者:k君 | 发布时间: 2016-07-13 | 77 次浏览 | 分享到:
上周参加了在硅谷圣何塞举行的的Hadoop Summit 2016 (Hadoop 峰会),从参会人数来说,今年达到了创纪录的5000人,对比去年的4000人增长了25%,这对于一个已经十年的项目来说非常不容易。n n看到的一些行业趋势n n1)Hadoop及其生态圈(包括Spark等等)在各行各业落地并且得到广泛的应用。n n目前在美国,无论行业是IT,金融相关(包括银行保险),电信,制造业,还是餐饮,百货零售都已经广泛的用上了Hadoop。看了一些有意思的演讲,比如说n n· Progressive(美国最大的车保公司之一)通过实时采集用户驾驶的数据(比如说加、减速行为;车辆经过的路线等等)来决定是否需要改变用户的车保价格。n· 福特公司也有一个类似的演讲,通过采集汽车里面的设置的传感器,实时反馈给服务端来优化驾驶的体验。n n对于这些非IT企业,利用Hadoop生态圈里面的套件能够实现超大的数据处理规模(比如说福特汽车总共产生的数据可以达到一天TB级别),实时性(信用卡反欺诈需要在秒以内返回结果),丰富的分析手段(SQL、机器学习等)。这些新的数据分析的手段能够实实在在的产生商业价值,比如说只要保险公司能够降低1%的风险,产生的利润就非常可观了。n n2)物联网 (IOT) + 实时(Realtime) + 机器学习是今年最火的话题n n相对于去年来说,这三个话题的曝光率大大提高。今年总共有160多场演讲,其中物联网就有近20场演讲,机器学习有10多场演讲,实时有近10场演讲。n n这三个话题其实互相关联,比如说物联网通过传感器采集了N多的数据(飞机引擎能够每小时产生35TB的数据,还有比如上面提到的福特汽车),这些数据需要立刻决定保留或者丢弃,对于保留的那部分数据也要能够很快做出决定。实时起到了很大的作用。在这次的某一个演讲中(忘了是哪家公司了),需要采集飞机上的雷达数据来预测天气是否危险,如果不能做到实时那几乎就是草菅人命了。n n对于这种大规模的数据只用传统的SQL进行数据处理是远远不够的,特别是一些非结构化的数据(比如说雷达云图)。那么很多的机器学习的方法就能够排上用场了。这三个方向一定会在未来更火的。n n关于Hadoop(YARN/HDFS)项目的趋势n n