文章摘要:大数怎么进行数据分析
现在是大数据时代,通过数据的分析,可以准确的了解客户的需求,那么它是怎么分析的呢?下面小编给大家介绍怎么分析大 […]
现在是大数据时代,通过数据的分析,可以准确的了解客户的需求,那么它是怎么分析的呢?下面小编给大家介绍怎么分析大数据,一起来看看吧。
分析大数据的方法
进行大数据分析,虽说各个行业都不一定相同,但是基本思路都是一样的,分析的对象有:市场、用户、渠道、效果、这几大类,如果有条件还可以进行分支拓展。
对市场/行业进行大数据收集,分析:比如说,数据收集的方向,可以从大方向以及小方向进行,大的方向可以从政治、经济、社会、技术这几个入手,小方向可以从产品分析。
对于用户的调查,可以开展用户画像,数据内容包括:身份、行为、居住、交际圈等,往小了分,还有可以分为年龄、性别、学历、消费情况、兴趣爱好、在哪些圈子等等。
对产品进行数据分析,可以从人群——市场——渠道——产品,这四个轮回,通过人群,可以得到市场,通过渠道可以得到人群,通过人群又可以得到产品的使用情况。
要进行大数据分析,光有上面还是不够的,还需要进行一个营销效果的分析,分析的方向,包括用户的行为、渠道的流量变化,以及一个最终的成本收益、投资回报率等。
根据对营销效果的分析,从而可以分析出不同渠道的一个流量以及收益情况,从中就可以筛选出渠道的优势以及劣势,再集中汇集跟分析报告,这样就可以定出方案了。
处理大数据的方法
1. 采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。
2. 导入/预处理。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。
3. 统计/分析。主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
4. 挖掘。主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。
数据分析师要学的知识
第一:统计学知识。这是很大一部分大数据分析师的短板。当然这里说的不是简单的一些统计而已。而是包括均值、中位数、标准差、方差、概率、假设检验等等具有时间、空间、数据本身。
第二:EXCE。当然不需要掌握的高大全,也得要掌握常用的函数,比如重点包括但不限于sum,count,sumif,countif,find,if,left/right,时间转换,透视表,各种图表做法等之类的。
第三:分析思维的练习。比如结构化思维、思维导图、或百度脑图、麦肯锡式分析,了解一些smart、5W2H、SWOT等等那就更好了。不一定要掌握多深多全,但一定要了解一些。
第四:数据库知识。大数据大数据,就是数据量很多,Excel就解决不了这么大数据量的时候,就得使用数据库。如果是关系型数据库,比如Oracle、mysql、sqlserver等等,你还得要学习使用SQL语句,筛选排序,汇总等等。
第五:业务学习。其实对于大数据分析师来说,了解业务比了解数据更重要。对于行业业务是怎么走的对于数据的分析有着非常重要的作用,不了解业务,可能你分析的结果不是别人想要的。
第六:开发工具及环境。比如:LinuxOS、Hadoop(存储HDFS,计算Yarn)、Spark、或另外一些中间件。目前用得多的开发工具Java、python等等语言工具。