文章摘要:数据科学与大数据技术要求
需要要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts等,都是J […]
需要要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts等,都是JavaEE方向的技术,在大数据技术里用到的并不多。下面小编给大家介绍大数据有哪些技术要求,一起来看看吧。
大数据的技术要求
大数据开发,是现如今大数据行业当中不可或缺的专业技术人员,通过大数据技术去实现大数据系统、平台、工具等的开发,满足企业大数据的相关需求。而大数据开发,最重要的就是对于大数据开发需要的技术的掌握。
对于很多行外人或者刚开始入行的初级大数据开发人员,看到大数据开发涉及到的相关技术,一堆复杂的专业名词,各种听起来就很难的“架构”等,常常让人望而生畏。但是事实上,当你真正着手去学,其实也没有想象中的那么难。
企业对于大数据开发人员的招聘,台数据处理,数据架构的搭建、数据性能的优化,都是必须掌握的技术。对于写代码,需要会Java开发/Linux开发环境;对于数据库,需要会Mysql/MongoDB等,有一定调优经验;对于分布式,Hadoop/Hive/Spark/Storm/HBase等是必须。
举个例子,以Hadoop大数据工程师来说,需要掌握ava编程(分布式)、Linux开发环境、Hadoop(HDFS+MapReduce+Yarn)、HBase(JavaAPI操作)、Hive(查询、函数、视图)、Sqoop&Flume(数据采集)、还有其他如Pig、HUE、HA等。
在Linux和Java基础方面,需要掌握Java基础、虚拟机、多线程;JavaWeb和数据库;Linux基本语法、shell编程;
在Hadoop框架方面,需要掌握HDFS的shell操作(常用命令和参数);HDFS的Java应用开发(数据采集、存储、文件);MapReduce编程(规范、运行、调试);MapReduce计算程序(排序、分区、优化)等。
在Hadoop数据生态方面,需要掌握HBase数据操作(读、写、更新)、基本架构;Hive数据存储与计算(表搭建、分区、查询、函数);Flume&Sqoop采集、导出系统实现;Pig进行数据处理与数据分析。
学习大数据的必要基础
学习大数据的两大基础就是JAVA和Linux,学习顺序不分前后。需要同时掌握,才可以继续大数据课程的学习。
1、Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?
需要要学习Java的标准版JavaSE就可以了,像Servlet、JSP、Tomcat、Struts、Spring、Hibernate、Mybatis等,都是JavaEE方向的技术,在大数据技术里用到的并不多,需要要了解就可以了。
当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下,有同学说Hibernate或Mybites也能连接数据库啊,为什么不学习一下,不是说学这些不好,而是说学这些可能会用你很多时间,到最后工作中也不常用,没看到谁做大数据处理会用到这两个东西的。
当然你的精力很充足的话,可以学学Hibernate或Mybites的原理,不要只学API,这样可以增加你对Java操作数据库的理解,因为这两个技术的核心就是Java的反射加上JDBC的各种使用。
2、Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
从0开始学大数据技术的方法
1、硬件准备
要想学习大数据技术,硬件是必不可少的,需要一台至少8GB内存的电脑,有条件的家里如果有多台电脑,且自己比较爱折腾的话就更好了。内存从1块钱1MB的时候,到现在1块钱20MB,依然是电脑最缺少的资源,永远都不觉得够。所以如果想要学习大数据技术,先查看自己电脑的内存是多大,少于8GB的话就赶紧考虑增加内存条。能增加的16GB的话更好,那你在学习的时候会感觉操作执行很快。硬盘到不需要特别大,目前主流的500GB就够用了。
2、软件准备
硬件准备好后,接下来就可以开始进行软件的安装了。如果你对虚拟机VMware或者VirtualBox比较熟悉,那么可以跳过该章节了。
安装完一台虚拟机之后,我们可以将这台虚拟机再复制两份,这样我们就在VMware虚拟机上模拟了3台服务器,就可以搭建具有3个结点的大数据集群了。
3、安装CDH
CDH是Cloudera’s Distribution Including ApacheHadoop的简称,是基于稳定版本的Hadoop组件进行编译的,其发布的ClouderManager(简称CM)是一套可以在Web页面安装、修改、管理大数据组件的系统,它简化了大数据平台的安装。
4、Hive
对于有一定SQL经验的童鞋来说,从Hive入手是比较好的选择。Hive诞生于FaceBook,它最初就是为方便FaceBook的数据分析人员而建立的。FaceBook的数据分析人员大多了解SQL的写法,但是如果要用MapReduce来实现同样的分析效果比如多表关联,其学习和开发成本都非常高。所以FaceBook的牛人们就开发了一个组件可以将SQL语句转换为MapReduce,极大的方便了这些数据分析人员。
CDH集群搭建好之后,需要要选择安装hive组件就可以使用了,如何使用hive组件,就需要从简单到复杂。
5、大数据其他组件
Hadoop是目前大数据的事实标准,hadoop生态圈还有很多的组件,每个组件都有其特定的应用场景,不必每个组件都要学习,可以挑选自己感兴趣的组件进行学习,或者等实际用到的时候再学习也可以。