大数据的技术要求是什么

Estimated read time 1 min read

您所需要做的就是学习 Java 的标准版本,JavaSE。 Servlet、JSP、Tomcat、Struts等都是面向JavaEE的技术,在大数据技术中用得不多。 下面小编就为大家介绍一下大数据的技术要求。 让我们来看看。

大数据有哪些技术要求/

大数据技术要求

大数据开发人员是当今大数据行业不可或缺的专业技术人员。 他们利用大数据技术开发大数据系统、平台、工具等,以满足企业大数据相关需求。 对于大数据开发来说,最重要的是掌握大数据开发所需的技术。

对于很多外行或者刚开始进入这个行业的初级大数据开发者来说,看到大数据开发涉及到的相关技术、一堆复杂的专业术语、各种听起来很难的“架构”等等,往往会让人望而生畏。 但其实,当你真正开始学习的时候,并没有你想象的那么难。

大数据开发人员的招募、台湾数据处理、数据架构搭建、数据性能优化等都是企业必须掌握的技术。 编写代码需要了解Java开发/Linux开发环境; 对于数据库,需要了解Mysql/MongoDB等,并有一定的调优经验; 对于分布式来说,Hadoop/Hive/Spark/Storm/HBase等是必须的。

例如,一个Hadoop大数据工程师需要掌握ava编程(分布式)、Linux开发环境、Hadoop(HDFS+MapReduce+Yarn)、HBase(JavaAPI操作)、Hive(查询、函数、视图)、Sqoop&Flume(数据采集) ,以及其他如 Pig、HUE、HA 等。

Linux和Java基础方面,需要掌握Java基础、虚拟机、多线程; JavaWeb 和数据库; 基本的 Linux 语法和 shell 编程;

Hadoop框架方面,需要掌握HDFS shell操作(常用命令和参数); HDFS Java应用开发(数据采集、存储、文件); MapReduce编程(标准化、运行、调试); MapReduce计算程序(排序、分区、优化)等

在Hadoop数据生态方面,需要掌握HBase数据操作(读、写、更新)和基本架构; Hive数据存储与计算(建表、分区、查询、函数); Flume&Sqoop采集导出系统实现; Pig用于数据处理和数据分析。

学习大数据必备的基础

学习大数据的两个基础是JAVA和Linux,学习顺序不分先后。 您需要掌握两者,然后才能继续学习大数据课程。

1、Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME。 学习大数据应该学习哪个方向?

只需要学习Java的标准版本,JavaSE,比如Servlet、JSP、Tomcat、Struts、Spring、Hibernate、Mybatis等,这些都是面向JavaEE的技术,在大数据技术中用得不多。 你需要明白就是这样。

当然,你还是需要知道如何用Java连接数据库。 您必须掌握 JDBC。 有同学说Hibernate或者Mybites也可以连接数据库。 为什么不学呢? 这并不是说学习这些不好,而是说学习这些可能对你有用。 很多时候,最终在工作中并不常用。 我没有看到有人在进行大数据处理时使用这两个东西。

当然,如果你有足够的精力,你可以学习Hibernate或者Mybites的原理。 不要只学习 API。 这样可以增加你对Java的数据库操作的理解,因为这两项技术的核心就是Java的反射加上各种JDBC功能。 使用。

2、Linux:因为大数据相关的软件都是在Linux上运行的,所以需要把Linux学得更扎实。 学好Linux对于你快速掌握大数据相关技术有很大的帮助,也可以让你更好的理解Hadoop。 、hive、hbase、spark等大数据软件的运行环境和网络环境配置,可以避免很多陷阱。 学习shell可以看懂脚本,这样更容易理解和配置大数据集群。 它还可以让您更快地了解未来将发布的新的大数据技术。

如何从零开始学习大数据技术

1、硬件准备

想要学习大数据技术,硬件是必不可少的。 您需要一台至少有 8GB 内存的计算机。 如果家里有多台电脑,如果你喜欢乱搞那就更好了。 内存从1元1MB变成了现在1元20MB。 它仍然是计算机中最缺乏的资源,而且永远不够。 所以如果你想学习大数据技术,首先检查一下你的电脑有多少内存。 如果小于 8GB,请考虑添加更多内存模块。 如果能加16GB就更好了,这样你学习的时候就会感觉操作执行得很快。 硬盘不需要特别大,目前主流的500GB就足够了。

2、软件准备

硬件准备好后,就可以开始安装软件了。 如果您熟悉虚拟机VMware或VirtualBox,可以跳过本章。

安装完虚拟机后,我们可以将虚拟机复制成另外两个副本。 这样,我们在VMware虚拟机上模拟了三台服务器,构建了一个三节点的大数据集群。

3.安装CDH

CDH 是 Cloudera 的发行版(包括 Apache Hadoop)的缩写。 它是基于Hadoop组件的稳定版本编译的。 其发布的ClouderManager(简称CM)是一个可以在Web页面上安装、修改、管理大数据组件的系统。 它简化了大数据处理。 数据平台安装。

4.蜂巢

对于那些有一定 SQL 经验的人来说,从 Hive 入手是一个更好的选择。 Hive脱胎于FaceBook,最初是为了方便FaceBook的数据分析师而构建的。 FaceBook的数据分析师大部分都知道怎么写SQL,但是如果想用MapReduce达到同样的分析效果,比如多表关联,学习和开发成本都非常高。 于是FaceBook的专家开发了一个可以将SQL语句转换成MapReduce的组件,极大的方便了这些数据分析师。

CDH集群搭建完成后,需要选择安装hive组件才可以使用。 如何使用hive组件需要从简单到复杂。

5. 大数据的其他组成部分

Hadoop 是当前大数据事实上的标准。 Hadoop 生态系统中有许多组件。 每个组件都有其特定的应用场景。 您不必学习每个组件。 您可以选择您感兴趣的组件来学习,或者等待实际应用。 当你需要的时候,你也可以学习它。

You May Also Like

More From Author