大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。(来源百度百科).
由于大数据具有5V的特性,因此使用传统的数据系统不足以应对,所以就有了现在的大数据技术,他是在基于Google的著名的三篇大数据的论文(GFS、MapReduce、BigTable),发展起来的.
那么大数据开发要具备的知识有那些呢?
java – 编程的基本语言;
web – 网页页面的构成;
spring – 网页框架知识(包含SpringMvc/Mybatis/SpringBoot等);
nginx – 服务器负载均衡;
mysql – 数据库(一种常见的数据库);
echarts – 数据可视化;
mycat – 数据库中间件;
Redis – 缓存技术;
lucene – 全文索引技术;
Linux – 一款操作系统(服务器操作);
zookeeper – 分布式协调服务;
hadoop – 分布式的基础架构;
flume – 日志采集系统;
hive – 基于hadoop的数据仓库;
hbase – 分布式的数据库;
kafka – 流处理平台;
scala – 多范式的编程语言(类似于java,是spark的基础);
spark – 大数据处理的计算引擎;
storm – 流计算;
只用掌握上述的技能才可以满足大数据开发的基本技能,但随着技术的迭代,我们还需要不断的学习了解新的技术.
大数据的处理流程
通过对海量的数据配合统计学相关的知识就可得到我们需要的东西了.
本文来自投稿,不代表程序员编程网立场,如若转载,请注明出处:http://www.cxybcw.com/186103.html