正在加载中,请稍等...

大数据平台

大数据处理平台是对数据采集、数据传输、存储、分析挖掘、数据展现、价值体现的整体流程梳理。

    大数据处理平台是对数据采集、数据传输、存储、分析挖掘、数据展现、价值体现的整体流程梳理。大数据处理平台是用来解决实际问题的。


产品结构图

image002.png


基础平台

Hadoop

Spark

    Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

优点:

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Spark 是一种与 Hadoop 相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。

数据存储


Hive

Hbase

Oracle

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。


Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的 适应高吞吐量的数据库解决方案。本平台以oracle作为最终结果存储数据库。


应用场景


1513995163137744.png光猫数据分析

与北京电信合作,实时抓取光猫数据,通过大数据处理平台对不同用户的信息进行处理、保存,生成实时报表。

1513998507366458.png

由于数据量过大,采用传统型方式解析已经不能满足客户的需求,所以采用大数据处理平台来分析处理数据,并将结果保存在oracle


1513995162115307.png无线网发路测点几何运算

以下是采用传统方式和大数据处理平台运算的对比:

数据和环境

1513998767995454.png


数据样本

1513998767389781.png


运算结果

1513998767110935.jpg



Powered by 华胜鸣天 5.3.19