博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark(一) 架构及生态
阅读量:6738 次
发布时间:2019-06-25

本文共 610 字,大约阅读时间需要 2 分钟。

hot3.png

  • 通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存,而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算,有时我们可能需要处理的数据量并不大,但是计算很复杂,需要大量的时间,这时我们也可以选择利用spark集群强大的计算资源,并行化地计算,其架构示意图如下:
  • Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
  • Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,Spark SQL查询被转换为Spark操作。
  • Spark Streaming:对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据
  • MLlib:一个常用机器学习算法库,算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法,比如分类、回归等需要对大量数据集进行迭代的操作。
  • GraphX:控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API,包含控制图、创建子图、访问路径上所有顶点的操作
  • Spark架构的组成图如下:

    1004194-20160829174157699-296881431.png

转载于:https://my.oschina.net/u/3703858/blog/1975817

你可能感兴趣的文章
基于mpvue搭建小程序项目框架
查看>>
使用commons-email 发送邮件
查看>>
windows下,在任意文件夹右键添加打开命令窗口(包括以管理员方式)
查看>>
关于java在用jdbc技术往mysql数据库插入数据出现乱码问题的解决方案
查看>>
Linux磁盘阵列和lvm逻辑卷_李强强
查看>>
MySql索引那些事
查看>>
如何查看mac的格式磁盘(开通头条号)
查看>>
Intellij IDEA 14中使用MyBatis-generator 自动生成MyBatis代
查看>>
基于Google云存储的开放Maven镜像中央仓库
查看>>
Oracle存储过程基本语法介绍(转)
查看>>
egret笔记之gui内设置动画效果
查看>>
JQuery - only child
查看>>
javaProject中复制jar包
查看>>
基于FMDB的数据库操作
查看>>
超赞的 JavaScript 就query 图形图表绘制插件
查看>>
HibernateTemplate() 获取最大记录数/记录总数/总数
查看>>
PIL处理图像(一)
查看>>
Clojure程序设计
查看>>
C# 获取Sqlite数据库路径的问题
查看>>
如何得到DropBoxManager
查看>>