Spark(一) 架构及生态-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Spark(一) 架构及生态

阅读量：6738 次

发布时间：2019-06-25

本文共 610 字，大约阅读时间需要 2 分钟。

通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存，而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算，有时我们可能需要处理的数据量并不大，但是计算很复杂，需要大量的时间，这时我们也可以选择利用spark集群强大的计算资源，并行化地计算，其架构示意图如下：

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的

Spark SQL：提供通过Apache Hive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。每个数据库表被当做一个RDD，Spark SQL查询被转换为Spark操作。

Spark Streaming：对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据

MLlib：一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。

GraphX：控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API，包含控制图、创建子图、访问路径上所有顶点的操作

Spark架构的组成图如下：

转载于:https://my.oschina.net/u/3703858/blog/1975817

你可能感兴趣的文章

基于mpvue搭建小程序项目框架

使用commons-email 发送邮件

windows下，在任意文件夹右键添加打开命令窗口(包括以管理员方式)

关于java在用jdbc技术往mysql数据库插入数据出现乱码问题的解决方案

Linux磁盘阵列和lvm逻辑卷_李强强

MySql索引那些事

如何查看mac的格式磁盘（开通头条号）

Intellij IDEA 14中使用MyBatis-generator 自动生成MyBatis代

基于Google云存储的开放Maven镜像中央仓库

Oracle存储过程基本语法介绍（转）

egret笔记之gui内设置动画效果

JQuery - only child

javaProject中复制jar包

基于FMDB的数据库操作

超赞的 JavaScript 就query 图形图表绘制插件

HibernateTemplate() 获取最大记录数/记录总数/总数

PIL处理图像（一）

Clojure程序设计

C# 获取Sqlite数据库路径的问题

如何得到DropBoxManager

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-02-06 03:22:55 当前IP: 18.117.11.25 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我