飞乐屋
首页
文章归档
速记
收藏
关于页面
分类
java (3)
分布式 (5)
中间件 (1)
mysql (2)
spring (2)
设计模式 (2)
算法 (2)
脚本 (1)
spring boot (1)
Scala (2)
Spark (4)
全部分类 ( 27 )
查询
当前位于"大数据"标签下
Spark在Standalone运行架构中的运行流程
StandaloneStandalone模式是Spark实现的资源调度框架,其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中, 也可以运行在本地Client端。当用spark-shell交互式工具提交Spark的Job时,Drive
大数据
2021年10月07日
471次浏览
Spark的运行原理
Spark基本概念RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。DAGScheduler:有向无环图调度器基于DAG划分Stage并以TaskSet的形式提交Stage给TaskSched
分布式
大数据
2021年09月21日
487次浏览
Spark的运行模式
Standalone模式架构Standalone运行过程SparkContext连接到Master,向Master注册并申请资源(CPU Core and Memory)。Master根据SparkContext的资源申请要求和Worker心跳周期内报告的信息决定哪个Worker上分配资源,然后在该
大数据
2021年09月21日
528次浏览
Spark学习之Spark简述
Spark生态Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的Spark SQL:提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每
Scala
大数据
2021年09月20日
345次浏览
«
1
(current)
»
个人信息
阿飞
火星
文章数量
27
分类数量
11
标签数量
28
所有标签
虚拟机
1
ESXI
1
Picgo
1
大数据
4
Idea
1
Scala
3
Shell
1
事务
1
JVM
1
发布订阅
1
线程池
1
分布式锁
2
Redisson
1
限流
1
Zookeeper
1
MySQL
2
Lock
1
RPC
0
LRU
1
Dubbo
1
ZAB
1
Spring
1
优化
1
Redis
2
CAP
1
分布式
4
注解
1
Java
11
所有标签
27