Spark的运行原理

Spark基本概念RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。DAGScheduler:有向无环图调度器基于DAG划分Stage并以TaskSet的形式提交Stage给TaskSched
分布式 大数据 2021年09月21日 320次浏览

CAP定理

概述1998年,加州大学的计算机科学家 Eric Brewer 提出,分布式系统有三个指标。ConsistencyAvailabilityPartition tolerance这三个指标不可能全部做到。Partition tolerance分区容错性大多数分布式系统都分布在多个子网络。每个子网络就叫
分布式 2021年04月19日 174次浏览

Zookeeper概述与安装

特性ZooKeeper 解决的本质问题消息传递:延迟性,先发送的消息,不一定先到达;消息传递:丢失性,发送的消息,可能丢失;节点崩溃:分布式系统内,任何一个节点都可能崩溃。如何保证分布式一致性顺序一致性:同一个 Client 发起的事务请求,严格按照发起顺序执行原子性:事务请求,要么应用到所有节点,
分布式 CAP ZAB 2021年04月15日 267次浏览

Dubbo笔记-概述

dubbo 学习Apache Dubbo 是一款高性能、轻量级的开源Java RPC框架,它提供了三大核心能力:面向接口的远程方法调用,智能容错和负载均衡,以及服务自动注册和发现。背景常见的架构随着互联网的发展,网站应用的规模不断扩大,应用的架构也在不断的迭代发展。单一应用架构当网站流量很小时,只需
Java 分布式 Dubbo 2021年04月14日 237次浏览