Summary

Introduction
Overview of Apache Spark

Spark Core / Transferring Data Blocks In Spark Cluster

ShuffleClient — Contract to Fetch Shuffle Blocks
1. BlockTransferService — Pluggable Block Transfers (To Fetch and Upload Blocks)
2. ExternalShuffleClient
NettyBlockTransferService — Netty-Based BlockTransferService
1. NettyBlockRpcServer — NettyBlockTransferService’s RpcHandler
BlockFetchingListener
RetryingBlockFetcher
1. BlockFetchStarter

Spark Core / Web UI

Web UI — Spark Application’s Web Console
1. Jobs
2. Stages
3. Storage
4. Environment
5. Executors
JobsTab
1. AllJobsPage
2. JobPage
StagesTab — Stages for All Jobs
StorageTab
1. StoragePage
2. RDDPage
EnvironmentTab
1. EnvironmentPage
ExecutorsTab
1. ExecutorsPage
2. ExecutorThreadDumpPage
SparkUI — Web UI of Spark Application
1. SparkUITab
BlockStatusListener Spark Listener
EnvironmentListener Spark Listener
ExecutorsListener Spark Listener
JobProgressListener Spark Listener
StorageStatusListener Spark Listener
StorageListener — Spark Listener for Tracking Persistence Status of RDD Blocks
RDDOperationGraphListener Spark Listener
WebUI — Framework For Web UIs
1. WebUIPage — Contract of Pages in Web UI
2. WebUITab — Contract of Tabs in Web UI
RDDStorageInfo
RDDInfo
LiveEntity
1. LiveRDD
UIUtils
JettyUtils
web UI Configuration Properties

Spark Core / Metrics

Spark Metrics
MetricsSystem
MetricsConfig — Metrics System Configuration
Source — Contract of Metrics Sources
Sink — Contract of Metrics Sinks
1. MetricsServlet JSON Metrics Sink
Metrics Configuration Properties

Spark Core / Status REST API

Status REST API — Monitoring Spark Applications Using REST API
ApiRootResource — /api/v1 URI Handler
AbstractApplicationResource
BaseAppResource
ApiRequestContext
UIRoot — Contract for Root Contrainers of Application UI Information
1. UIRootFromServletContext

Spark MLlib

Spark MLlib — Machine Learning in Spark
ML Pipelines (spark.ml)
ML Persistence — Saving and Loading Models and Pipelines
1. MLWritable
2. MLReader
Example — Text Classification
Example — Linear Regression
Logistic Regression
1. LogisticRegression
Latent Dirichlet Allocation (LDA)
Vector
LabeledPoint
Streaming MLlib
GeneralizedLinearRegression
Alternating Least Squares (ALS) Matrix Factorization
Instrumentation
MLUtils

Spark Core / Tools

Spark Shell — spark-shell shell script
Spark Submit — spark-submit shell script
spark-class shell script
1. AbstractCommandBuilder
SparkLauncher — Launching Spark Applications Programmatically

Spark Core / Architecture

Spark Architecture
Driver
Executor
1. TaskRunner
2. ExecutorSource
Master
Workers

Spark Core / RDD

Anatomy of Spark Application
SparkConf — Programmable Configuration for Spark Applications
1. Spark Properties and spark-defaults.conf Properties File
2. Deploy Mode
SparkContext
RDD — Resilient Distributed Dataset
Operators
1. Transformations
  1. PairRDDFunctions
2. Actions
Caching and Persistence
1. StorageLevel
Partitions and Partitioning
1. Partition
2. Partitioner
  1. HashPartitioner
Shuffling
Checkpointing
1. CheckpointRDD
RDD Dependencies
1. NarrowDependency — Narrow Dependencies
2. ShuffleDependency — Shuffle Dependencies
Map/Reduce-side Aggregator
AppStatusStore
AppStatusPlugin
AppStatusListener
KVStore
InterruptibleIterator — Iterator With Support For Task Cancellation

Spark Core / Optimizations

Broadcast variables
Accumulators
1. AccumulatorContext

Spark Core / Services

SerializerManager
MemoryManager — Memory Management
SparkEnv — Spark Runtime Environment
DAGScheduler — Stage-Oriented Scheduler
TaskScheduler — Spark Scheduler
SchedulerBackend — Pluggable Scheduler Backends
1. CoarseGrainedSchedulerBackend
  1. DriverEndpoint — CoarseGrainedSchedulerBackend RPC Endpoint
ExecutorBackend — Pluggable Executor Backends
1. CoarseGrainedExecutorBackend
2. MesosExecutorBackend
BlockManager — Key-Value Store of Blocks of Data
MapOutputTracker — Shuffle Map Output Registry
1. MapOutputTrackerMaster — MapOutputTracker For Driver
  1. MapOutputTrackerMasterEndpoint
2. MapOutputTrackerWorker — MapOutputTracker for Executors
ShuffleManager — Pluggable Shuffle Systems
Serialization
ExternalClusterManager — Pluggable Cluster Managers
BroadcastManager
1. BroadcastFactory — Pluggable Broadcast Variable Factories
  1. TorrentBroadcastFactory
  2. TorrentBroadcast
2. CompressionCodec
ContextCleaner — Spark Application Garbage Collector
1. CleanerListener
Dynamic Allocation (of Executors)
HTTP File Server
Data Locality
Cache Manager
OutputCommitCoordinator
RpcEnv — RPC Environment
TransportConf — Transport Configuration
Utils Helper Object

Spark Core / Security

Securing Web UI

Spark Deployment Environments

Deployment Environments — Run Modes
Spark local (pseudo-cluster)
1. LocalSchedulerBackend
2. LocalEndpoint
Spark on cluster

Spark on YARN

Spark on YARN
YarnShuffleService — ExternalShuffleService on YARN
ExecutorRunnable
Client
YarnRMClient
ApplicationMaster
1. AMEndpoint — ApplicationMaster RPC Endpoint
YarnClusterManager — ExternalClusterManager for YARN
TaskSchedulers for YARN
1. YarnScheduler
2. YarnClusterScheduler
SchedulerBackends for YARN
YarnAllocator
Introduction to Hadoop YARN
Setting up YARN Cluster
Kerberos
1. ConfigurableCredentialManager
ClientDistributedCacheManager
YarnSparkHadoopUtil
Settings

Spark Standalone

Spark Standalone
Standalone Master — Cluster Manager of Spark Standalone
Standalone Worker
web UI
1. ApplicationPage
LocalSparkCluster — Single-JVM Spark Standalone Cluster
Submission Gateways
Management Scripts for Standalone Master
Management Scripts for Standalone Workers
Checking Status
Example 2-workers-on-1-node Standalone Cluster (one executor per worker)
StandaloneSchedulerBackend

Spark on Mesos

Spark on Mesos
MesosCoarseGrainedSchedulerBackend
About Mesos

Execution Model

Execution Model

Monitoring, Tuning and Debugging

Unified Memory Management
Spark History Server
Logging
Performance Tuning
SparkListener — Intercepting Events from Spark Scheduler
JsonProtocol
Debugging Spark

Varia

Building Apache Spark from Sources
Spark and Hadoop
1. SparkHadoopUtil
Spark and software in-memory file systems
Spark and The Others
Distributed Deep Learning on Spark
Spark Packages

Interactive Notebooks

Interactive Notebooks
1. Apache Zeppelin
2. Spark Notebook

Spark Tips and Tricks

Spark Tips and Tricks
Access private members in Scala in Spark shell
SparkException: Task not serializable
Running Spark Applications on Windows

Exercises

One-liners using PairRDDFunctions
Learning Jobs and Partitions Using take Action
Spark Standalone - Using ZooKeeper for High-Availability of Master
Spark’s Hello World using Spark shell and Scala
WordCount using Spark shell
Your first complete Spark application (using Scala and sbt)
Spark (notable) use cases
Using Spark SQL to update data in Hive using ORC files
Developing Custom SparkListener to monitor DAGScheduler in Scala
Developing RPC Environment
Developing Custom RDD
Working with Datasets from JDBC Data Sources (and PostgreSQL)
Causing Stage to Fail

Further Learning

Courses
Books

(separate book) Spark SQL

Spark SQL — Batch and Streaming Queries Over Structured Data on Massive Scale

(separate book) Spark Structured Streaming

Spark Structured Streaming — Streaming Datasets

(obsolete) Spark Streaming

Spark Streaming — Streaming RDDs
1. BlockRDD

(obsolete) Spark GraphX

Spark GraphX — Distributed Graph Computations
Graph Algorithms

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SUMMARY.adoc

SUMMARY.adoc

Summary

Spark Core / Transferring Data Blocks In Spark Cluster

Spark Core / Web UI

Spark Core / Metrics

Spark Core / Status REST API

Spark MLlib

Spark Core / Tools

Spark Core / Architecture

Spark Core / RDD

Spark Core / Optimizations

Spark Core / Services

Spark Core / Security

Spark Deployment Environments

Spark on YARN

Spark Standalone

Spark on Mesos

Execution Model

Monitoring, Tuning and Debugging

Varia

Interactive Notebooks

Spark Tips and Tricks

Exercises

Further Learning

(separate book) Spark SQL

(separate book) Spark Structured Streaming

(obsolete) Spark Streaming

(obsolete) Spark GraphX

Files

SUMMARY.adoc

Latest commit

History

SUMMARY.adoc

File metadata and controls

Summary

Spark Core / Transferring Data Blocks In Spark Cluster

Spark Core / Web UI

Spark Core / Metrics

Spark Core / Status REST API

Spark MLlib

Spark Core / Tools

Spark Core / Architecture

Spark Core / RDD

Spark Core / Optimizations

Spark Core / Services

Spark Core / Security

Spark Deployment Environments

Spark on YARN

Spark Standalone

Spark on Mesos

Execution Model

Monitoring, Tuning and Debugging

Varia

Interactive Notebooks

Spark Tips and Tricks

Exercises

Further Learning

(separate book) Spark SQL

(separate book) Spark Structured Streaming

(obsolete) Spark Streaming

(obsolete) Spark GraphX