RDD
官方文档:https://spark.apache.org/docs/latest/rdd-programming-guide.html
一元RDD
flowchart LR
RDD --> transformation
RDD --> collection
RDD --> action
RDD --> 不同RDD之间的转换
transformation -- 映射 --> 映射{{map, flatMap}}
transformation -- 过滤 --> 过滤{{filter, distinct}}
transformation -- 排序 --> 排序{{sorted}}
collection -- 集合 --> 集合{{union, intersection, subtract, cartesian}}
action -- 取得元素 --> 取得元素{{collect, take, top, takeOrdered}}
action -- 简单计算 --> 简单计算{{count, countByValue, foreach}}
action -- 聚合 --> 聚合{{reduce, fold, aggregate}}
PairRDD
flowchart LR
PairRDD --> transformation
PairRDD --> PairRDD_2
PairRDD --> action
transformation -- 映射 --> 映射{{mapValue, flatMapValue}}
transformation -- 过滤 --> 过滤{{keys, values}}
transformation -- 聚合 --> 聚合{{reduceByKey, groupByKey, combineByKey}}
transformation -- 排序 --> 排序{{sortedByKey}}
PairRDD_2 -- 转化 --> 转化{{subtractByKey, join, leftOuterJoin, rightOuterJoin, cogroup }}
action -- 取得元素 --> 取得元素{{collectAsMap}}
action -- 简单计算 --> 简单计算{{countByKey}}
action -- 查找 --> 查找{{lookup}}