Spark ML工程笔记汇总
update: 2017-05-30
最近开始尝试进行Spark贡献,目前精力主要在ML部份。在反复读代码的过程中,做了些笔记资料,打算分享出来。一则自己备忘,二来也方便他人快速上手。
因为主要是自己看,代码的迭代也快,只会简要做些点注,并不会面面俱到。如果想要深而细,建议阅读Mastering Apache Spark 2。
- 04-30,Spark ML: Param架构笔记,比较简单轻量,主要用到了trait的特性。
- 05-01,Spark ML: Tree架构笔记,为了性能,又是单例,RandomForest写得比较复杂,大量参数飞来飞去。
- 05-25,Spark: Pyspark Param架构笔记,追了下Pyspark参数接口和Scala原生接口的对接关系。
- 05-30,Spark: Pyspark Tree架构笔记,详列了决策树、随机森林和GBDT在Pyspark中的继承关系。