update: 2017-03-15

缘起

看了不少机器学习的书籍,却始终是略懂皮毛的程度。最近项目训练GBDT模型,更是深切地认识到「学以致用」的必要性。故打算由浅入深地重新学习树相关的方法,大致思路是:首先实现 demo 阐明原理,再阅读常用的工程实现,最后阅读论文打通数学推导。

本文用于整理记录学习笔记。因为是初学者,肯定纰漏错识之处甚多,敬请审阅。

0 决策树

0.0 Demo

0.1 sklearn 实现

总纲:

细节:

0.2 spark 实现

1 随机森林

2 GBDT(Gradient Boosting Decision Tree)

原理

实现

3 xgboost

结语

耗时近三个月,比预计的时间长。树相关的概念比较简单,但确实有些实现细节较为繁琐。回顾前面的文章,还是有问题的,有些是笔误,有些是当时的理解片面。后续打算整理一份详细的文档,汇总上述文章并修正错点。

总之,树的专题可以暂时告一段落了,收获挺多。