Release-1.3.0
Release-1.3.0
Angel 1.3.0 如约带来了Python接口的PyAngel,并提前加入了Spark Streaming on Angel的FTRL算法,同时,内核和已有算法也做了大量的优化和补充,Spark on Angel开始支持稀疏特性。这是一个拥有诸多新特性,充满活力的版本。
Core
- 支持拉取局部模型:PSModel增加getRowWithIndex方法,支持拉取特征的部分维度(Experimental)
- Bug 修复
- 维度超过配置导致的任务卡住
- worker log url端口与Yarn web端口不一致问题
- 一些流和socket在某些情况下没有及时关闭
MLLib
- 增加FTRL优化方法和FTRL LR(验证离线数据集用,生产版本见Online Learning)
- 完善了MLR算法
PyAngel
- 基于
MLRunner
API,封装和提供了各个Angel算法 - 支持
脚本
和交互式
两种提交模式 - 支持Local和Yarn两种运行模式
Spark on Angel
- PS Function支持Sparse特性
- PSVector/PSMatrix支持Sparse特性
- Bug修复
- PullMan/PushMan导致VectorPool无法回收vector、
- 修复LogisticRegression的小Bug
MLLib (Spark on Angel)
- 引入RDD sliceAggregate算子,解决目前Spark高维数据聚合效率低的问题
- Online Learning(FTRL)
- 基于Spark Streaming on Angel,实现了生产可用的FTRL算法(
SparseLRWithFTRL
)和相应的Optimizer
- 基于Spark Streaming on Angel,实现了生产可用的FTRL算法(
文档
- ~Spark on Angel文档全面更新~
- MLR,ADMM文档更新
- LDA文档更新
- FTRL文档更新
~~~华丽的致谢分割线~~~
感谢如下的开发者为这次发布做出的贡献:
- shunanzhang:启动第二轮文档翻译和同步(#245)
- ericzhang-cn:修复诸多Bug,加入FTRL的Predict
同时 ,对公司内外用户的热心反馈和意见,深表谢意。BTW:伴随着上个版本LongKey的升级,Angel已经开始支持公司内百亿级别维度的算法和业务。