Skip to content

Release-1.3.0

Compare
Choose a tag to compare
@andyyehoo andyyehoo released this 21 Nov 15:40
· 2218 commits to master since this release
362d4aa

Release-1.3.0

Angel 1.3.0 如约带来了Python接口的PyAngel,并提前加入了Spark Streaming on Angel的FTRL算法,同时,内核和已有算法也做了大量的优化和补充,Spark on Angel开始支持稀疏特性。这是一个拥有诸多新特性,充满活力的版本。

Core

  1. 支持拉取局部模型:PSModel增加getRowWithIndex方法,支持拉取特征的部分维度(Experimental)
  2. Bug 修复
    • 维度超过配置导致的任务卡住
    • worker log url端口与Yarn web端口不一致问题
    • 一些流和socket在某些情况下没有及时关闭

MLLib

  1. 增加FTRL优化方法和FTRL LR(验证离线数据集用,生产版本见Online Learning)
  2. 完善了MLR算法

PyAngel

  1. 基于MLRunnerAPI,封装和提供了各个Angel算法
  2. 支持脚本交互式两种提交模式
  3. 支持Local和Yarn两种运行模式

Spark on Angel

  1. PS Function支持Sparse特性
  2. PSVector/PSMatrix支持Sparse特性
  3. Bug修复
    • PullMan/PushMan导致VectorPool无法回收vector、
    • 修复LogisticRegression的小Bug

MLLib (Spark on Angel)

  1. 引入RDD sliceAggregate算子,解决目前Spark高维数据聚合效率低的问题
  2. Online Learning(FTRL)
    • 基于Spark Streaming on Angel,实现了生产可用的FTRL算法(SparseLRWithFTRL)和相应的Optimizer

文档

  • ~Spark on Angel文档全面更新
  • MLR,ADMM文档更新
  • LDA文档更新
  • FTRL文档更新

~~~华丽的致谢分割线~~~

感谢如下的开发者为这次发布做出的贡献:

  • shunanzhang:启动第二轮文档翻译和同步(#245
  • ericzhang-cn:修复诸多Bug,加入FTRL的Predict

同时 ,对公司内外用户的热心反馈和意见,深表谢意。BTW:伴随着上个版本LongKey的升级,Angel已经开始支持公司内百亿级别维度的算法和业务。