You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
deb http://mirrors.cloud.tencent.com/debian stretch main contrib non-free
deb http://mirrors.cloud.tencent.com/debian stretch-updates main contrib non-free
#deb http://mirrors.cloud.tencent.com/debian stretch-backports main contrib non-free
#deb http://mirrors.cloud.tencent.com/debian stretch-proposed-updates main contrib non-free
deb-src http://mirrors.cloud.tencent.com/debian stretch main contrib non-free
deb-src http://mirrors.cloud.tencent.com/debian stretch-updates main contrib non-free
#deb-src http://mirrors.cloud.tencent.com/debian stretch-backports main contrib non-free
#deb-src http://mirrors.cloud.tencent.com/debian stretch-proposed-updates main contrib non-free
The text was updated successfully, but these errors were encountered:
earlytobed
changed the title
基于PyTorch On Angel实现MMoE多任务学习算法模型
2021Tencent Rhino-bird Open-source Training Program—Angel
Aug 4, 2021
earlytobed
changed the title
2021Tencent Rhino-bird Open-source Training Program—Angel
2021Tencent Rhino-bird Open-source Training Program—Angel Zeng Shang
Aug 16, 2021
第一次作业
Angel 环境搭建
本次项目是基于 Angel-ML/PyTorch-On-Angel 的一个论文复现,在进行其它工作之前,我们需要部署一个可以运行的环境。
PyTorch on Angel's architecture
PyTorch-On-Angel 主要由三个模块构成:
厘清依赖:
以下操作均基于
Ubuntu 20.04 LTS
,因为自用,环境不完全干净,不保证没有别的问题。PyTorch-On-Angel
第一步当然是:
项目文档中介绍了编译方法,出于使用方便,我准备好镜像源文件,放在下
./addon
备用:Debian 9
sources.list
:maven
settings.xml
:修改了
Dockerfile
:修改
cpp/CMakeList.txt
:执行
build.sh
静待片刻:如果下载安装缓慢也可以提前在
addon
下准备好需要的文件并修改Dockerfile
里相应部分:修改
gen_pt_model.sh
python → python3
:./dist
下就有了我们所需要的文件:第一步就完成了~
Hadoop
强迫症表示看到很多没用的文件就想删掉:
修改配置文件:
hadoop-env.sh
core-site.xml
到这里
HDFS
就设置完了,format
一下:启动试试是否正常工作:
启动需要能 SSH master worker,SSH 设置这里就略了
mapred-site.xml
运行方式改成 yarnyarn-site.xml
yarn
的资源配置,默认是8G
,跑 Angel 可能不够,根据自身电脑配置修改:启动试试是否正常工作:
Spark
配置好 Hadoop 之后 Spark 的配置就比较简单了,Spark on YARN 可以直接从 Hadoop 的配置里读取,只需要修改:
spark-env.sh
启动试试是否正常工作:
Angel
注意
jdk
版本,不然后续会报错编译安装
protobuf 2.5.0
,依照README.txt
即可,记得最后要ldconfig
:按照说明编译即可:
编译完成后解压,进行配置:
spark-on-angel-env.sh
创建文件夹,把需要的文件放上
HDFS
备用把之前生成好的四个文件放在合适的位置:
torch.zip
pytorch-on-angel-0.2.0.jar
pytorch-on-angel-0.2.0-jar-with-dependencies.jar
deepfm.pt
spark-submit
配置参数按实际情况修改:因为
--archives torch.zip#torch
在我这一直不起作用,搜寻资料也没有结果,于是我解压了torch.zip
,选择用—-files
上传:去 http://master:8088/cluster/apps 上收获成功吧!
The text was updated successfully, but these errors were encountered: