Skip to content
This repository has been archived by the owner on Sep 26, 2023. It is now read-only.

【WIP】edit doc #70

Open
wants to merge 1 commit into
base: main
Choose a base branch
from
Open

Conversation

wuhongsong
Copy link
Contributor

No description provided.

幸运的是,我的目标相对温和。我不需要构建最先进的分类器,也不需要探索手动实现反向传播的复杂性。我只是想了解在用快速gpu训练大数据集时所涉及的IO模式,这样我就可以帮助研究人员加快他们的工作速度。到目前为止,我做这件事的能力相当有限。在日常工作中,我可以访问一小群具有非常普通的gpu的节点。我使用MLPerf设置运行,但数据集(WMT G-E和CoCo)很容易装入内存。除了在训练开始时出现短暂的读取流量爆发外,几乎没有IO。最近,我有幸见到了Lambda Labs的联合创始人Michael Balaban。我告诉他我想做什么,他给了我访问Lambda的GPU云和beta持久存储的权限,让我尝试一下。我得到了Lambda的8x Tesla V100实例之一(这些东西非常受欢迎,所以最好在早上买一个!)。目前并不是所有的Lambda实例类型都可以访问持久存储,但是Texas区域中的V100实例可以。一旦准备就绪了,我就开始工作。
TensorFlow - Synthetic
在尝试使用真实数据运行测试之前,我意识到我需要一个基线来开始。幸运的是,Lambda的首席科学官Li Chuan编写了一个运行TensorFlow基准测试的工具,并将其发布在github上here。Lambda云计算的一个优势是,他们已经将许多流行的用于运行深度学习工作负载的工具捆绑在一个名为Lambda Stack的包中,当你启动一个实例时,这个包就会预先安装。这让我可以快速上手,尽管我确实遇到了一个问题。Lambda Stack是TensorFlow 2的标准版本,但li chuan的工具依赖于TensorFlow基准子模块,该子模块旨在与TensorFlow一起工作。1. 幸运的是,父库被非正式地更新为与Tensorflow 2一起工作(警告:它不再被维护)。在“benchmarks”子模块目录中运行“git checkout master”可以快速地使一切正常工作。Li Chuan 的工具使得运行包含了几个预配置模板的测试变得很简单。我选择了fp16 resnet50配置,因为它处理图像的速度应该很快,而且相当标准。
我想了解深度学习是如何使用存储设备的以及gpu训练数据集时所涉及的IO模式,这样我就可以帮助研究人员加快他们的工作速度。
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

是否考虑在文章翻译之前,把这篇文章的内容用三五句话总结性的概括一下。

  • 这篇文章是要解决什么问题
  • 如何解决的
  • 结果怎么样

@aspirer aspirer changed the title edit doc 【WIP】edit doc Apr 21, 2023
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants