ansible是一个用python编写的用户自动化操作的工具。基于ssh远程服务。常用于集群环境的自动化部署等。可以大大节省部署时间,提高部署的可重复操作性。
ansible playbook 是将很多常见的任务单独做成一个一个的role,实现代码复用。并将变量和模板等元素单独分离,可以简化复杂的ansible项目的复杂度。
ansible palybook 结构主要包括以下要素:
本文以ansible semaphore v2.9.64 版本为例,简单介绍如实使用 semaphore 进行一个简单的slurm集群部署。
本文档以一个实例,演示了grpc从0到0.5的过程. 使用go代码实现。全部源代码在文尾。
shell# mac os
brew install protobuf
protoc --version # Ensure compiler version is 3+
libprotoc 25.1
go install google.golang.org/protobuf/cmd/protoc-gen-go@latest
go install google.golang.org/grpc/cmd/protoc-gen-go-grpc@latest
其他版本os的安装请参考文档: https://grpc.io/docs/protoc-installation/
shell├── proto │ ├── group │ │ └── group.proto │ └── user │ └── user.proto
这是一个体量很小且运行很简单的在容器中运行的 gpu stress test 工具,镜像是作者7年以前提交的,惊喜的是现在仍然能运行。倍感惊喜!!! dockerhub链接: https://hub.docker.com/r/chrstnhntschl/gpu_burn
这是一个使用最新版本的slurm(23.02)进行GPU集群部署配置的示例,并进行了初步测试。鉴于slurm官方文档内容的稀缺和不够丰富,使得很多slurm初学者经常在部署这里踩坑。希望本文档能够对他们有所帮助。