TensorFlow如何使用

这篇文章主要讲解了“TensorFlow如何使用”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“TensorFlow如何使用”吧！
2016年4月TensorFlow发布了0.8版本宣布支持分布式计算，这个特性，我们称之为Distributed TensorFlow。这是非常重要的一个特性，因为在AI的世界里，训练数据的size通常会大到让人瞠目结舌。比如Google Brain实验室今年发表的论文OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER中提到，下图中MOE Layer Model可以达到680亿个Parameters的规模，如此复杂的模型，如果只能单机训练，那耗时难于接受。通过Distributed TensorFlow，可以利用众多服务器构建TensorFlow Cluster来提高训练效率。关于Distributed TensorFlow的更多内容，请参考官方内容www.tensorflow.org/deplopy/distributed，这里给出Distributed TensorFlow结构图：Distributed TensorFlow虽然提供了分布式能力，可以利用服务器集群加快训练，但是还有许多缺点，比如资源无法隔离、PS进程遗留问题等等，而这些正是Kubernetes所擅长的地方。下图是总结的你需要将TensorFlow运行在Kubernetes上的理由：对于我们来说，前期最大的用户痛点就是算法团队使用的HDFS Read性能不及预期，经过网上查找资料及我们自己简单的对比测试，发现GlusterFS可能是最适合我们的分布式存储了。因此在我们的TensorFlow on Kubernetes项目中使用GlusterFS来存放训练数据，worker将从GlusterFS中读取训练数据进行计算。说明:支持Between-Graph和In-Graph两种replication场景；PS Task通过Kubernetes Deployment来部署，Worker Task通过Kubernetes Job来部署，由Kubernetes service和KubeDNS来提供服务发现；每个TensorFlow Cluster都会通过StorageClass来Dynamic Provision PV，事先会先创建好通过Heketi对接Gluster集群的StorageClass；GlusterFS集群通过Heketi来暴露rest api与Kubernetes进行交互，关于Heketi的部署，请参考官方文档；每个TensorFlow Cluster会最终创建两个PV，一个用来存放训练数据（挂载到容器内/data，对应TensorFlow –data_dir配置），一个用来存储训练日志（挂载到容器内/log，对应TensorFlow –log_path配置）；每个用户会对应在Kubernetes中创建一个namespace；会给每个用户部署一个Jupyter Notebook Deployment和Service，Service通过NodePort暴露到集群外；有一个节点比较特殊，我们称之为User Node,这个节点通过Taint方式，保证会运行Pod，但是会通过kube-proxy来暴露集群内的service，比如上面的Jupyter Notebook service将只允许在这个节点暴露出去；User Node节点存放着用户写的python算法，并可以通过http查看和下载这些算法文件,Between-Graph场景下，容器启动后将通过curl下载这些算法文件；会给没用用户创建一个Tensorboard Deployment和Service，Serivce通过NodePort暴露到集群外（同样只能在User Node暴露），Tensorboard Pod会挂着log PV，这样就能得到TensorFlow Graph。整个系统涉及以下核心Components:TensorFlow: 1.3.0Kubernetes: 1.7.4Docker: 1.12.6Harbor: 1.1.2Contiv netplugin: 0.1-12-23-2016.19-44-42.UTCKeepalived: 1.3.5Haproxy:1.7.8Etcd2: 2.3.7Etcd3: 3.2.1Glusterfs: 3.10.5网络方案：contiv netplugin + ovs + vlan.
日志方案：fluentd + Kafka + ES + Kibana.
监控方案：cadvisor + prometheus + Grafana.CaaS的细节不在这里讨论，其实也是大家非常熟悉的方案了。这个Demo，我改成NodePort方式暴露Jupyter Nodebook，登录时输入正确的token即可：这是一个In-Graph集群，点击master_client.ipynb，可以看到具体的训练算法内容：点击执行，可以在下面看到输出：这只是个简单的Demo,实际使用上，自动化生成各个ps, worker, pvc对应的kubernetes yaml，使用域名进行服务发现，不然如果你使用IP的话，可能就需要利用Pod的ProStart Hoo开发云主机域名k来反馈各个Task的IP了，这将比较麻烦。Q: PS进程遗留问题，在社区讨论比较多（issue 4173），结合Kubernetes，我们可以比较简单的来做到回收PS进程的目的。 A:在DevOps的TaaS模块中，针对每个TensorFlow Cluster都启动一个协程，检查计数器是否达到worker数量（worker是job运行的，down了以后，watch到job successed，则计数器加1），如果等于worker数，则表明训练结束，等待30s后，调用kubernetes apiserver接口将ps deployment/service删除,达到自动回收ps的效果；Qworker是无状态的，ps是有状态的，而ps是无法进行checkpoint的，如何进行训练save和restore呢?
A:worker虽然是无状态的，但是tf.train.Saver提供能力在worker上进行checkpoint，大概原理就是逐个从PS task中get Parameters，并进行save持久化。Q怎么让用户指定ps和worker个数等少量参数，自动生成kubernetes yaml？
A: 因为当前我们还没有针对TaaS做前端Portal，所以目前是通过jinja template来自动生成的，用户只要指定少量参数即可生成ps和worker需要的kubernetes yaml。
比如下面是我的一个jinja template tfcluster_template.yaml.jinja,
然后执行python render_template.py tfcluster_template.yaml.jinja | kubectl apply -f -完成对应的Between-Graph TensorFlow Cluster的创建和启动。感谢各位的阅读，以上就是“TensorFlow如何使用”的内容了，经过本文的学习后，相信大家对TensorFlow如何使用这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是开发云，小编将为大家推送更多相关知识点的文章，欢迎关注！

相关推荐: TCP关闭连接的方法是什么

这篇文章主要介绍“TCP关闭连接的方法是什么”，在日常操作中，相信很多人在TCP关闭连接的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”TCP关闭连接的方法是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！Tcp…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。