Spark与TensorFlow模型整合实践

1.介绍

TensorFlowOnSpark 为 Apache Hadoop 和 Apache Spark 集群带来可扩展的深度学习。 通过结合深入学习框架 TensorFlow 和大数据框架 Apache Spark 、Apache Hadoop 的显着特征,TensorFlowOnSpark 能够在 GPU 和 CPU 服务器集群上实现分布式深度学习。


2.为了满足什么应用场景

为了利用TensorFlow在现有的Spark和Hadoop集群上进行深度学习。而不需要为深度学习设置单独的集群。


3.核心技术点是那些

轻松迁移所有现有的TensorFlow程序,<10行代码更改;

支持所有TensorFlow功能:同步/异步训练,模型/数据并行,推理和TensorBoard;

服务器到服务器的直接通信在可用时实现更快的学习;

允许数据集在HDFS和由Spark推动的其他来源或由TensorFlow拖动;

轻松集成您现有的数据处理流水线和机器学习算法(例如,MLlib,CaffeOnSpark);

轻松部署在云或内部部署:CPU和GPU,以太网和Infiniband。



4.同类对比

相比于基于caffe的caffeOnSpark,基于TensorFlow的TensorFlowOnSpark支持更多的模型。



5.优势劣势

优势:TensorFlowOnSpark是基于google的TensorFlow的实现,而TensorFlow有着一套完善的教程,内容丰富。

劣势:开源时间不长,未得到充分的验证。



6.发展前景

由于使用TensorFlow的人数较多,当需要在Spark或Hdfs上进行深度学习时,也会更倾向于使用TensorFlowOnSpark。前景应该不错。



7.搭建

官方示例太坑了。很难搭建成功。主要说一些遇到的问题下载git clone git@github.com:yahoo/tensorflow.git

实现官方示例

1、安装python2.7, –安装pip –安装pydoop库 (在hadoop上使用python)–安装numpy库 –安装TensorFlow库

问题:1.pip pydoop安装不上,没有安装hadoop,安装hadoop仍安装不上,可通过下载对应的包通过setup安装

2.pip TensorFlow安装不上 ,pip过程中会检查numpy库是否安装,由于numpy问题造成的失败可以先通过pip 安装numpy

3.import tensorflow出现glibc等版本错误,建议使用新点的系统,centenos6 只支持到glibc1.2,即使安装好了,也可能会出现GLIBC.XXX之类的错误。

4.安装pip错误,安装python过程缺少相关依赖的库(如zlib等),安装过程会有提示。安装完成即可

登录后复制

2、安装和编译TensorFlow w/RDMA支持            (后面链接为参考链接)

--安装protoc 3.1  (https://github.com/google/protobuf/releases)
--1下载对应的包(java)
--2 安装 ./autogen.sh  ./configure --prefix=/usr/local/protobuf  make make check make install ldconfig 
 (http://www.itdadao.com/articles/c15a1006495p0.html)
 --编译TensorFlow的protos  (https://github.com/tensorflow/ecosystem/tree/master/hadoop)
--protoc --proto_path=/opt/TensorFlowOnSpark/tensorflow/ --java_out=src/main/java/ 
/opt/TensorFlowOnSpark/tensorflow/tensorflow/core/example/{example,feature}.proto  (ecosystem/hadoop/ 下执行)
--mvn clean package      mvn install
--hadoop fs -put tensorflow-hadoop-1.0-SNAPSHOT.jar
    
    

执行命令运行


登录后复制

${SPARK_HOME}/bin/spark-submit --master yarn-cluster --deploy-mode cluster 
-queue ${QUEUE} --num-executors 4 --executor-memory 1G 
--archives hdfs:///user/${USER}/Python.zip#Python,/root/mnist/mnist.zip
#mnist TensorFlowOnSpark-master/examples/mnist/mnist_data_setup.py --output mnist/csv --format csv
(http://www.jianshu.com/p/72cb5816a0f7)

               

免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删

QR Code
微信扫一扫,欢迎咨询~

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 155-2731-8020
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

手机不正确

公司不为空