当前位置：服务支持 > 软件文章 > TensorFlow架构面试指南：框架流程梳理

TensorFlow架构面试指南：框架流程梳理

阅读数 1314

本章概述：在第一章的系列文章中介绍了tf框架的基本用法，从本章开始，介绍与tf框架相关的数据读取和写入的方法，并会在最后，用基础的神经网络，实现经典的Mnist手写数字识别。　

有四种获取数据到TensorFlow程序的方法：

tf.dataAPI：轻松构建复杂的输入管道。（优选方法，在新版本当中）
QueueRunner：基于队列的输入管道从TensorFlow图形开头的文件中读取数据（这里主要介绍这种）
Feeding：运行每一步时，Python代码提供数据。（在第一章简单介绍了，配合占位符placeholder给model训练时feed数据）
预加载数据：TensorFlow图中的常量或变量包含所有数据（对于小数据集）。

1、文件读取流程

tensorflow架构面试 tensorflow框架流程_二进制文件

tensorflow架构面试 tensorflow框架流程_文件名_02

第一阶段将生成文件名来读取它们并将它们排入文件名队列。
第二阶段对于文件名的队列，进行出队列实例，并且实行内容的解码
第三阶段重新入新的队列，这将是新的样本队列。
注：这些操作需要启动运行这些排队操作的线程（因为这些操作不在主线程，需要开始执行这些操作的子线程），以便我们的训练循环可以将队列中的内容入队出队操作。

1.1 第一阶段

我们称之为构造文件队列，将需要读取的文件装入到一个固定的队列当中

tf.train.string_input_producer(string_tensor, num_epochs=None, shuffle=True)
string_tensor：含有文件名+路径的1阶张量
num_epochs: 过几遍数据，默认无限过数据
return 文件队列

1.2、第二阶段

这里需要从队列当中读取文件内容，并且进行解码操作。关于读取内容会有一定的规则

1.2.1 读取文件内容

TensorFlow默认每次只读取一个样本，具体到文本文件读取一行、二进制文件读取指定字节数(最好一个样本)、图片文件默认读取一张图片、TFRecords默认读取一个example

tf.TextLineReader :
阅读文本文件逗号分隔值（CSV）格式, 默认按行读取
return：读取器实例
tf.WholeFileReader:
用于读取图片文件
tf.TFRecordReader:
读取TFRecords文件
tf.FixedLengthRecordReader: 二进制文件
要读取每个记录是固定数量字节的二进制文件
record_bytes:整型，指定每次读取(一个样本)的字节数
return：读取器实例

1、他们有共同的读取方法：read(file_queue)：从队列中指定数量内容返回一个Tensors元组（key文件名字，value默认的内容(一个样本)）2、由于默认只会读取一个样本，所以通常想要进行批处理。使用tf.train.batch或tf.train.shuffle_batch进行多样本获取，便于训练时候指定每批次多个样本的训练

1.2.2 内容解码

对于读取不通的文件类型，内容需要解码操作，解码成统一的Tensor格式

tf.decode_csv：解码文本文件内容
tf.decode_raw：解码二进制文件内容
与tf.FixedLengthRecordReader搭配使用，二进制读取为uint8格式
tf.image.decode_jpeg(contents)
将JPEG编码的图像解码为uint8张量
return:uint8张量，3-D形状[height, width, channels]
tf.image.decode_png(contents)
将PNG编码的图像解码为uint8张量
return:张量类型，3-D形状[height, width, channels]

解码阶段，默认所有的内容都解码成tf.uint8格式，如果需要后续的类型处理继续处理

1.3 第三阶段

在解码之后，我们可以直接获取默认的一个样本内容了，但是如果想要获取多个样本，这个时候需要结合管道的末尾进行批处理

tf.train.batch(tensors, batch_size, num_threads = 1, capacity = 32, name=None)
读取指定大小（个数）的张量
tensors：可以是包含张量的列表, 批处理的内容放到列表当中
batch_size: 从队列中读取的批处理大小
num_threads：进入队列的线程数
capacity：整数，队列中元素的最大数量
return: tensors
tf.train.shuffle_batch

2、线程操作

以上的创建这些队列和排队操作称之为tf.train.QueueRunner。每个QueueRunner都负责一个阶段，并拥有需要在线程中运行的排队操作列表。一旦图形被构建， tf.train.start_queue_runners 函数就会要求图中的每个QueueRunner启动它的运行排队操作的线程。（这些操作需要在会话中开启）

tf.train.start_queue_runners(sess=None, coord=None)
收集所有图中的队列线程，并启动线程
sess: 所在的会话中
coord：线程协调器
return：返回所有线程
tf.train.Coordinator()
线程协调员, 实现一个简单的机制来协调一组线程的终止
request_stop()：请求停止
should_stop()：询问是否结束
join(threads=None, stop_grace_period_secs=120)：回收线程
return: 线程协调员实例

免责声明：本文系网络转载或改编，未找到原创作者，版权归原作者所有。如涉及版权，请联系删

武汉格发信息技术有限公司，格发许可优化管理系统可以帮你评估贵公司软件许可的真实需求，再低成本合规性管理软件许可,帮助贵司提高软件投资回报率，为软件采购、使用提供科学决策依据。支持的软件有: CAD,CAE,PDM,PLM,Catia,Ugnx, AutoCAD, Pro/E, Solidworks 等。

返回上级列表