最大化TensorFlow* CPU性能
用户可以在v2.5之后的官方x86-64 TensorFlow 设置环境变量TF_ENABLE_ONEDNN_OPTS=1来启用这些CPU优化。
export TF_ENABLE_ONEDNN_OPTS=1
大多数建议都适用于官方x86-64 TensorFlow和英特尔®TensorFlow优化。OpenMP调优等一些建议只适用于TensorFlow的英特尔®优化。
TensorFlow图形选项改进性能
LPOT
提供了一个统一的低精度推理接口, 为fp32预训练模型提供了比TensorFlow优化工具optimize_for_inference更多的优化(例如消除公共子表达式)。
用户有不同的选项来优化他们的预训练模型,这些选项包括英特尔®低精度优化工具(英特尔®LPOT),以及TensorFlow github的工具。
建议使用LPOT在Intel架构上进行预训练的模型优化
Tools from TensorFlow github
First, use Freeze_graph
冻结图形可以提供额外的性能好处。freeze_graph工具,由于所有权重都冻结在结果推理图中,可以期望得到更好的推理时间.
Second, Use Optimize_for_inference
在图形被冻结后,额外的转换可以帮助优化用于推理的图形。
TensorFlow运行时选项提高性能
intra_/inter_op_parallelism_threads
intra_op_parallelism = number of physical core per socket
#每个插槽的物理内核数
inter_op_parallelism = number of sockets
通过执行bash脚本文件, get the number of physical core per socket and number of sockets on your platform
#!/bin/bash
total_cpu_cores=$(nproc)
number_sockets=$(($(grep "^physical id" /proc/cpuinfo | awk '{print $4}' | sort -un | tail -1)+1))
number_cpu_cores=$(( (total_cpu_cores/2) / number_sockets))
echo "number of CPU cores per socket: $number_cpu_cores";
echo "number of socket: $number_sockets";
intra_op_parallelelism_threads和inter_op_parallelelism_threads是TensorFlow中定义的运行时变量。
ConfigProto
ConfigProto用于创建会话时进行配置。这两个变量控制要使用的内核数:
intra_op_parallelism_threads
此运行时设置控制操作内部的并行性。例如,如果打算在多个线程中执行矩阵乘法或简化,则应该设置这个变量。 TensorFlow将在包含intra_op_parallelelism_threads线程的线程池中调度任务。建议将此环境变量设置为可用物理核的数量。
inter_op_parallelism_threads
NOTE: This setting is highly dependent on hardware and topologies, so it’s best to empirically confirm the best setting on your workload.
运行时设置控制独立操作之间的并行性。由于这些操作彼此不相关,TensorFlow将尝试在包含inter_op_parallelelism_threads线程的线程池中并发运行它们。这个变量应该设置为您希望运行代码的并行路径的数量。对于TensorFlow的英特尔®优化,我们建议从设置“2”开始,并在实证测试后进行调整。
Data Layout
data_format = NHWC
数据布局,即如何存储和访问数据
有效地使用缓存和内存可以显著提高整体性能。良好的内存访问模式可以最小化访问内存中的数据的额外成本,并提高整体处理能力
Data Layout 描述了多维数组如何在内存地址空间中线性存储。
在大多数情况下,数据布局用四个字母表示一个二维图像:
N:Batch size,批量大小,表示每批图像的数量。
C:Channel,“通道”表示图像的通道数。
W:Width,宽度,表示图像的水平像素数。
H: Height,高度,表示图像的垂直像素数。
这四个字母的顺序表示像素数据在一维存储空间中的存储方式。
例如,NCHW表示像素数据先存储为宽度,然后存储为高度,然后存储为通道,最后存储为批处理(如图2所示)。然后使用通道优先索引从左到右访问数据。NCHW是使用oneDNN的推荐数据布局,因为这种格式对于CPU来说是一种有效的数据布局。TensorFlow使用NHWC作为默认的数据布局,但它也支持NCHW。
NOTE : Intel Optimized TensorFlow supports both plain data formats like NCHW/NHWC and also oneDNN blocked data format since version 2.4. Using blocked format might help on vectorization but might introduce some data reordering operations in TensorFlow.
用户可以通过TF_ENABLE_MKL_NATIVE_FORMAT环境变量在Tensorflow中启用/禁用oneDNN阻塞数据格式。
通过export TF_ENABLE_MKL_NATIVE_FORMAT=0, TensorFlow将使用oneDNN阻塞数据格式代替。
建议通过下面的命令启用NATIVE_FORMAT,以获得良好的开箱即用性能。(to achieve good out-of-box performance.)
export TF_ENABLE_MKL_NATIVE_FORMAT=1 (or 0)
NUMA (Non-uniform memory access)控制影响性能
numactl --cpunodebind=0 --membind=0 python
NUMA,或称非均匀内存访问,是一种用于数据中心机器的内存布局设计,旨在利用具有多个内存控制器和块的多插槽机器中的内存位置。
在支持numa的机器上运行会带来一些特殊的注意事项。
当将执行和内存使用限制在单个NUMA节点时,TensorFlow的Intel®Optimization运行推理工作负载最佳。
在启用numa的系统上运行时,建议将intra_op_parallelelism_threads设置为每个numa节点的本地内核数。
并行执行
可以通过将工作负载分解为多个数据分片,然后在多个NUMA节点上并发运行它们来优化性能。在每个节点(N)上执行如下命令:
numactl --cpunodebind=N --membind=N python
可以使用" & "命令在多个NUMA节点上同时启动进程:
numactl --cpunodebind=0 --membind=0 python & numactl --cpunodebind=1 --membind=1 python
英特尔®TensorFlow优化的OpenMP技术性能
英特尔®TensorFlow优化利用OpenMP并行化CPU内核之间的深度学习模型执行。
针对其特定的神经网络模型和平台调整这些环境变量的值,来调优英特尔®优化的TensorFlow性能.
OMP_NUM_THREADS
export OMP_NUM_THREADS=num physical cores
如果应用程序中没有指定其他值,则此环境变量设置OpenMP并行区域使用的最大线程数
启用超线程后,一个物理CPU核心有多个硬件线程,但建议仅为一个物理CPU核心使用一个硬件线程,以避免缓存丢失问题。
用户可以将OpenMP线程绑定到物理处理单元。KMP_AFFINITY用于利用这个功能。它将某些线程的执行限制为多处理器计算机中物理处理单元的子集。
该值可以是一个整数,在这种情况下,它指定所有并行区域的线程数。该值也可以是一个逗号分隔的整数列表,在这种情况下,每个整数指定嵌套级别上并行区域的线程数。(列表中的第一个位置表示最外部的并行嵌套级别,第二个位置表示下一个内部的并行嵌套级别,以此类推。)
默认值是执行程序的操作系统可见的逻辑处理器的数量。建议与物理核数相同。
KMP_AFFINITY
export KMP_AFFINITY=granularity=fine,compact,1,0
用户可以将OpenMP线程绑定到物理处理单元。KMP_AFFINITY用于利用这个功能。它将某些线程的执行限制为多处理器计算机中物理处理单元的子集。
NOTE The recommendation changes if Hyperthreading is disabled on your machine. In that case, the recommendation is: KMP_AFFINITY=granularity=fine,verbose,compact if hyperthreading is disabled.
KMP_BLOCKTIME
export KMP_BLOCKTIME=0 (or 1)
这个环境变量设置线程在完成一个并行区域的执行后,在进入睡眠之前应该等待的时间(以毫秒为单位)。缺省值是200ms。(The default value is 200ms.)
在完成一个并行区域的执行后,线程会等待新的并行工作可用。经过一段时间后,它们停止等待,进入睡眠状态。在更多的并行工作可用之前,休眠允许非openmp线程代码或其他应用程序使用线程,这些代码可以在并行区域之间执行。
如果线程仅为OpenMP执行而保留,但可能会惩罚其他并发运行的OpenMP或线程化应用程序,那么更大的KMP_BLOCKTIME值可能更合适。对于基于卷积神经网络(CNN)的模型,建议设置为0。
KMP_SETTINGS
export KMP_SETTINGS=TRUE
这个环境变量启用(TRUE)或禁用(FALSE)在程序执行期间打印OpenMP运行时库环境变量。
更多推荐
所有评论(0)