tensorflow在AMD上用ROCm框架实现GPU训练（亲测有效）

tensorflow

一个面向所有人的开源机器学习框架

项目地址：https://gitcode.com/gh_mirrors/te/tensorflow

免费下载资源

尤利乌斯.X

20985人浏览 · 2019-08-17 19:50:38

尤利乌斯.X · 2019-08-17 19:50:38 发布

众所周知，a卡对于tensorflow gpu的支持很小，要想使用的话一般都得配n卡的电脑。而我只是感兴趣一个项目，想要跑出来一个模型，如果不用gpu加速，可能得跑一个月，所以不得不寻找在a卡上的解决方案。好在，终于找到了一个解决方案，虽然只是取巧，速度也不如正常n卡跑的快，但已经很不错了。

我的配置：
显卡：RX 550
所用系统：虚拟机ubuntu 18
注：如果是虚拟机的话，最好分配3GB内存或以上，否则可能无法import tensorflow

a卡上支持的ROCm框架，暂时只支持ubuntu系统。如果你是windows系统，也可以安一个虚拟机，道理是类似的，我也是在虚拟机上跑的。用虚拟机进行下面教程的时候：会遇到无法导入显卡信息的bug，但是不影响训练情况。经过测试，我在虚拟机上训练的速度是之前在a卡上训练速度的四五倍，不知道安linux子系统是不是会再快一点，但我没做尝试。要注意，你的AMD显卡是否支持ROCm框架，请参考以下链接确定你的显卡是否支持。https://rocm.github.io/hardware.html 。还有你的工程如果不是python3.5/3.6,你也用不了此框架。

如果条件都符合，就可以开始愉快的安装了。（变通的法子就是费劲儿。。。）

更新系统

建议：把源换为国内的，比如阿里的，会快很多的。

sudo apt update
sudo apt upgrade

安装ROCm

添加ROCm库（没有这一步，会提示找不到软件包）

wget -qO - http://repo.radeon.com/rocm/apt/debian/rocm.gpg.key | sudo apt-key add -
sudo sh -c 'echo deb [arch=amd64] http://repo.radeon.com/rocm/apt/debian/ xenial main > /etc/apt/sources.list.d/rocm.list'

安装必要的软件包

sudo apt update && sudo apt install -y \
  build-essential \
  clang \
  clang-format \
  clang-tidy \
  cmake \
  cmake-qt-gui \
  ssh \
  curl \
  apt-utils \
  pkg-config \
  g++-multilib \
  git \
  libunwind-dev \
  libfftw3-dev \
  libelf-dev \
  libncurses5-dev \
  libpthread-stubs0-dev \
  vim \
  gfortran \
  libboost-program-options-dev \
  libssl-dev \
  libboost-dev \
  libboost-system-dev \
  libboost-filesystem-dev \
  rpm \
  wget

安装ROCm驱动

sudo apt update && \
    sudo apt install -y --allow-unauthenticated \
    rocm-dkms rocm-dev rocm-libs \
    rocm-device-libs \
    hsa-ext-rocr-dev hsakmt-roct-dev hsa-rocr-dev \
    rocm-opencl rocm-opencl-dev \
    rocm-utils \
    rocm-profiler cxlactivitylogger \
    miopen-hip miopengemm

提示：rocm-dkms这一步下载的非常的慢，也和你的网络状况相关，我下的时候慢的时候10几k，快的时候有200。一共大概要下载500m,耐心等待一下吧。

添加用户

sudo adduser $LOGNAME video
sudo reboot

安装miniconda（体积小、方便）

在使用python时我们很多时候会用到conda，但是conda会改变python的一些配置。所以我们先安装conda，这样就不会出现在使用tensorflow时需要使用/usr/bin/python3这样的命令。

下载地址（64位）：https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh

cd 下载目录
chmod +x ./Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

这一步安装的时候，会让你先阅读一个license，按enter到一个栏让你选择输入yes/no，当然选yes，然后进入下一步是选择安装路径，如果选择默认路径，就按enter，然后就会出现安装的信息，安装好之后会退出来。可以新建一个终端，验证一下是否安装成功：

conda -h

#输出以下信息就是成功了

usage: conda [-h] [-V] command ...

conda is a tool for managing and deploying applications, environments and packages.

Options:

.....

ROCm版的tensorflow仅支持3.5和3.6，我的项目也是3.6的，所以需要新建一个环境。

conda install python=3.6

安装python相关的软件包

sudo apt update && sudo apt install -y \
    python3-numpy \
    python3-dev \
    python3-wheel \
    python3-mock \
    python3-future \
    python3-pip \
    python3-yaml \
    python3-setuptools

安装TensorFlow

pip3 install --user tensorflow-rocm -i https://pypi.tuna.tsinghua.edu.cn/simple

下载的速度很快。之后就可以验证是否成功了。

python

import tensorflow as tf

tf.__version__

如果import没报错，然后最后输出了tensorflow的版本，我的是1.14.1。说明一切顺利，可以愉快的开始玩耍了。

import tensorflow这一句我碰到了两个bug，给大家贴出来，避一避。

1.ImportError: librccl.so: cannot open shared object file: No such file or directory During handling of the above exception, another exception occurred:

解决：Google到的。输入以下命令，安装这些包。

sudo apt-get update &&  sudo apt-get install -y --allow-unauthenticated  rocm-dkms rocm-dev rocm-libs rccl  rocm-device-libs  hsa-ext-rocr-dev hsakmt-roct-dev hsa-rocr-dev  rocm-opencl rocm-opencl-dev  rocm-utils  rocm-profiler cxlactivitylogger  miopen-hip miopengemm

2.terminate called after throwing an instance of ‘std::bad_alloc’ what(): std::bad_alloc 已放弃 (核心已转储)

解决：Google一下，你就知道。这句话的意思是虚拟机内存分配的不够，我原来只分配了2G的内存，加到3G以后，再import tensorflow就好用啦。

希望这个教程能帮助到大家，也希望大家都可以用a卡跑gpu。更简单的方法还是换电脑啊。。。。

给大家推荐一个非常好的科研网站可以使用免费Web of Science、zhi网、IEEE、EI等账号。亲测好用。这个网站拥有众多的数据库，法律的、医学的、工科的，等等。

感谢大家的时间，并希望以上的内容会对大家有所帮助。

欢迎大家访问我的博客

GitHub 加速计划 / te / tensorflow

184.55 K

74.12 K

下载

一个面向所有人的开源机器学习框架

最近提交(Master分支：2 个月前 )

a49e66f2 PiperOrigin-RevId: 663726708 2 个月前

91dac11a This test overrides disabled_backends, dropping the default value in the process. PiperOrigin-RevId: 663711155 2 个月前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m