06. MPI/stable_baselinesインストール

★ MPIインストール

本サイト内で『 強化学習用アルゴリズム「PPO(Proximal Policy Optimization:近傍方策最適化)」の内「PPO1」はマルチプロセッシング仕様で「並列処理」を行いますが、MPI仕様です』という記載があります。

「並列」は電池の並びで「直列」「並列」にあるように物理的・位置的に別々の複数が仕事をする状態を指し、その際電池は複数個必要です。一方 「並行」は、ある意味兼業と同じで、実行する実体は必ず1つの処理しか行わない原則の元、高速で複数の仕事を同時に行うことを指します。だから実行している人は1人です。

「並列処理」は実行する側も複数、実行させる側も分配させたり収集したりを複数に対し行います。ウィンドウズは並列に処理をしますが、複数台同時やそのエミレーションは行えませんので、「Message Passing Interface(MPI)」という並列処理を行うための統一規格に則った「Microsoft MPI」をインストールし使用します。

「Microsoft MPI」は本サイトで言うなら、先ほどから登場している強化学習用外部モジュール「Stable Baselines」を使用する時のみに使用するほか、複数のマシン間での並列処理、同一マシン内での並列処理に使用します。並行処理ではないので注意すると同時に、それ以外には無用の長物です

★ ダウンロード

これから「Message Passing Interface(MPI)」サイトへ移動しダウンロードしてきますが、Microsoft MPIをインストール際、Microsoft MPIがバージョンの新旧に関わらずインストールされている場合、インストールできません

このため、アップデートする際も含め行うためには、事前にアンインストールが必要です(2023/06時点 v10.1.2対応時)。

① URLへ移動


② Download
該当URL内の「Download」をクリックしますが、該当ファイルは英語版1択で、2023/06時点ではSupported Operating Systemにwindows11記載が見受けられません。

[Supported Operating System]
Windows 7, Windows 8.1, Windows 10, Windows Server 2012 R2, Windows Server 2016, Windows Server 2019

③ インストール開始

★ 設定確認


(py36) d:\VisualStudio2017\Python3.5_GPU\DeZero\DeZero_DQN\ch10>set MSMPI
MSMPI_BENCHMARKS=C:\Program Files\Microsoft MPI\Benchmarks\
MSMPI_BIN=C:\Program Files\Microsoft MPI\Bin\



★ 動作確認


(py36) d:\VisualStudio2017\Python3.5_GPU\DeZero\DeZero_DQN\ch10>mpiexec -help
Microsoft MPI Startup Program [Version 10.0.12498.5]

Launches an application on multiple hosts.


    mpiexec [options] executable [args] [ : [options] exe [args] : ... ]
    mpiexec -configfile 

Common options:

-hosts n host1 [m1] host2 [m2] ... hostn [mn]
-debug [0-3]


    mpiexec -n 4 pi.exe
    mpiexec -hosts 1 server1 master : -n 8 worker

For a complete list of options, run mpiexec -help2
For a list of environment variables, run mpiexec -help3

You can reach the Microsoft MPI team via email at askmpi@microsoft.com

★ baselinesのインストール


外部モジュール「baselines」はtensorflow 1.14のGPU仕様に対応します。このためCUDA経由でGPUを動かす場合は、「tensorflow」をGPU仕様に変更する必要があります。 このためtensorflowをGPU仕様に変更するためには、一旦アンインスールして下記のようにインストールします。(CUDAも事前インストール必須)

pip install tensorflow_gpu==1.14

次に「baselines」のインストールですが、本来Ubuntu / Mac OS X 仕様でありwindowsインストール方法が記載されていないので止むを得ず、正規手段ではない方法でインストールします。

① GitHub openai/baselines をダウンロードします。

② baselines-masterを解凍

③ baselinesコピー 

★ stable_baselinesのインストール

これからインストールする外部モジュールstable_baselinesはインストール時Microsoft MPIの有無によりインスール方法が変わります。

「Microsoft MPI」インストールの際に本来無用の長物と書きましたが、これからインストールする
    Stable Baselinesを使用する場合、MPIは必須
ということです。このため、どうしてもMPIインストールが嫌だという方は、いつものように pip でインストールしますが、多くのアルゴリズムは使用できず機能が限定されます

pip install stable-baselines

「Microsoft MPI」をインストールした方はStable Baselinesの全てのアルゴリズムを有効にする下記インストール方法で行います。

pip install stable-baselines[mpi]

★ stable_baselinesの確認

インストール完了かどうかは、内容は不問で下記サンプルプログラムを使用して動作確認します。 最後レンダリングまでできればOKです。

# coding: utf-8
# ////////////////////////////////////////////////////////////////////////////
# ///【CartPole-v1】                                                       ///
# ///                                                                      ///
# ///  【改訂履歴】                                                        ///
# /// V0.00 2022/07/05 プロトタイプ                                        ///
# ////////////////////////////////////////////////////////////////////////////
if "__file__" in globals():
    import os, sys
    sys.path.append(os.path.join(os.path.dirname(__file__), "..") )
    sys.path.append(os.path.join(os.path.dirname(__file__), "..") + "//..//")
# from common.nlp_util import *
# tensorflow_warning_cancel()
import gym
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2

env = gym.make("CartPole-v0")
env = DummyVecEnv([lambda: env])
model = PPO2("MlpPolicy", env, verbose=1)
state = env.reset()
while True:
    action, _ = model.predict(state, deterministic=True)
    state, rewards, done, info = env.step(action)
    if done:


