既知の問題

(最終更新: 2025/7/11)

HPC-X 2.13.1 (openmpi/4.1.5-hpcx) は複数の問題が確認されています。他のバージョンを使うようお願いします。
- HPC-X 2.13.1 でビルドしたバイナリについては、実行時のライブラリだけ HPC-X 2.11 (openmpi/4.1.4-hpcx) 変更すれば動作が改善される可能性が高いです。
Intel MPI 2021.7.1 を使うと Molpro の動作がおかしくなるケースが確認されています。
- Intel MPI 2021.5.1, 2021.8.0, 2021.9.0 では問題が発生していません。2021.7.1 の実行時ライブラリを使った場合のみハングしています。
OpenMolcas で並列数を大きくした場合に結果がおかしくなるケースが確認されています。(OpenMolcas v23.06 で検証)
- OpenMolcas の並列処理そのものに問題がある可能性が高そうです(RI 関連ルーチン等、多数の箇所)
- シリアル実行では問題は確認されていません。ひとまずは徐々に並列数を増やすなどしてご対応ください。
Open MPI を使う Molpro で Disk option を使うと時々ハングします。
- MVAPICH 版も Disk option のハングは確認されていませんが、計算の種類によっては非常に遅くなる場合があります。
- --ga-impl ga を追加して Disk option を使わなければ Open MPI 版も問題無く動作します。用意したサンプルでも適宜設定してあります。
- (molpro 2024.x の openmpi 版は 2023.x 以前と比べるとだいぶ安定かもしれません)
Intel MPI を使う Molpro (2025/2/6 時点では 2024.x のみ)が時々 abort することが確認されています。
- Disk option (GA implementation: MPI file)が有効な状態で、/gwork がグローバルスクラッチ領域に指定されている状況で確率的に発生しています。
- グローバルスクラッチ領域(-D で指定)にローカルディスクの /lwork を指定すれば問題は発生しないようです。サンプルもシングルノード時にはそのようになるように変更しました(2025/2/6)
  - (/gwork は lustre 上の領域です)
  - (-d で /lwork を指定した場合もグローバルスクラッチ領域が /lwork を指すようになります。)
- ノードを完全に専有して実行する場合(ncpus=128)にも問題が発生しにくいようです。Intel MPI の内部仕様と何か関係があるかもしれません。(根本原因はシステム側(kernel, lustre 他)にあるとは思われますが。)
siesta-4.1.5 MPI 版は Open MPI + MKL の条件では時々計算が非常に遅くなるケースがありますが、今のところ効果的な対処法が見つからないため、保留としています。
- Intel MPI 2021.7.1 を使った場合は正常に動作しませんでした。MKL と Intel MPI を両方避けると若干安定になるようにも見えますが、確実性に欠けます。
- インテルコンパイラ+scalapack(非 MKL)の条件では scalapack のテストが通りませんでした。

解決済の問題

hcoll 有効時にプログラムがハングするなどの問題
- HPC-X 2.11 (Open MPI 4.1.4), HPC-X 2.13.1, 2023 年度まで使用の MLNX OFED 5.9 の hcoll で発生確認
  - HPC-X 2.11: hcoll v4.7.3208 (1512342c)
  - HPC-X 2.13.1: hcoll v4.8.3220 (2e96bc4e)
  - MLNX OFED 5.9: hcoll v4.8.3221 (b622bfb) (/opt/mellanox/hcoll)
- hcoll v4.8.3223 (MLNX OFED 23.10 (2024/4 メンテにて更新) および HPC-X 2.16 (openmpi/4.1.5-hpcx2.16))では未確認です。
- 2024/1/9 メンテナンスで環境変数設定により hcoll を無効化することで表面上は解消済
  - Intel MPI で hcoll を有効にしたい場合はジョブスクリプト中で I_MPI_COLL_EXTERNAL 環境変数を削除(unset/unsetenv)するなどしてください。
  - Open MPI で hcoll を有効にしたい場合はジョブスクリプト中で OMPI_MCA_coll 環境変数を削除(unset/unsetenv)するなどしてください。
運用開始当初の Intel MPI の問題はキューイングシステムの設定を見直したことで解消しました。(2023/2)
運用開始当初の gamess 並列計算の問題は hcoll を外して Open MPI を使うことで解消しています。(2023/2)
- ncpus=32:mpiprocs=64 のようにして oversubscribe しても速度は向上しません。演算に関わるコア数は半分になりますが、ncpus=32:mpiprocs=32 のような設定でご利用ください。(setenv OMPI_MCA_mpi_yield_when_idle 1 は行っていますが、改善しません。)
運用開始当初の nwchem の問題(TDDFT 計算で確認)はビルド時に ARMCI_NETWORK を MPI-PR に変更することで解消しています。(2023/2)

View PDF