既知の問題
(最終更新: 2024/4/10)
既知の問題
- HPC-X 2.13.1 (openmpi/4.1.5-hpcx) は複数の問題が確認されています。他のバージョンを使うようお願いします。
- HPC-X 2.13.1 でビルドしたバイナリについては、実行時のライブラリだけ HPC-X 2.11 (openmpi/4.1.4-hpcx) 変更すれば動作が改善される可能性が高いです。
- Intel MPI 2021.7.1 を使うと Molpro の動作がおかしくなるケースが確認されています。
- Intel MPI 2021.5.1, 2021.8.0, 2021.9.0 では問題が発生していません。2021.7.1 の実行時ライブラリを使った場合のみハングしています。
- OpenMolcas で並列数を大きくした場合に結果がおかしくなるケースが確認されています。(OpenMolcas v23.06 で検証)
- OpenMolcas の並列処理そのものに問題がある可能性が高そうです(RI 関連ルーチン等、多数の箇所)
- シリアル実行では問題は確認されていません。ひとまずは徐々に並列数を増やすなどしてご対応ください。
- Open MPI を使う Molpro で Disk option を使うと時々ハングします。
- Intel MPI でビルドした 2024.1.0 (/apl/molpro/2024.1.0) については今のところ問題を確認できていません
- MVAPICH 版も Disk option のハングは確認されていませんが、計算の種類によっては非常に遅くなる場合があります。
- --ga-impl ga を追加して Disk option を使わなければ Open MPI 版も問題無く動作します。用意したサンプルでも適宜設定してあります。
- siesta-4.1.5 MPI 版は Open MPI + MKL の条件では時々計算が非常に遅くなるケースがありますが、今のところ効果的な対処法が見つからないため、保留としています。
- 次のバージョン導入時に再度詳細に検証を行う予定です。
- Intel MPI 2021.7.1 を使った場合は正常に動作しませんでした。MKL と Intel MPI を両方避けると若干安定になるようにも見えますが、確実性に欠けます。
- インテルコンパイラ+scalapack(非 MKL)の条件では scalapack のテストが通りませんでした。
解決済の問題
- hcoll 有効時にプログラムがハングするなどの問題
- HPC-X 2.11 (Open MPI 4.1.4), HPC-X 2.13.1, 2023 年度まで使用の MLNX OFED 5.9 の hcoll で発生確認
- HPC-X 2.11: hcoll v4.7.3208 (1512342c)
- HPC-X 2.13.1: hcoll v4.8.3220 (2e96bc4e)
- MLNX OFED 5.9: hcoll v4.8.3221 (b622bfb) (/opt/mellanox/hcoll)
- hcoll v4.8.3223 (MLNX OFED 23.10 (2024/4 メンテにて更新) および HPC-X 2.16 (openmpi/4.1.5-hpcx2.16))では未確認です。
- 2024/1/9 メンテナンスで環境変数設定により hcoll を無効化することで表面上は解消済
- Intel MPI で hcoll を有効にしたい場合はジョブスクリプト中で I_MPI_COLL_EXTERNAL 環境変数を削除(unset/unsetenv)するなどしてください。
- Open MPI で hcoll を有効にしたい場合はジョブスクリプト中で OMPI_MCA_coll 環境変数を削除(unset/unsetenv)するなどしてください。
- HPC-X 2.11 (Open MPI 4.1.4), HPC-X 2.13.1, 2023 年度まで使用の MLNX OFED 5.9 の hcoll で発生確認
- 運用開始当初の Intel MPI の問題はキューイングシステムの設定を見直したことで解消しました。(2023/2)
- 運用開始当初の gamess 並列計算の問題は hcoll を外して Open MPI を使うことで解消しています。(2023/2)
- ncpus=32:mpiprocs=64 のようにして oversubscribe しても速度は向上しません。演算に関わるコア数は半分になりますが、ncpus=32:mpiprocs=32 のような設定でご利用ください。(setenv OMPI_MCA_mpi_yield_when_idle 1 は行っていますが、改善しません。)
- 運用開始当初の nwchem の問題(TDDFT 計算で確認)はビルド時に ARMCI_NETWORK を MPI-PR に変更することで解消しています。(2023/2)