既知の問題

(最終更新: 2024/4/10)

既知の問題

  • HPC-X 2.13.1 (openmpi/4.1.5-hpcx) は複数の問題が確認されています。他のバージョンを使うようお願いします。
    • HPC-X 2.13.1 でビルドしたバイナリについては、実行時のライブラリだけ HPC-X 2.11 (openmpi/4.1.4-hpcx) 変更すれば動作が改善される可能性が高いです。
  • Intel MPI 2021.7.1 を使うと Molpro の動作がおかしくなるケースが確認されています。
    • Intel MPI 2021.5.1, 2021.8.0, 2021.9.0 では問題が発生していません。2021.7.1 の実行時ライブラリを使った場合のみハングしています。
  • OpenMolcas で並列数を大きくした場合に結果がおかしくなるケースが確認されています。(OpenMolcas v23.06 で検証)
    • OpenMolcas の並列処理そのものに問題がある可能性が高そうです(RI 関連ルーチン等、多数の箇所)
    • シリアル実行では問題は確認されていません。ひとまずは徐々に並列数を増やすなどしてご対応ください。
  • Open MPI を使う Molpro で Disk option を使うと時々ハングします。
    • Intel MPI でビルドした 2024.1.0 (/apl/molpro/2024.1.0) については今のところ問題を確認できていません
    • MVAPICH 版も Disk option のハングは確認されていませんが、計算の種類によっては非常に遅くなる場合があります。
    • --ga-impl ga を追加して Disk option を使わなければ Open MPI 版も問題無く動作します。用意したサンプルでも適宜設定してあります。
  • siesta-4.1.5 MPI 版は Open MPI + MKL の条件では時々計算が非常に遅くなるケースがありますが、今のところ効果的な対処法が見つからないため、保留としています。
    • 次のバージョン導入時に再度詳細に検証を行う予定です。
    • Intel MPI 2021.7.1 を使った場合は正常に動作しませんでした。MKL と Intel MPI を両方避けると若干安定になるようにも見えますが、確実性に欠けます。
    • インテルコンパイラ+scalapack(非 MKL)の条件では scalapack のテストが通りませんでした。

解決済の問題

  • hcoll 有効時にプログラムがハングするなどの問題
    • HPC-X 2.11 (Open MPI 4.1.4), HPC-X 2.13.1, 2023 年度まで使用の MLNX OFED 5.9 の hcoll で発生確認
      • HPC-X 2.11: hcoll v4.7.3208 (1512342c)
      • HPC-X 2.13.1: hcoll v4.8.3220 (2e96bc4e)
      • MLNX OFED 5.9: hcoll v4.8.3221 (b622bfb) (/opt/mellanox/hcoll)
    • hcoll v4.8.3223 (MLNX OFED 23.10 (2024/4 メンテにて更新) および HPC-X 2.16 (openmpi/4.1.5-hpcx2.16))では未確認です。
    • 2024/1/9 メンテナンスで環境変数設定により hcoll を無効化することで表面上は解消済
      • Intel MPI で hcoll を有効にしたい場合はジョブスクリプト中で I_MPI_COLL_EXTERNAL 環境変数を削除(unset/unsetenv)するなどしてください。
      • Open MPI で hcoll を有効にしたい場合はジョブスクリプト中で OMPI_MCA_coll 環境変数を削除(unset/unsetenv)するなどしてください。
  • 運用開始当初の Intel MPI の問題はキューイングシステムの設定を見直したことで解消しました。(2023/2)
  • 運用開始当初の gamess 並列計算の問題は hcoll を外して Open MPI を使うことで解消しています。(2023/2)
    • ncpus=32:mpiprocs=64 のようにして oversubscribe しても速度は向上しません。演算に関わるコア数は半分になりますが、ncpus=32:mpiprocs=32 のような設定でご利用ください。(setenv OMPI_MCA_mpi_yield_when_idle 1 は行っていますが、改善しません。)
  • 運用開始当初の nwchem の問題(TDDFT 計算で確認)はビルド時に ARMCI_NETWORK を MPI-PR に変更することで解消しています。(2023/2)