利用上の注意点
最終更新日: 2024/7/12
ユーザーアカウントについて
複数人で一つのユーザーアカウントを共有する行為、ユーザーアカウントの他人への貸与は許されていません。年度途中でのメンバー追加や削除は可能です。メンバー管理申請のページに情報がありますので、そちらをご覧下さい。
ジョブを大量に実行する場合の注意点
1,000 を超えるような数のジョブを実行する場合には以下の点にご注意ください。また、以下の「ファイルシステム利用についての留意点」の内容についてもご確認ください。
メール通知について
大量のジョブを同時に実行する場合は、どうしても必要な場合以外ではメール通知(#PBS -m abe など)は避けるようお願いいたします。大量のジョブが同時に終了した場合にはメールの配送遅延等が発生する可能性がありますし、メールを受け取るサーバやソフトからスパムと判断される可能性もあります。
短時間で終わる大量ジョブについての注意
計算時間が1分に満たないようなジョブを常にジョブ制限の上限ぎりぎりまで投入し、ジョブが常に大量実行開始、終了を繰り返しているような状況では、ジョブのスケジューラーの負荷が非常に大きくなり、運用に支障が出る場合があります。このような場合にはいくつかのジョブを1つにまとめるような対応をご検討ください。負荷状況によってはジョブを強制削除するなどの対応をとらざるを得ない場合もあります。
ファイルシステム利用についての留意点
大量のファイル作成は御遠慮ください
大容量ディスクでは、大量のファイルの扱い(特に同一ディレクトリーにある場合)はあまり得意ではありません。小容量のファイルを多数格納しておく必要がある場合は、tar コマンドによりアーカイブを行い、1 ファイルとして保存しておくことを推奨します。さらに gzip 等のコマンドによりファイルの圧縮を行い、必要な時に gunzip コマンドにより解凍を行えば、ディスク容量の有効活用も可能です。
もし、利用するプログラムの性質上どうしても膨大な数のファイルが発生してしまうなどの場合は一度ご相談ください。ジョブの実行方法を変えることで対応したり、fuse2fs を使って一手間かけることで問題を回避することができるかもしれません。
一つの大きなファイルへの集中アクセスは避けて下さい
大容量ディスクでは一つの巨大なファイルにアクセスが集中するとディスク全体のパフォーマンス低下が起こることがあります。例えば、1 つの 100 GB のファイルを 500 個のジョブが同時に読み込むような場合がそれにあたります。このような利用方法は極力避けるようお願いいたします。このような処理がどうしても避けられないようであればまずは一度ご相談下さい。lustre ストレージの機能を使って負荷を分散させるなどで回避できる場合もあるかと思います。
ジョブ実行時の標準出力や標準エラー出力への大量書き込みは避けるようお願いします
ジョブ中の標準出力や標準エラー出力は一旦計算ノードのローカルファイルに保存され、ジョブ終了時に指定場所(デフォルトは実行ディレクトリ)にコピーされます。標準出力や標準エラー出力が大きくなりすぎると、ジョブ終了時のコピーに失敗したり、予期せぬエラーで計算が異常終了する可能性があります。
ディスク領域の区分
下記のように領域ごとに用途を分けて設定しておりますので、適切なディスク領域のご利用をお願いします。
領域名 | バックアップ | 保存期間 | 使用量制限 | 用途 |
/home | × | 利用終了後最低 1 年 | 〇 | データ置き場 現在は /home と /save は全く同様に扱われます。 |
/save | ||||
/gwork | × | 基本的にはジョブ実行期間のみ | × | ジョブ実行時の一時領域 |
/lwork | x | ジョブ実行期間限定 | 〇 | ジョブ実行時の一時領域。 /lwork/users/${USER}/${PBS_JOBID} に作成されます。 ジョブ終了時に機械的にすぐさま消去されます。 |
- ディスク容量に余裕がある場合には保存期間を伸ばすことがあります。
- /save は歴史的な経緯のために残っている領域で、新規ユーザー向けには用意されません。
システム障害時のジョブの扱い
システムがハードウェアやソフトウェアの問題で突然停止することがあります。この場合、ジョブがエラー終了するまでの CPU 点数は消費されません。そして、システム障害でエラーとなったジョブはデフォルト設定では自動的に再実行されます。再実行となったジョブについては、再実行時の時間分だけ CPU 点数が消費されます。ジョブスクリプトに #PBS -r n の行を加えることで再実行を行わないようにすることもできます。
ログインサーバ上でのプログラム実行について
ログインサーバには、短時間のテストジョブ実行や計算結果データの圧縮や集計などの用途においてプログラム実行が可能なように、計算ノードと同様の環境を設定しております。ただし、以下の制限があります。
- リソースを使い切る等他のユーザの迷惑になりそうな場合には制限をかけたり、プログラム実行を停止する可能性があります。
- いくつか制約を設けているため、計算ノードと同等の速度は期待できません。性能測定のような目的ならば計算ノードをご利用下さい。
- GPU を使うテストについては ccgpu にて行うことができます。ccgpu では外部からのファイルのダウンロードはできません。ファイルの取得などは ccfep で行うようお願いいたします。
- ccfep にログインしている状態で ssh ccgpu を実行すれば ccgpu にログインできます。