現在地

FAQs

センターの計算機利用に関するよくある質問集です。

FAQs: 

CPU点数やディスク使用量の制限値を超えると何が起きるのか

新規ジョブが投入できなくなります。
グループの CPU 点数を超過した場合、超過から 24 時間以上経過すると投入済みのジョブも削除されます。

メンバーの追加、削除をしたい

こちらのページに申請方法があります。
 

プログラムのビルドやテスト、デバッグはどこで行えばいいのか

RCCS ではデバッグやコンパイル作業のための短時間キューやインタラクティブジョブのようなものは用意していません。
ビルド作業やデバッグについてはログインノード(ccfep*, ccgpup, ccgpuv)でそのまま行って下さい。
並列 make (例: make -j 12 のようなコマンド)や MPI プログラムの実行(例: mpirun -np 16 ...)も問題ありません。

ただし、速度面についてはいくつか制約もありますので、その点はご注意下さい。
また、ccfep*, ccgpuv では CPU の利用状況に応じて CPU 点数も消費されます。(ただログインしている程度ならば事実上消費はありません。)

GPU 搭載フロントエンドの ccgpup (P100*2), ccgpuv (V100*1) にログインするには一旦 ccfep にログイン後、ssh コマンドでログインしてください。
ccfep にログインできるならば、それ以上の設定は不要です。

利用できるCPU数やGPU数の制限値を知りたい

制限値は原則として初期の割り当て点数から決められます。具体的な値はこちらの表をご覧下さい。

現在の制限値は jobinfo -q PN -c を実行することで確認できます。(-l 等はつけないで下さい。)
以下の表記中、赤や青の **** で表示されている部分にあたります。

[user@ccfep* ~]$ jobinfo -q PN -c
-----+------+---------------------------+-------------------------
Queue|Job   |User(***)     Group(***)   |Total                    
Name |Status|CPUs,GPU/Jobs CPUs,GPU/Jobs|  CPUs,GPUs/Jobs(Usr,Grp)
-----+------+---------------------------+-------------------------
PN   |RunLim|****, **/-    ****, **/-   | xxxxx, xxx/-   (  -,  -)
     |Run   |   x,  x/x       x,  x/x   | xxxxx, xxx/xxxx(xxx,xxx)
     |Queue |   x,  x/x       x,  x/x   | xxxxx, xxx/xxxx(xxx,xxx)
     |Hold  |   x,  x/x       x,  x/x   | xxxxx, xxx/xxxx(xxx,xxx)
     |Exit  |   x,  x/x       x,  x/x   |     x,   x/x   (  x,  x)
     |Total |   x,  x/x       x,  x/x   |xxxxxx,xxxx/xxxx(xxx,xxx)
-----+------+---------------------------+-------------------------

制限値にはグループ全体のものと、個々のユーザのもの(代表者がリソース制限のページより設定できます)とがあります。

センターへのssh接続ができない/海外出張中にログインしたい

日本国内からのアクセスで問題がある場合はこのページ内のSSH接続エラーの項目やクイックスタートガイドの内容をまずはご覧ください。
日本国外からのアクセスについてはまずこちらのページにある手続きが必要です。
 

資源(CPU点数、ディスク容量)追加を申請したい

こちらのページに申請方法があります。

ただし、CPU点数の追加申請については特別な事情が無ければ以下の制限が適用されます。

  • 施設利用A(3万点までの随時申請): 3万点までのCPU点数追加申請を2回まで
  • 施設利用B(通年/後期): CPU点数合計が1500万点以内かつ初期許可点数の2倍以内、申請回数は2回まで

円滑な運用のため、ご理解とご協力のほどよろしくお願いいたします。
(例) 施設利用B で初期許可点数が 50,000 点の場合、特別な事情が無ければ追加申請での上限値は 50,000 点(合計が 100,000 点)となります。
 

ログインシェルを変更するには

現在はログインシェルを csh (tcsh), bash, zsh の中から選ぶことができますが、その変更はこのウェブページでしか行えません。ログインしている状態であれば、ページ左側メニューに「アカウント情報」という項目が存在するので、それをクリックしてください。そこから、「編集」タブに移動すると、ログインシェルを選択する項目がありますので、csh, bash, zsh の中から好きなものを選んでください。ログインシェルを選択したあとは忘れずにページ下部にある「保存」をクリックしてください。
 

ジョブがなかなか実行されない

ジョブが中々実行されない原因についてはいくつかのパターンが考えられます。以下に当てはまらない不明な点等ありましたお問い合わせ下さい。

混雑していてリソース(CPU, GPU)が足りない

CPUやGPUの空き状況についてはこのウェブサイトにログインしてトップページを表示すると、右側のカラムに空き状況が表示されます。混雑していてジョブが入らない状況でも、他の jobtype では空きがある場合もあります。もし可能であれば、ジョブの振り替えもご検討下さい。

リソースに空きがあるのにジョブが流れない

まずは jobinfo -q PN -c -l のように -l をつけて jobinfo コマンドを実行し、右端のカラムに表示される理由をご確認下さい。主要な表示は以下のようなものです。

  • (cpu), (gpu): CPU や GPU の空きが無いことを示します
  • (group): グループの制限値を超えるため、ジョブが投入できません
  • (long): walltime が長すぎるため実行できません(ジョブは次回のメンテナンスまでに確実に終了する必要があります)

(group)の場合は、ご自身もしくはグループの他メンバーが多く利用しているため、制限されている状態です。代表者ならばグループの個々のメンバーのリソース使用量に制限をかけることもできます(リソース制限; 代表者がログインしている場合のみ設定可能)。

(long)の場合は、walltime を短くするか、さもなくばメンテナンス明けまで待つ必要があります。(通常の月例メンテナンスではジョブの消去は行いませんので、メンテナンス時にジョブが残っていても問題ありません。)

空きコアの数は多いのにジョブが流れない(jobtype=coreの場合)

多数のコアを使う jobtype=core のジョブは空きコアがあっても流れない可能性があります。jobtype=core では複数ノードにまたがったジョブは許されていないので、空きコアの総数が多くても、大きな空きがあるノードが存在しない場合があるためです。状況に応じて jobtype=small で 40 コアを利用することもご検討下さい。

「障害発生と影響を受けたジョブに関するお知らせ」メールについて

計算ノードやネットワークスイッチ、ストレージのダウン等によりジョブが影響を受けた場合、ジョブを実行したユーザー宛にこのようなタイトルのメールが送られます。カッコでくくられた部分や***となっている部分はユーザー、ジョブ、発生日時、障害の内容に依存します。

(uid)様

2020年**月**日**時**分頃、****において
障害(****************)が発生しました。

影響を受けたジョブの一覧をお知らせします。
--------+------+--------+--------------+-----+------------------
Job ID   Queue  User     Job Name       #Core Treatment
--------+------+--------+--------------+-----+------------------
 (jobid) PN     (uid)    (jobname)       (num) Exit_status=XXX
--------+------+--------+--------------+-----+------------------

このメールは表示されているジョブが障害の影響を受けたことを示しますが、上記では赤文字で示した Exit_status の値に注意する必要あります。

  • Exit_status が負の値の場合 => 障害発生までに消費されたCPU点数は無視され、可能ならば最初からジョブをやり直します(再実行)。
  • Exit_status が 0 以上の場合 => ジョブは終了しており、再実行はされません。CPU 点数については原則全て払い戻されます(払い戻し作業が少し遅れる場合はあります)。

障害時は本来 Exit_status が常に負の値になるはずですが、障害の影響のためにシステムが正確に判断できず、非負の値が出る場合があります。もし、非負の値が出ているようでしたら、お手数ではありますがジョブを再度投入下さい。また、ジョブの種類によっては強制終了された前のジョブの中間ファイル等の影響で再実行がうまくいかないケースもありえます。こちらについては、ジョブスクリプトを工夫して中間ファイルを適宜消去するなどの処理で再実行されても大丈夫な形にしたり、#PBS -r n をスクリプトに加えて再実行を抑制したりして対応するようお願いいたします。

g16 実行直後に l1.exe: Permission denied でクラッシュする

複数のリビジョンの g16 の設定(g16.login, g16.profile)を読み込んだ場合に発生することがあります。
出力例:

 Entering Gaussian System, Link 0=/local/apl/lx/g16????/g16/._.g16
 Initial command:
 /local/apl/lx/g16****/g16/l1.exe "/work/users/***/********.cccms1/Gau-66921.inp" -scrdir="/work/users/***/********.cccms1/"
sh: /local/apl/lx/g16***/g16/l1.exe: Permission denied

典型的な例としては、ホームディレクトリの設定ファイルで読み込んでいて、さらにジョブスクリプトで別リビジョンのものを読み込むような場合があります。直すには、設定ファイルかジョブスクリプトの読み込み部分を修正する必要があります。

通常、同じものを複数回読み込む分には問題ありません。バージョンが違う(g09 と g16)ものを読み込む場合も問題が出ないケースがあります。
 

GaussianのFreq計算がメモリ不足と思われるエラーで落ちる

Gaussian の Freq 計算がメモリ不足と思われるエラーでクラッシュし、使用可能なメモリ量を大きくしてもうまくいかないという例がいくつか報告されています。このような状況に遭遇した際、逆に使用可能なメモリ量を「少なく」することで動作するようになったという事例が複数報告されています。
 

Gaussianのchkファイルを可視化のために変換したいがformchkが無い

以下のコマンドを実行してからformchkコマンドを実行してください。ログインシェルの種類により実行するコマンドが異なることに注意してください。

ログインシェルが csh (tcsh) の場合:

$ source /local/apl/lx/g16/g16/bsd/g16.login

ログインシェルが bash, zsh の場合:

$ source /local/apl/lx/g16/g16/bsd/g16.profile

他のバージョンの Gaussian や違うキューを用いた計算等の場合には適宜ディレクトリの場所を置き換えてください。
また、上記設定の代わりに gaussian の module を load した場合も formchk コマンドは利用可能です。
 

Python環境(本体バージョン、ライブラリ等)構築について

ディストリビューション提供のパッケージが存在すればそれらをインストールすることもできますが、基本的にはAnacondaによる環境構築を推奨しています。センターで利用されるような科学技術系のアプリ、ライブラリについてはディストリビューション標準よりもAnacondaの方が良くまとまっています。

センターで用意した Anaconda 環境もあります。利用方法等については、パッケージプログラム状態一覧のページの Python の項目にあるリンク先をご覧下さい。
 

ファイルへの変更が反映されない/消去できないファイルがある

ファイルへの変更が反映されない

ファイルキャッシュに問題が発生することで、見かけ上ファイルが壊れたように見える場合があります。
そのような事象が起きているように見えたら、まずは以下のように検証を行って下さい。

  • 別のノード(ccfepX; X=1-8 のどれか)にログインする
  • 疑わしいファイルを md5sum や less 等のコマンドで調べ、正常なものと比較する。
  • キャッシュの問題がある場合、同一ファイルのチェックサムが違うなどのおかしな結果が得られます。

この手順で問題があるファイルを見つけた場合、問題に遭遇したホスト名(例: ccfep2)と、ファイルの場所をrccs-admin[at]ims.ac.jp ([at]は@に置き換えて下さい)までご連絡下さい。
こちらでキャッシュの掃除を行います。(通常のユーザ権限ではキャッシュの操作はできません。)

キャッシュのみの問題であるため、ご自身でファイルを操作を行って問題を解決することは一応可能と思われますが、できればお問い合わせ下さい。
自身で作業される場合は、バックアップをきちんと残した上で慎重に操作を行うようお願いいたします。
 

消去できないファイル

一方で、ls -l でファイルを見た場合に以下のような表示が出る場合があります。(別途エラーメッセージも表示されます)

-????????? ? ?   ?         ?             ? (破損ファイル名)

ディスク障害時に作成しようとしたファイルにおいてこのような状況が確認されています。
この場合はファイルを消去するしかありません。rm コマンドでは消去できないこともありますので、その場合は unlink コマンドで消去をお願いします。
 

ジョブスクリプトのヘッダ部分のサンプルが欲しい

こちらのページにいくつかサンプルを用意しました。
利用の手引きの情報、各アプリケーション用のサンプル(/local/apl/lx/(アプリ名)/samples 以下に配置しています)も参考になると思います。
 

ソフトウェア導入の要望

下記の項目を全てご記入の上、rccs-admin[at]ims.ac.jp宛(迷惑メール対策のため、@を[at]に置換しています)に送信してください。
有料ソフトウェアの場合、導入できないことがあります。

    • 導入を希望するソフトウェアの名前、バージョン
    • ソフトウェアの概要と特長
    • 共同利用システムに導入を希望する必要性
    • 開発元のURL

    SSH 接続エラーについて

    Permission denied (publickey)

    Permission denied (publickey,hostbased).

    秘密鍵と公開鍵が一致しないか、公開鍵の登録がされていない場合に表示されます。秘密鍵が存在しない場合(置き場所の指定を間違えた場合も含む)もこのエラーになることがあります。

    Permission denied (publickey,gssapi-keyex,gssapi-with-mic,hostbased).

    クライアントで秘密鍵が設定されていない場合に表示されます。

    ssh:connect:Network is unreachable

    ssh:connect:Host is unreachable

    ネットワーク設定の不備か、ネットワーク経路の不調によりRCCSとネットワーク接続が出来無かった場合に表示されます。

    ssh:connect:Connection refused

    ssh:connect:Connection timed out

    保守や停電のために、センターがサービスを一時的に停止しているか、下記の接続制限により接続が拒否されている場合に表示されます。

    ssh_exchange_identification: Connection closed by remote host
    Server unexpectedly closed network connection

    何らかの通信不具合もしくは下記の接続制限のため接続が拒否されています。

    接続できない場合、詳細なログを表示させることで原因がわかる場合があります(方法は利用するソフトウェアにより異なります)。例えば、LinuxやMacでターミナルからsshコマンドで接続している場合には、-vオプションをつけることで詳細なログを見ることができます。