(最終更新日 2019.06.27)
主なシステムの自動チェック項目は以下の通りです。営業時間外の検知項目は翌営業日に着手します。
項目 | 監視対象 | 監視間隔 |
---|---|---|
UGE down/offline | 計算ノード | 5分。2回連続downで通知 |
ネットワークのリンク状態・速度・エラー状況 | 計算ノード | 20分 |
システム時刻の同期状況 | 計算ノード | 60分 |
各種デバイスファイル・マウントポイントのパーミッション | 計算ノード | 60分 |
メモリのECCエラーの状況 | 計算ノード | 60分 |
GPUメモリのECCエラー | 計算ノード | 60分 |
ストレージの空き容量 | /apps/ /home/ /gs/hs0/ /gs/hs1/ /gs/hs2/ |
60分 |
ストレージのアクセス可否 | 計算ノード | 15分 |
login | 5分 | |
残留プロセスの状況 | 計算ノード | 10分 |
スケジューラの応答 | qstatコマンド | 5分 |
負荷状況 | 計算ノード | 一定値を超えるとフラグが立ちUGEが集計 |
各コンポーネントの温度 | 計算ノード | 30分 |
主なジョブ開始時のチェック項目は以下の通りです。問題が検出された場合には、他ノードをアサインします。
項目 | 対応状況 |
---|---|
CPU,Memory,GPUの構成確認(個数、容量) | ○ |
OPA hfi HCAステータス確認 | ○ |
Lustre mount、Lustre status確認 | ○ |
GPU health check (dcgmi health -c) | ○ |
NVMe SSDの存在確認 | ○ |