システムの自動チェック項目

(最終更新日 2017.11.2)

主なシステムの自動チェック項目と対応は以下の通りです。

(作成中です)

項目 監視対象 監視間隔 対応
UGE down/offline 計算ノード 5分。2回連続downで通知 メール通知
ネットワークのリンク状態・速度・エラー状況 計算ノード 20分 メール通知
システム時刻の同期状況 計算ノード 60分 メール通知
各種デバイスファイル・マウントポイントのパーミッション 計算ノード 60分 メール通知
メモリのECCエラーの状況 計算ノード 60分 メール通知
GPUメモリのECCエラー 計算ノード 60分 メール通知
ストレージの空き容量 /apps/
/home/
/gs/hs0/
/gs/hs1/
/gs/hs2/
60分 メール通知
ストレージのアクセス可否 計算ノード 15分 メール通知
login 5分 メール通知
残留プロセスの状況 計算ノード 10分 メール通知
スケジューラの応答 qstatコマンド 5分 メール通知
負荷状況 計算ノード 一定値を超えるとフラグが立ちUGEが集計 メール通知
各コンポーネントの温度 計算ノード 30分 メール通知

 

主なジョブ開始時のチェック項目は以下の通りです。問題が検出された場合には、他ノードをアサインします。

(作成中です)

項目 対応状況
CPU,Memory,GPUの構成確認(個数、容量)
OPA hfi HCAステータス確認
Lustre mount、Lustre status確認
GPU health check (dcgmi health -c)
NVMe SSDのhealth check 準備中