システムの自動チェック項目

(最終更新日 2019.06.27)

主なシステムの自動チェック項目は以下の通りです。営業時間外の検知項目は翌営業日に着手します。

項目 監視対象 監視間隔
UGE down/offline 計算ノード 5分。2回連続downで通知
ネットワークのリンク状態・速度・エラー状況 計算ノード 20分
システム時刻の同期状況 計算ノード 60分
各種デバイスファイル・マウントポイントのパーミッション 計算ノード 60分
メモリのECCエラーの状況 計算ノード 60分
GPUメモリのECCエラー 計算ノード 60分
ストレージの空き容量 /apps/
/home/
/gs/hs0/
/gs/hs1/
/gs/hs2/
60分
ストレージのアクセス可否 計算ノード 15分
login 5分
残留プロセスの状況 計算ノード 10分
スケジューラの応答 qstatコマンド 5分
負荷状況 計算ノード 一定値を超えるとフラグが立ちUGEが集計
各コンポーネントの温度 計算ノード 30分

 

主なジョブ開始時のチェック項目は以下の通りです。問題が検出された場合には、他ノードをアサインします。

項目 対応状況
CPU,Memory,GPUの構成確認(個数、容量)
OPA hfi HCAステータス確認
Lustre mount、Lustre status確認
GPU health check (dcgmi health -c)
NVMe SSDの存在確認