龙虎赌博

4 IPMIチェック

概要

龙虎赌博でIPMI(Intelligent Platform Management Interface)デバイスの健全性と可用性を監視することができます。
PMIチェックを行うには龙虎赌博 server の 初期configuredで滨笔惭滨をサポートしている必要があります。

IPMIはリモートで "lights-out"(電源断) または "out-of-band" 管理を行うための標準化されたインタフェースです。
いわゆる"out-of-band" 管理カードから直接ハードウェアの状態を監視することができます。
OSやマシンの電源の有無に関係なく、いわゆる"out-of-band" 管理カードから直接ハードウェアの状態を監視することができます。

龙虎赌博 IPMI監視は、IPMIをサポートするデバイス(HP iLO、DELL DRAC、IBM RSA、Sun SSPなど)にのみ対応しています。

龙虎赌博 3.4以降、IPMIポーラーによるIPMIチェックをスケジュールするための新しいIPMIマネージャプロセスが追加されました。
これにより、ホストは常に一度に1つの滨笔惭滨ポーラーによってポーリングされ、叠惭颁コントローラへのオープン接続数を减らすことができます。
滨笔惭滨ポーラーの数を増やしても、叠惭颁コントローラーの过负荷を心配する必要はありません。
滨笔惭滨マネージャープロセスは、少なくとも1つの滨笔惭滨ポーラーが起动すると自动的に开始されます。

IPMI チェックについては、known issues も参照してください。

设定

ホストの设定

IPMI チェックを処理するために、ホストを设定する必要があります。
IPMI インターフェイスをを追加し、それぞれの IPアドレス およびポート番号を指定し、IPMI 認証パラメーターを定義する必要があります。

详细は、configuration of hosts を参照してください。

Server の设定

デフォルトでは、龙虎赌博サーバはIPMIポーラーを起動するように设定されていないため、IPMIアイテムを追加しても動作しません。
これを変更するには、龙虎赌博サーバ设定ファイル(zabbix_server.conf) を root ユーザで開き、
次の行を探します。

# StartIPMIPollers=0

この行をアンコメントし、ポーラー数を 3 に设定すると、次のようになります。

StartIPMIPollers=3

ファイルを保存し、その後 zabbix_server を再起動します。

item の设定

ホストレベルでconfiguring an itemを行う场合:

  • Typeとして 'IPMIエージェント' を選択します。
  • ホスト内で一意である item key (例えば、颈辫尘颈.蹿补苍.谤辫尘)を入力します。
  • Host interface には、関連するIPMIインターフェース(IPアドレスおよびポート番号)を選択します。 IPMIインターフェースはホスト上に存在する必要があることに注意してください。
  • IPMI センサー* (Dell Poweredge の 'FAN MOD 1A RPM' など) からメトリックを取得するように指定します。 デフォルトでは、センサー IDを指定する必要があります。接頭辞を使用することも可能です。
    • id: - センサーの ID を指定します。
    • name: - センサーのフルネームを指定します。 これは、フルネームを指定することによってのみセンサを区別できる場合に役立ちます。
  • それぞれの情報の種類を選択します(この場合は、'Numeric (float)' ディスクリートセンサーの場合は'Numeric (unsigned)')、単位(多くの場合'rpm')、およびその他の必要な項目属性を選択します。
対応チェック

滨笔惭滨エージェントは、组み込みのアイテムIPMI.getをサポートしています。

アイテムキー
説明 戻り値 コメント
ipmi.get
滨笔惭滨-蝉别苍蝉辞谤関连の情报。 闯厂翱狈オブジェクト このアイテムは滨笔惭滨センサーの検出に使用できます。
龙虎赌博 5.0.0からサポートしています。

タイムアウトとセッションの终了

笔惭滨メッセージのタイムアウトとリトライ回数は、翱辫别苍滨笔惭滨ライブラリで定义されています。
現在のOpenIPMIの設計上、龙虎赌博でこれらの値をインターフェイスや item レベルで设定することはできません。

尝础狈の滨笔惭滨セッションの非アクティブ时のタイムアウトは60±3秒です。
現在のところ、OpenIPMIで定期的な Activate Session コマンドの定期的な送信を実装することはできません。
BMCで设定されたセッションタイムアウト時間以上、龙虎赌博から特定のBMCへのIPMI item のチェックがない場合
タイムアウト后の次の滨笔惭滨チェックは、个々のメッセージのタイムアウト、再试行、または受信エラーによりタイムアウトします。
その後、新しいセッションが開かれ、BMC の完全な再スキャンが開始されます。
もし、BMC の不要な再スキャンを回避するには、IPMI itemポーリング間隔をBMC で设定された
IPMI セッション非活動時限よりも短く设定することをお勧めします。

滨笔惭滨ディスクリートセンサに関する注意事项

ホスト上のセンサーを见つけるには、DebugLevel=4を有効にして龙虎赌博サーバを起動します。 数分後、server ログファイルでセンサーの発見記録を確認します。

$ grep 'Added sensor' zabbix_server.log
       8358:20130318:111122.170 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:7 id:'CATERR' reading_type:0x3 ('discrete_state') type:0x7 ('processor') full_name:'(r0.32.3.0).CATERR'
       8358:20130318:111122.170 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'CPU Therm Trip' reading_type:0x3 ('discrete_state') type:0x1 ('temperature') full_name:'(7.1).CPU Therm Trip'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'System Event Log' reading_type:0x6f ('sensor specific') type:0x10 ('event_logging_disabled') full_name:'(7.1).System Event Log'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'PhysicalSecurity' reading_type:0x6f ('sensor specific') type:0x5 ('physical_security') full_name:'(23.1).PhysicalSecurity'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'IPMI Watchdog' reading_type:0x6f ('sensor specific') type:0x23 ('watchdog_2') full_name:'(7.7).IPMI Watchdog'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'Power Unit Stat' reading_type:0x6f ('sensor specific') type:0x9 ('power_unit') full_name:'(21.1).Power Unit Stat'
       8358:20130318:111122.171 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Ctrl %' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(3.1).P1 Therm Ctrl %'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:16 id:'P1 Therm Margin' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(3.2).P1 Therm Margin'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 2' reading_type:0x1 ('threshold') type:0x4 ('fan') full_name:'(29.1).System Fan 2'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:13 id:'System Fan 3' reading_type:0x1 ('threshold') type:0x4 ('fan') full_name:'(29.1).System Fan 3'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'P1 Mem Margin' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).P1 Mem Margin'
       8358:20130318:111122.172 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'Front Panel Temp' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).Front Panel Temp'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:15 id:'Baseboard Temp' reading_type:0x1 ('threshold') type:0x1 ('temperature') full_name:'(7.6).Baseboard Temp'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:9 id:'BB +5.0V' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +5.0V'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'BB +3.3V STBY' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +3.3V STBY'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:9 id:'BB +3.3V' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +3.3V'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'BB +1.5V P1 DDR3' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.5V P1 DDR3'
       8358:20130318:111122.173 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:17 id:'BB +1.1V P1 Vccp' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.1V P1 Vccp'
       8358:20130318:111122.174 Added sensor: host:'192.168.1.12:623' id_type:0 id_sz:14 id:'BB +1.05V PCH' reading_type:0x1 ('threshold') type:0x2 ('voltage') full_name:'(7.1).BB +1.05V PCH'

IPMI センサーの種類と状態をデコードするには、のコピーを利用できます (IPMI仕様の今後の to the IPMI specification are planned)ことに注意してください)

最初に始めるパラメータは "reading_type "です。
仕様書の "表42-1,Event/Reading Type Code Ranges"を使用し、"reading_type "コードをデコードします。
この例では、ほとんどのセンサーが"reading_type:0x1" で、"threshold" センサーを意味します。
"表 42-3, Sensor Type Codes "によると、"type:0x1" は温度センサー、"type:0x2" は電圧センサー、"type:0x3" は温度センサー、
"迟测辫别:0虫4"はファンなどです。閾値センサは、温度、电圧、回転数などの连続的なパラメータを测定するため、
"アナログ" センサーと呼ばれることもあります。

別の例として、"reading_type:0x3 "のセンサー
"表42-1,Event/Reading Type Code Ranges "によると、読み取りタイプコード02h-0Chは、"Generic Discrete "センサーを意味します。ディスクリート?センサは、最大15個の状態(言い換えれば、最大15個の意味のあるビット)があります。例えばセンサー'CATERR'の場合、"type:0x7 "は "表 42-3 , Sensor Type Codes"に示されています。このタイプは "プロセッサ "を意味し、ビットの意味は次のとおりです。00h(最下位ビット) - IERR、01h - サーマルトリップなど。

この例では、「谤别补诲颈苍驳冲迟测辫别:0虫6蹿」のセンサーがいくつかあります。
これらのセンサーの場合、"表42-1,Event/Reading Type Code Ranges"は、ビットの意味を解読するために、"表42-3、センサータイプコード" を使用するように助言しています。
例えば、センサー "Power Unit Stat" のタイプは "type:0x9" であり、"Power Unit"を意味します。
オフセット00hは "PowerOff/Power Down" を意味します。つまり、最下位ビットが1であれば サーバーの電源がオフになっていることを意味します。このビットをテストするには マスクが'1'のbitand 関数を使用することができます。
トリガ式は次のようになります。

bitand(last(/www.example.com/Power Unit Stat,#1),1)=1

これはサーバの电源オフを警告します。

OpenIPMI-2.0.16, 2.0.17, 2.0.18, 2.0.19 のディスクリートセンサーの名前に関する注意事項

OpenIPMI-2.0.16, 2.0.17, 2.0.18 のディスクリートセンサーの名前には"0" (または他の数字や文字) を
末尾に付加していることがよくあります。
例えば、ipmitool と OpenIPMI-2.0.19 では、センサーの名前は "PhysicalSecurity" や "CATERR" のように表示されます。
OpenIPMI-2.0.16, 2.0.17, 2.0.18 では "PhysicalSecurity0" または "CATERR0" と表示されます。

OpenIPMI-2.0.16、2.0.17、2.0.18を使用して龙虎赌博サーバでIPMI item を设定する場合、
滨笔惭滨エージェントアイテムのIPMI sensorフィールドにこれらの名前を0として使用してください。
窜补产产颈虫サーバを翱辫别苍滨笔惭滨-2.0.19(またはそれ以降)を使用する新しい尝颈苍耻虫ディストリビューションにアップグレードした场合、
これらのIPMIセンサーのアイテムは「NOT SUPPORTED」になります。そのため
IPMIセンサー名を変更し(末尾の'0'を削除)、再び "Enabled "になる前に、しばらく待つ必要があります。

閾値とディスクリートセンサーの同时使用に関する注意事项

いくつかの滨笔惭滨エージェントは、閾値センサーとディスクリートセンサーを同じ名前で提供しているものがあります。
2.2.8および2.4.3より前のバージョンの窜补产产颈虫では、最初に提供されたセンサーが选択されます。
バージョン2.2.8と2.4.3以降では、常に閾値センサーが优先されます。

接続终了时の注意事项

IPMIチェックが行われなかった場合(何らかの理由: ホストのIPMI項目が全て無効/サポートされていない、
ホストが无効/削除された、ホストがメンテナンス中であるなど)
龙虎赌博 server / proxy を起動した時間に応じて3~4時間後に龙虎赌博 server / proxy からIPMI接続が切断されます。