vine-users ML アーカイブ



[vine-users:082228] 現在障害調査をしていて、dmesgについて質問です

  • From: "T.Kabu" <kabu@xxxxxxxxxx>
  • Subject: [vine-users:082228] 現在障害調査をしていて、dmesgについて質問です
  • Date: Thu, 24 Jan 2013 23:41:21 +0900
こんばんわ、蕪木です。

現在、もともと物理サーバー上で動いていたVine5を、KVMの仮想環境に
移行して運用しているのですが、一つのVine5マシンは問題なく動作して
いるのですが、もう一つのVine5マシンは、とても動作が不安定で、正直
困り果てています。

環境的にはどちらもCPU=2core、MEM=2GB、HDD=100GBイメージで運用して
いるのですが、不安定な方はこれといった原因が特定できないままです。

現象としては特定の前触れなく突然ディスクIOができなくなってしまう
のですが、ディスクIOができないだけでオンメモリのプロセスは何とか
動くのでpsで見てみると、[pdflush]の片方やsyslogdなど、ディスクに
何かを吐き出すプロセスがSTAT=Dのままになっていて、そのまま一気に
ロードアベレージが上がって何もできない、という感じです。

topでみていると、片方のCPUコアがデッドロックしてしまっているよう
にも見えます。

ホストOS自体は元気なので、ちょこちょこパラメータや起動デーモンの
類をいじりながら調べているのですが、どうにもこうにも手詰まり状態
です。物理サーバーで動かしていたときから同様の症状が発生していた
ので、てっきりマシン交換(今回はKVMのVMの一つとしてddしましたが)
すれば治ると思ったのが甘かったようです。

−−−

で、皆さんにお聞きしたいことなのですが、たまたまVine5のVMが二つ
あって片方は元気に動いているので比較をしていたら、dmesgの内容で
判らないことが出てきました。

動作不安定な方は

> Initializing cgroup subsys cpuset
> Initializing cgroup subsys cpu
> Linux version 2.6.27-76vl5 (iwamoto@xxxxxxxxxxxx.local) (gcc version 4.1.2 (4.1.3 prerelease 20080708) (Vine Linux 4.1.2-21vl5)) #1 SMP Tue May 22 22:44:58 JST 2012
> Command line: ro root=/dev/VolGroup00/LogVol00 resume=swap:/dev/VolGroup00/LogVol01 vga=0x314
> KERNEL supported cpus:	←ココから
>   Intel GenuineIntel
>   AMD AuthenticAMD
>   Centaur CentaurHauls	←ココまで

上記のように「KERNEL supported cpus:」を出力したり、

> init_memory_mapping			←これとか
>  0000000000 - 007fe00000 page 2M	←これとか
>  007fe00000 - 007fffd000 page 4k	←これとか
> kernel direct mapping tables up to 7fffd000 @ 8000-c000
> last_map_addr: 7fffd000 end: 7fffd000	←これとか
> RAMDISK: 7fc18000 - 7ffec31e

があったりと、同じカーネル、同じベースVM環境なのに内容がだいぶ
違っているのです。確かにinitrdの中身で読み込んでいるモジュール
が一部違いますが、それにしてもそもそも最初のサポートCPUの表示
なんていったいどこで出力するようにしているのでしょう?

元々が、元気なほうはMegaRAIDを使ってたDELLのPE1850、不安定な方
はaacraidを使っていたSuperMicroから、それぞれddでぶっこ抜いて
持ってきたにしても、こんなに内容が違うのが、動作不良の原因究明
のヒントになるのでは?と思ったりもしています。

ちなみに現在は割当コアを1つにしたところ、ぜーんぜんおかしく
ならなくなってしまいました。(まぁなんとなく想像通り?)

でも数時間後に突然逝ってしまう事もあり、また逝き方も微妙に違う
ので安心(?!)はできませんが…このまま1コア割当のままというのも
まぁそれはそれでいいのですが芸がないというか気持ち悪いので…

−−−

dmesgを三種類添付しますので、どなたか何か違いというかこれじゃ
ない?というのがありましたらご指摘やご教授頂ければ幸いです。

A-OK-2core.dmesg 問題なく動作する2コアのVM-Aのdmesg
B-NG-2core.dmesg 動作不安定な2コアのVM-Bのdmesg
B-UC-1core.dmesg 動作不安定なVM-Bを1Coreで起動したときのdmesg

他のVMに影響があるといけないのでVM-AとVM-BのホストOS(サーバー)
は物理的には別物です…が両方ともCentOS6.3でCPUが5440か5450かの
違いだけなんで、これはあんまり関係ないような?と思っています。

よろしくお願いします。

Attachment: A-OK-2core.dmesg
Description: Binary data

Attachment: B-NG-2core.dmesg
Description: Binary data

Attachment: B-UC-1core.dmesg
Description: Binary data

_______________________________________________
vine-users mailing list
vine-users@xxxxxxxxxxxxxxxxxxxx
http://listserv.linux.or.jp/mailman/listinfo/vine-users