Webサイトが繋がらない・・? DNSが落ちやすい。
Pleskで各種設定を行った後、突然Webサイトが繋がらなくなった(開かなくなった)てしまった場合、最も疑うべき項目は、DNS(BIND)稼働状態です。
DNSの再起動で解決する可能性が非常に高い。
考えられる原因をすべて対処(再設定)したにも関わらず、まったく表示されない事は往々にしてあります。 Pleskのヘルスモニタリングから、アラームレベルの通知と同時にDNSがダウン。
(このアラートの後に、DNSがダウンしました)
さっそくPLESKにログインしてDNSの状況を確認します。
ツールと設定 > サーバ管理 > サービスの管理
で設定を確認することができます。
上記のように、サービスの稼働ボタンが緑色になっていました。
サービスが停止していることがわかります。
Unable to make action: Unable to manage service by dnsmng: dnsmng:
Service /etc/init.d/named failed to start
稼働ボタンを実行してもエラーがメッセージが表示されることがあります。この場合、nameサーバーの設定をミスしている。例えば、nsレコードの記述があって、Aレコードがなかったり、記述がおかしいケースです。マイグレーション後に起こりやすいので注意してください。
気付きにくいDNSのダウン
DNSが落ちているのか、すぐに判断できればいいのですが、
SOAレコードのExpire(有効期限)で指定した日数の期間だけ情報はキャッシュされているので、通知を行っていない場合、上記は7日後にダウンしていたことに気が付いたという事が発生するのです。
では、なぜExpire(有効期限)という設定があるのかというと、この日数が少なければ少ないほど、リクエスト毎にDNSの情報を返すので、必然的にリクエストの回数が増える=サーバーに負荷がかかります。
そのため、一定期間は情報を保有する(キャッシュ)ためにSOAレコードの設定が必要になってくるのです。短ければいいという話ではありません。
ちなみに、TTLの時間はDNSの反映までの時間として、他の項目より短い値をセットしていればTTLの感覚でリフレッシュするようになっています。
・ VALUE DOMAINのTTLが120秒なのに ~ Webシステム屋の徒然日記
更新の項目は、DNSがダウンしてもその間の3時間は一時ファイルとしてキャッシュが残ります。このようにダウンの確認を手作業(アナログ)で行っていてもキャッシュデータを読み込んでいる可能性も高いため、死活監視プログラムを用いて常時ダウンしていないか確認する方法もあります。
参考:死活監視のTongbiを利用しよう
参考:Hinemosをはじめよう/運用管理の重要性:Hinemos