昨天晚間,CDN、DNS 服務供應商 Cloudflare 於全球多個地區出現錯誤,導致許多使用 Cloudflare 的網站紛紛出現無法連線,或是圖片無法跑出來等情形;Cloudflare 這次故障影響的範圍相當大,台港許多大型網站包括新聞網、討論區以及大量影音分享網站都出現了 502 錯誤。
昨晚事情發生約半小時左右,網站便開始陸續恢復,目前受到影響的網站已經全數正常運作。
至於為何 Cloudflare 會出現這樣大規模的故障呢?當時有傳聞指出是 DDoS 攻擊所致,但就在剛剛,Cloudflare 發出聲明解釋了這次災情的原因。
Cloudflare 發出聲明解釋當機狀況
就在剛剛,Cloudflare 寄出一封信解釋問題發生的原因:
中文翻譯如下
各位親愛的 Cloudflare 客戶,
今日大約 13:42UTC 時間(台灣晚上 9:42),我們遭遇了一個全球性的故障,並影響了 Cloudflare 的服務達 27 分鐘。
這個問題的原因是由於 Cloudflare Web Application Firewall(WAF)服務中的一個 bug 導致,這個錯誤讓 CPU 的使用率大幅攀升,並讓用戶網站碰到了 502 錯誤;當時為了處理這狀況,我們暫時關閉了部分 WAF 的功能,解決了導致問題的 bug,並且重新將 WAF 服務上線。
對於這次錯誤影響了您的網站,我們深感抱歉,我們的工程師團隊將繼續調查問題發生的原因,並將會在 Cloudflare 部落格中分享調查報告。
-Cloudflare 團隊
Cloudflare 表示:並非受到攻擊
除了發信給用戶以外,Cloudflare 也在官方部落格中說明了這次大規模故障的原因。
文章中說到,Cloudflare 用戶之所以碰到 502 錯誤,是因為一個 bug 導致主機 CPU 大幅攀升的原因,這個導致問題的 bug 已經被解決,現在服務器也一切正常;Cloudflare 並在部落格中表示,這次的錯誤並不是遭受攻擊,並對這次錯誤感到很抱歉,內部的團隊正在完整調查這次錯誤發生的原因以及如何避免再次出現這樣的錯誤。