黄色片一级免费,国产网址在线,亚洲午夜网站,黄色在线播放网址

深擊|阿里云故障“驚魂”1小時:難道我們是那0.1%?

新浪科技

2018-07-02 13:32:59

6月27日晚,北京國貿寫字樓2座燈火通明。林曉宇疾步往返于運維部與研發(fā)部的走廊上,表情有些凝重。

一場因阿里云故障引發(fā)的突發(fā)事件,導致他所在的互聯網金融公司幾近癱瘓。在運維部工作近一年,林曉宇首次受到公司各層級領導的“關注”。

“很多部門的Leader都打電話,問我怎么回事”,面對質疑,林曉宇很是無奈。他回憶說,事發(fā)時,業(yè)務數據無法讀取,交易短暫停滯,客服投訴量激增……運維部和開發(fā)部啟動了自檢,因服務器無法登錄及文件存儲NAS不能服務,問題也被很快確認:阿里云出了問題。

不能坐以待斃!

林曉宇所在的運維部啟動了應急預案:在線服務失效,轉為本地服務的Kubernetes容器集群,結果失效。采取手動更改,對象存儲OSS失效,SLS失效……

留給他的,只有等待。

在等待的過程中,林曉宇一直琢磨:宣傳時說“提供99.9%可靠性”,難道我們就是那0.1%?

驚魂一小時

根據阿里云官方描述,其在中國公共云市場占有率超過2至5名的總和,目前中國有40%的網站都在阿里云上運營,一半獨角獸公司也在使用阿里云。以這個體量計算,即便是那0.1%的用戶,因為不明原因“宕機”所產生的焦慮感,也足以在社交網絡上掀起軒然大波。

當天下午4點半開始,不斷有“阿里云宕機”的消息在微博和微信群中傳出。用戶們指出,故障原因集中表現在官方網站和控制臺無法訪問。而當時,阿里云內部人員向新浪科技提供的第一份回應是賬戶登陸異常,云服務器不受影響,此次故障并非宕機。

但官方回應迅速發(fā)酵出第二輪不滿情緒。大量用戶在新浪科技發(fā)出的微博下面投訴其他功能也被波及——和林曉宇一樣,除了無法登陸之外,OpenSearch失效,ONS失效,NAS失效,OSS失效——簡單來說,除了登陸環(huán)節(jié)異常外,阿里云的多個產品在該時段均無法使用。

最終,阿里云在下午發(fā)布故障公告,確認了除部分管控功能外,MQ、NAS、OSS等產品的部分功能出現訪問異常。此次事故從16點21分至17點30分,時長約一小時。

一位用戶點評道:中國互聯網半壁江山,驚魂整整一小時!

半壁江山還是0.1%?

郭寧顯然在另外半壁江山里。27日晚高峰,他走出望京的寫字樓,擠上地鐵,打開手機刷了眼新聞,才知道這天下午阿里云“掛”了。

“什么異常都沒有?!惫鶎幠壳霸谝患襂T公司負責開發(fā)團隊,產品均托管在阿里云上,涉及ESC和其他多個云服務。但他向新浪科技表示,自己的產品沒有受到任何影響?!熬W上那些問題一個都沒碰到?!?/p>

實際上,不只是郭寧,新浪科技接觸到的多名開發(fā)人員中,大多數都和郭寧一樣,在宕機期間內毫無感覺。而唱吧、e代駕等使用阿里云的移動互聯網應用,也幾乎沒有發(fā)出過抱怨的聲音。

不過,對于那些“驚喜”一小時的用戶來說,麻煩是切切實實的存在。據新浪科技不完全統(tǒng)計,此次事故受影響的范圍十分廣泛,包括電商、互金、通訊語音及教育行業(yè)等。阿里云客服人員表示,“此次屬于大面積故障,基本上平臺大部分業(yè)務全掛了”,但具體影響范圍及用戶數量無法確定。

更麻煩的還在后面。

林曉宇說,雖然故障后來得到了排除,但部門需要進行業(yè)務數據修復,這無疑增加了工作量。

一家從事電商業(yè)務的員工告訴新浪科技,當天正進行用戶拉新活動,注冊短信接口全部失效,導致新增量在一兩小時內為零,“老板不會關心服務器異常,他只會認為是我們工作沒做到位”。

一個bug引發(fā)的慘案

次日凌晨,阿里云發(fā)布了故障原因說明:工程師團隊在上線一個自動化運維新功能中,執(zhí)行了一項變更驗證操作。這一功能在測試環(huán)境驗證中并未發(fā)生問題,上線到自動化運維系統(tǒng)后,觸發(fā)了一個未知代碼bug,錯誤代碼禁用了部分內部IP,導致部分產品訪問鏈路不通。后續(xù)人工介入后,工程師團隊快速定位問題進行了恢復。

新浪科技曾向阿里云方面詢問具體的bug觸發(fā)原因,但對方拒絕回答。

各種段子一般的推測加入了下一輪傳播。其中流傳最廣的一個版本是:剛剛招了兩個實習生——誤刪了登陸服務。

“實習生誤刪登陸服務之說,應該是不存在的。”IT領域自媒體“Linux高薪集訓營“引用了原美團點評運維架構師及馬哥教育聯合創(chuàng)始人張sir的解讀,“一方面,大型互聯網公司尤其是阿里云這樣的公司,對工程師權限有著極為嚴格的控制,因為阿里云數十萬臺服務器,支撐了全國各行各業(yè)千億以上規(guī)模的線上業(yè)務,不可能讓實習生不熟悉的情況下,給予過高的管理權限。這是極其不專業(yè)的做法。”

張Sir從阿里巴巴內部得知,這次故障影響了整個阿里巴巴集團,其中包括阿里云、螞蟻金服、天貓、飛豬、優(yōu)酷等事業(yè)群,其中阿里云的故障等級為S1。

故障影響有多嚴重

故障影響有多嚴重

在阿里巴巴的線上業(yè)務故障級別中,對S1的定義是:核心業(yè)務重要功能不可用,影響部分用戶,造成一定損失。

“故障的嚴重程度是非常高的,整個阿里集團的核心業(yè)務,以及依托阿里云的公司,很多都受到了影響?!睆圫ir表示。

不過,新浪科技發(fā)現,天貓、支付寶、飛豬、優(yōu)酷等相關產品的訪問當天并未受到影響。

至于具體原因,是一個核心應用請求虛擬IP地址(Virtual IP Address VIP)列表的時候得到了空列表,導致幾千個VIP不可用,進而影響到了整個集團的業(yè)務。

“VIP是集群業(yè)務的入口,通過一個VIP的地址,可以實現一組業(yè)務的訪問。如果數千個VIP被禁用了,可能后端上萬臺的服務、應用、數據庫等將直接無法訪問?!睆圫ir解釋。這也符合阿里云的官方解釋:“本次故障測試通過了,在生產環(huán)境觸發(fā)了一個未知bug。”

對此,阿里云方面不予置評。

“雞蛋不能放在一個籃子里”

實際上,云服務宕機波及大量互聯網應用并不罕見。去年2月28日,云計算鼻祖亞馬遜AWS的云存儲團隊在調試時錯輸了一條指令,意外移除了大量服務器,導致進出AWS東一服務區(qū)基礎設施的流量瞬間消失,停機長達3小時之久。

由于AWS在美國市場處于領先地位,包括Adobe、Airbnb、Github、納斯達克、Netflix、Slack、通用電氣、Quora等知名科技公司均被殃及。根據外媒估算,此次宕機造成了最高數千萬美元的損失。

“雞蛋不能放在同一個籃子里,就是這個道理?!?中國平安運維部負責人在接受新浪科技采訪時指出,云服務是把“雙刃劍”,一方面,的確為眾多企業(yè)、尤其是中小企業(yè)帶來了便利,但在發(fā)生問題時,給企業(yè)帶來的影響和損失也是巨大的。

該負責人稱,因行業(yè)不同,影響及損失有所區(qū)分。例如電商企業(yè),一旦發(fā)生云計算事故,直接影響到銷售額,同時供應商的利益可能會受到牽連,還有潛在的企業(yè)誠信等問題。

從用戶層面看,因為故障會導致即時信息無法獲取,降低體驗感。而對于那些以網絡進行交易的用戶來說,損失將更大。

同樣是去年,納斯達克的報價傳輸系統(tǒng)發(fā)送的測試數據在7月份被第三方機構不當使用,出現重大錯誤。谷歌、蘋果、亞馬遜一度出現不合理的股價暴跌,其中亞馬遜暴跌了87%。而在2013年,納斯達克就出現過類似錯誤,并導致當天停盤長達三小時。

“很多大企業(yè)都會分散選擇云服務商”,該負責人表示,一般情況下,小型企業(yè)受限于資金或人員等因素,可能會將所有服務放在同一品牌的云服務上。而多數中型企業(yè),會選擇多個廠商同時服務。但是,不同廠商間的產品屬性存在差異化,可能會導致數據無法同步等情況出現。

信譽如何用賠償解決?

幾年前,阿里云曾推出100倍故障賠償,即由于阿里云故障導致產品無法正常使用的情況,阿里云將提供100倍的故障時間賠償。

但阿里云相關負責人向新浪科技表示,賠償問題將按照相關服務保障條款進行處理。

“必須要有詳細的清單”,客服人員表示,根據業(yè)務損失情況,法務部人員和業(yè)務專員會進行核查,核查無誤會進行賠償。

新浪科技查詢了阿里云的產品及服務協議規(guī)定,按照目前的規(guī)定,包月服務和資源包服務發(fā)生故障,賠償總額不會超過服務器內故障涉及服務費用的總額。如果時按量付費,賠償總額不會超過過去12個月,故障涉及服務的已繳納費用總額。

但對于那些經歷了宕機痛苦的阿里云用戶們來說,賠償與否已經不是當下最重要的問題了。曾經,阿里云因為“靠譜”被廣大網友呼吁站出來幫鐵總解決12306訂票難的問題,但此刻,林曉宇不由地開始懷疑阿里云是否真正可靠。

云計算故障編年史

鄂ICP備2020021375號-2

網絡傳播視聽節(jié)目許可證(0107190)

備案號:42010602003527

今日湖北網版權所有

技術支持:湖北報網新聞傳媒有限公司

舉報電話:027-88568010

運維監(jiān)督:13307199555