首先明(míng)确一(yī)下(xià),全文(wé 'n)所講的(de)網站(zhàn)“運維“是(shì)指:門(mén®¥)戶網站(zhàn)應用(yòng)運維,與其它運維如(rú)網絡、系統的(de∑®ε)區(qū)别還(hái)是(shì)蠻大(dà)的(de);然後我≤ ←們再對(duì)大(dà)型網站(zhàn₽±α)與小(xiǎo)型網站(zhàn)進行(xíng)範圍定義,此定義主要(yào)Ω從(cóng)運維複雜(zá)性角度考慮,如(rú)網♦←α站(zhàn)規範、知(zhī)名度、服務器✘★(qì)量級、pv量等考慮,其它因素不(bù)是(shì)重點;因€♠ 此,我們先定義服務器(qì)規模大(dà)于1000台,pv每天至少(shǎo)上(shàng)£™↑千萬(至少(shǎo)國(guó)內(nèi)排名ε✔前20),如(rú)sina、alibaba、sohu、β★εbaidu、網易等等。
其它小(xiǎo)型網站(zhàn)可(kě)能(néng)沒有(yǒu)真正意義上 '×≠(shàng)的(de)運維工(gōng)程師(shī),這(zhè)與網∏α₽站(zhàn)規範不(bù)夠和(hé)成本'∑因素有(yǒu)關,更多(duō)的(de)是≠☆(shì)集合網絡、系統、開(kāi)發工(gōng)作(×↔'zuò)于一(yī)身(shēn)的(de)“複合性人(rén)才”α★×,就(jiù)如(rú)本版有(yǒu)些(xiē)同僚将公™≥司的(de)合同采購(gòu)都(dōu)納入了(le)運維職責範圍,還(hái)'Ωλ×有(yǒu)如(rú)IDC網絡規劃也(yě)納入運維職責,這(zhè)是(shì)網絡工(gō≥♠δ®ng)程師(shī)的(de)工(gōng)作(zuò),我們就β₽§₩(jiù)不(bù)要(yào)搶人(rén)家(jiā)飯碗了"§≈∑(le),但(dàn)是(shì),有(♥Ω←§yǒu)件(jiàn)事(shì)非常重要(yào)一(yī♠φ)定需要(yào)明(míng)白(bái):網站(zhàn) ≥<應用(yòng)運維對(duì)其它關聯工(gōng)種必須非常了(le)解熟悉:網絡運維、系統"≤★運維、應用(yòng)開(kāi)發、內(nèi)容;但(dàn)這(zhè)些(xiē)非自(β♦zì)已的(de)本職工(gōng)作(zuò),我在這(zhè)裡(♣δlǐ)所講的(de)運維工(gōng)程師(shī)就∞ ≈(jiù)是(shì)指專職應用(yòng)運維工(gōng)程師(shī)。
我們再來(lái)說(shuō)說(shuō)一(yī)個(gè)般産品的(de)“出生© ₩(shēng)”流程:
1、首先公司BOSS層給出指導思想,PM定位市(shì)場(chǎng∑±)需求(或copy成熟應用(yòng))進行(xíng)調研、分(fēn)析、最終給出詳細✘✔設計(jì)
2、開(kāi)發工(gōng)程師(shī)将設計(jì)code實現(xiàn)出來(l'♦↓ái)、測試工(gōng)程師(shī)對 Ω®σ(duì)應用(yòng)進行(xíng)測試(同一(yī)産↕£π品事(shì)業(yè)部)
3、網絡\系統工(gōng)程師(shī)根據産品設計(jì)的(de)需求,如α≥✔(rú)pv大(dà)小(xiǎo)預估、服務器(q★₩λì)規模、應用(yòng)架構等因素完成網絡規劃及設備上(shàng)§的(de)調整(基本上(shàng)對(duì)網絡變動不(bù££)大(dà),除非大(dà)項目)、SA系統工(gōng)程師(shī)負責産品服務器(qì φλ)上(shàng)架準備工(gōng)作(zuò),服務器(qì)系統安裝、網絡、IP、通(tō §ng)用(yòng)工(gōng)具集安裝
4、好(hǎo),到(dào)運維工(gōng)程師≠ (shī)出馬了(le)。
首先明(míng)确一(yī)點不(bù)是(sh÷¶Ωì)說(shuō)前三步就(jiù)與運±'維工(gōng)作(zuò)無關了(le),恰恰相(xi♣ασàng)反,前三步與運維關系很(hěn)大(dà):應用(yòn™€g)的(de)前期架構設計(jì)、軟/硬件(jiàn)資源評估申請÷Ω→(qǐng)采購(gòu)、應用(yòng)設計(jì)性能(néng)隐患及評估、↑©IDC、服務性能(néng)\安全調優、服務£$↔器(qì)系統級優化(huà)(與特定應用(yòng)有(yǒu)關)等都(dōu)需運維全程參與♣☆≤€,并主導整個(gè)應用(yòng)上(shàng)線項目;運維工(gō™∏ng)程師(shī)需要(yào)對(duì)上(shàng)線的(d≤$e)應用(yòng)系統架構是(shì)否合理(l★§βǐ)、是(shì)否具備可(kě)擴展性、及安全隐患等因素負責,并負責最後将産品(Ω₽∞程序)、網絡、系統三者進行(xíng)拼接并最優化(huà)的(€₹de)組合在一(yī)起,最終完成産品上(shàng)線提供用(yòng)戶使用(yòng)>γ",并周而複使:需求->開(kāi)發(升級)->測試-→&♠>上(shàng)線(性能(néng)、安全問(w©¶èn)題等之前預估外(wài)的(de)ε☆問(wèn)題随之慢(màn)慢(màn)就(jiù)全出來(lái)了(le))在這¶←₩(zhè)裡(lǐ)提一(yī)點:網站(zhàn)開(®≈kāi)發模式與傳統軟件(jiàn)開(kāi)發完全不(bù)一(yī)樣,網站(zhàn)一βδ↕(yī)天開(kāi)發上(shàng)線1~5個(gè)升級版本是(s♦λhì)家(jiā)常便飯,用(yòng)戶體(tǐ)驗為(wèi)王嘛,如(rú)§λ果某個(gè)線上(shàng)問(wèn)題像M$需要(yào)1年(nián)解決,用(yòn₹δ g)戶早跑光(guāng)了(le)。
應用(yòng)上(shàng)線後,運維工(gōng)₽∏±作(zuò)才剛開(kāi)始,具體(tǐ)工(gōng)作(zuò)可(kě)能(né✘÷♣ng)包括:升級版本上(shàng)線工(gōng)作(zu↔'↔∑ò)、服務監控、應用(yòng)狀态統計(jì)、日(rì)常服務狀态巡檢∞→<、突發故障處理(lǐ)、服務日(rì)常變更調整、集群管理 •(lǐ)、服務性能(néng)評估優化(₩✘α£huà)、數(shù)據庫管理(lǐ)優化(huà)(↑λ大(dà)于50台)、随著(zhe)應用(yònγ®g)PV增減進行(xíng)應用(yòng)架£構的(de)伸縮、安全、運維開(kāi)發工(gōng)作(zuò):
a 、盡量将日(rì)常機(jī)械性手工(gōng)工(gōng)作(zu™₽ò)通(tōng)過工(gōng)具實現(xiàn)(如(rú)服務監控、應用(yòn ↑≤♥g)狀态統計(jì)、服務上(shàng)線等等),提高(gāo)效率
b 、解決現(xiàn)實中服務存在的(de)問(w πèn)題,如(rú)高(gāo)可(kě)靠性、可(kě)擴展性問(wèn)∑♦題等,
c、大(dà)規模集群管理(lǐ)工(gōng)具的(✘±de)開(kāi)發,如(rú)1萬台機(jī)器(qì)≈★♦ 如(rú)何在1分(fēn)鐘(zhōng)內(nèi)完成密碼修改、或運行(xíng)指∞☆α定任務?2000台服務器(qì)如(rú)何快(kuài)速安裝操作(zuò)系統?各分(fēn)★¶布式IDC、存儲集群中數(shù)BT級的(de)數(shù)據如(rú)何快↓λ©φ(kuài)速的(de)存儲、共享、分(≠→ε>fēn)析?等一(yī)系列挑戰都(dōu)需運維工(gōng£↑)程師(shī)的(de)努力。
在此說(shuō)明(míng)一(yī)下(x÷₩™ià)其它配合工(gōng)種情況,在整個(gè)項目中,前端應用(yòngλ£α↕)對(duì)于網絡/系統工(gōng)程師(shī)來(lái)說(shuō)是(shì)≤×¥σ黑(hēi)匣子(zǐ),同時(shí)開(kāi)發工(gōng)程師(shī)職責隻是(shìλ© )負責完成應用(yòng)的(de)功能(néng)性開(kāi)發,并對✔<(duì)應用(yòng)本身(shēn)性能(néng)¶×、安全性等應用(yòng)本身(shēn)負責,它不(bù)負責或關心網絡÷/系統架構方面事(shì)宜,當然軟/硬件(jiàn)采購(gòu)人(rén)員(yu×ε≤án)等事(shì)業(yè)部其它同事(shì)也(yě)不(bù)會(huβ™ì)關心這(zhè)些(xiē)問(wèn)題,各司其職,∞©但(dàn)項目的(de)核心是(shì)運維工(gōng∞>♦φ)程師(shī)~!所有(yǒu)其它部門(méε§≤©n)的(de)橋梁
上(shàng)面說(shuō)了(le)很(hěn)多(duō),我想大(dà)家(☆®≈jiā)應該對(duì)運維有(yǒu)一(yī)些(xiē)概念了(le↕α★),在此打個(gè)比方吧(ba),如(r®™©ú)果我們是(shì)一(yī)輛(liàng)高(gāo)速行(x♦σ÷íng)駛在高(gāo)速公路(lù)上(shàng≠★∑ )的(de)汽車(chē),那(nà)運維工(gōng)程師(shΩ♥ī)就(jiù)是(shì)司機(jī)兼維修工(gōng₽♣),這(zhè)個(gè)司機(jī)不(bù)簡單,有(yǒu)時(shí)需要(yào)π&σ在高(gāo)速行(xíng)駛過程中換輪胎、并根據道(dào)路(₩←lù)情況換檔位、當汽車(chē)速度越來(lái)越快(kuài),汽車(chē)本∑✘α身(shēn)不(bù)能(néng)滿足§α高(gāo)速度時(shí)對(duì)汽車(chē)性能(néng)調優或零✔™件(jiàn)升級、高(gāo)速行(x™§íng)進中解決汽車(chē)故障及性能(néng)問(wèn)題、時(shí)刻關注前←σ"§方安全問(wèn)題,并先知(zhī)先覺的(de)采↔ו¥取規避手段……這(zhè)就(jiù)是(shì)運維工(gō↕₽&ng)作(zuò)~!
最後說(shuō)一(yī)下(xià)運維工(gōng)程師(shī)的(de)職£↕責:“确保線上(shàng)穩定”,看(kàn)εΩ&似簡單,但(dàn)實屬不(bù)容易。運維工(gōn÷≤¥♠g)程師(shī)必須在諸多(duō)不(bù)利因素中進行(xíng)權 ↔≈γ衡:新産品模式對(duì)現(xiàn)有(yǒu)架構及技(jìσφ♥)術(shù)的(de)沖擊、産品高(gāo)頻(pín)度∑的(de)升級帶來(lái)的(de)線上(shàng)BUG隐患≥♦£、運維自(zì)動化(huà)管理(lǐ)承度不(bù)高(gāo)導緻的(de)人(rén>×)為(wèi)失誤、IT行(xíng)業(yè)追求的( ±de)高(gāo)效率導緻流程執行(xíng)上(shàng)的(de)缺失、用(yòng)↓♦± 戶增漲帶來(lái)的(de)性能(néng)及架構上(shànγ≈∑g)的(de)壓力、IT行(xíng)業(yè)寬松的(∞φ• de)技(jì)術(shù)管理(lǐ)文(wén)化(huà)、創新±π•風(fēng)險、互聯網安全性問(wèn)題等因素,都(dōu)會(huì)是(shì)網站(♦"®zhàn)穩定的(de)大(dà)敵,運維工(gōng)程師(shī)必須把控好(hǎo)₽ ÷ 這(zhè)最後一(yī)關,需具體(tǐ)高(gāo)度的(de)責任感、原則性及協調能(nΩ$£φéng)力,如(rú)果能(néng)做(♠✔zuò)到(dào)各因素的(de)最佳平'♦★衡,那(nà)就(jiù)是(shì)一(yī)名'ε優秀的(de)運維工(gōng)程師(shī)了(le)。
另外(wài)在此聊點題外(wài)話(huà),我在本版看(kàn)到(dào)有(α"§yǒu)很(hěn)多(duō)人(ré™∞δn)要(yào)sina、網易、sohu、baidu等聊自®'(zì)已的(de)運維方面的(de)經驗,其實這(zhè)對(duì)于它們有(yǒu)點免為(♥✔φwèi)其難:
a、各公司自(zì)已網絡架構、規模、或多(duō)或少(shǎo)還✔$(hái)算(suàn)是(shì)公司的(de)核心秘密,要(yào)保密;另外(wài)★',對(duì)于大(dà)家(jiā)所熟知(zhī≠€×)的(de)通(tōng)用(yòng)軟件(jiàn)、架構,由于很(hěn)多( πduō)公司會(huì)根據自(zì)已實際業(y÷☆→è)務需要(yào),同時(shí)因為(wèi)δ€&原版性能(néng)、安全性、已知(zh ₩ī)bug、功能(néng)等原因,進行(xíng)過 ≤二次開(kāi)發(如(rú)apache,php,mysql...),操作(zuò¶>©)系統內(nèi)核也(yě)會(huì)根據不(bù)✘♦φ同業(yè)務類型進行(xíng)定制(zhì)的(de),↔₩•如(rú)某些(xiē)應用(yòng)屬于運算(suàn)型、某些(xiē)是 ←↔(shì)高(gāo)IO型、或大(dà)儲存大(dà)內(nèi)存型……根據§δ★"這(zhè)些(xiē)特點進行(xíng)內(nèi)核優化(huà)定制(zhì),如(r'©¥ú)sina就(jiù)在memcache上(shàng)進行(xíng∞σ↓™)過二次開(kāi)發,搞出了(le)一(yī)個(g♦βè)memcache DB,具體(tǐ)做(zuò)得(de)如(rú)何我們不(bù)談,★♥£但(dàn)開(kāi)源了(le),是(shì)值得(de>αδ✘)稱贊的(de),國(guó)內(nèi)公司對(duì)于開(kāi)源基"↑&本上(shàng)是(shì)索取,沒有(yǒu)&×貢獻;另外(wài),服務器(qì)也(yě)不(b≠σδ™ù)是(shì)大(dà)家(jiā)所熟知(zhī)的(de)型号,根據∞ <業(yè)務特點,大(dà)部份都(dōu)是(shì)找DELL/HP/sλ λun/ibm進行(xíng)過定制(zhì);另外(wài),在分(fē<₽£¥n)布式儲存方面都(dōu)有(yǒu)自(zì)已解決方案,要(>≠ ↓yào)不(bù)就(jiù)是(shì)使用(yòng)現(xiàn)成開(kāi)源♣♥hadoop等解決方案,或自(zì)已開(kāi)發。但↔₽¶←(dàn)90%都(dōu)是(shì)借鑒goog≤¶le GFS的(de)思想:分(fēn)布式存儲、計(jì)算(suàn♦☆±)、大(dà)表。
b、各公司業(yè)務方向不(bù)一(yī)樣,會(huì)導緻運維≈♦<模式或方法都(dōu)不(bù)一(yī)樣,如(rú)alibaba和(hé)baid<✔βu運維肯定區(qū)别很(hěn)大(dà),因為(wèi)他(tā)們業(y✔β§è)務模式決定了(le)其架構、服務器(qì↔©≥)量級、IDC分(fēn)布、網絡結構、通(tōng)用(yòng)技(jì)術(shù♠≥α)都(dōu)會(huì)不(bù)一(yī)樣,主打新聞門(mén)戶的(de)sina與π∏主打網遊的(de)盛大(dà)運維模式差異就(jiù)非常大(dà),甚至職責都(dōu)不(b δù)大(dà)一(yī)樣;但(dàn)有(yǒu)一(yī)點,通(tōng)用(yòng±×)技(jì)術(shù)及大(dà)緻架構上(shàng)都(dōu)大(dà)同小(xiǎo)異✔§,大(dà)家(jiā)不(bù)要(yào)太神化(huà)✘∞,更多(duō)的(de)公司隻是(shì)玩(wán)壘積木(mù)的(de)遊戲罷了(le)±₹π,沒什(shén)麽技(jì)術(shù)含量。
c、如(rú)我上(shàng)面所講,目前門(mén★☆)戶網站(zhàn)運維還(hái)處于幼年(nián)時(shí)期理(lǐ)念和(hé)♥™→經驗都(dōu)比較零散,沒有(yǒu)成熟的(de)知(zhī)識體(tǐ)系,☆←±可(kě)能(néng)具體(tǐ)什(shén)麽是(shì)運維,大(d₩β→→à)家(jiā)都(dōu)要(yào)先思索一(yī)番,或壓₹×根沒想過,真正討(tǎo)論也(yě)隻是(shì)運維工(♥εgōng)作(zuò)的(de)冰山(shān)一(y₽ε∑✔ī)角,局限于具體(tǐ)技(jì)術(s♣±γ÷hù)細節,或某某著名網站(zhàn)大(dà)的(de)框架,真正運維體(tǐ) ₽系化(huà)東(dōng)西(xī)沒有(yǒu),這(zhè)也(yě)許是(shì)目前™$網上(shàng)運維相(xiàng)關資料比較少(shǎo)的(de)原故吧↔ (ba)。