Amazon ne arată cum o simplă greșeală de scriere poate cauza căderea serverelor web

Amazon ne arată cum o simplă greșeală de scriere poate cauza căderea serverelor web
Ioana Bîrsan
11:32 03.03.2017

Deși căderea serverelor nu este o noutate, de această dată cauza întreruperii serviciilor web se datorează unei greșeli de scriere.

La începutul acestei săptămâni a fost anunțată căderea serverelor celor de la S3, un serviciu popular al celor de la Amazon. Odată cu producerea acestei întreruperi, o multitudine de alte servicii de pe internet (precum Quora, Trello, IFTTT) nu au mai putut fi accesate de utilizatori. Serverele au revenit însă la viață după mai mult de patru ore, conform The Verge.

Recent s-a aflat și cauza căderii serverelor și motivul pentru care mulți deținători de site-uri s-au aflat într-o confuzie totală în ziua respectivă. Aparent, o simplă greșeală de scriere poate fi făptașul unei asemenea probleme.

Dintr-o încercare de a curăța sistemul, membrii S3 au trebuit să deconecteze un număr mic de servere. Din nefericire, comanda pe care au trecut-o era scrisă incorect, lucru care a determinat eliminarea mai multor servicii. Acestea se aflau la baza a două subsisteme ale S3 care poartă o importanță deosebită pentru buna funcționare a site-urilor. Unul dintre ele se ocupă de administrarea metadatelor și a informațiilor cu privire la locațiile obiectelor S3 în regiune. În lipsa acestuia, serviciile care depind de el nu pot realiza funcțiile de bază, precum retragerea sau stocarea datelor.

Însă aflăm că problema majoră nu a fost căderea site-urilor, ci necesitatea unei restartări complete a sistemului, lucru care durează mult timp și blochează funcționalitatea serviciilor pe o perioadă mai îndelungată. „S3 a experimentat o creștere semnificativă în ultimii câțiva ani, iar procesele de restartare a serviciilor și necesitatea realizării verificărilor de siguranță, care să valideze integritatea metadatelor, au durat mai mult decât ne-am fi așteptat”, menționează compania.

Ca răspuns la acest impediment, Amazon a menționat că va începe să realizeze o serie de schimbări ale S3, pentru a le permite sistemelor să se refacă mult mai rapid. În plus, își propune să modifice AWS Service Health Dashboard (un tablou care indică bunul mers al serviciilor) care nu și-a realizat atribuțiile corespunzător.

Etichete:
loading...