/ Artykuły

Awaria serwera – co robić?

8 min. czytania

Wskazówki w razie awarii serwera

Czy zdarzyło Ci się kiedyś obudzić w środku nocy, oblany zimnym potem, z myślą, że Twoja strona internetowa lub aplikacja właśnie przestała działać? Nie? To na pewno masz Disaster Recovery Plan i świetnie się z nim czujesz, śpiąc jak niemowlę. A może jednak nie masz tego planu, a teraz zastanawiasz się, czy powinieneś zacząć się martwić? Bez obaw, nie wszystko stracone, nawet jeśli na samą myśl o awarii serwera poczujesz nagły przypływ adrenaliny. Awaria serwera to nie koniec świata, choć w pierwszej chwili może się tak wydawać. Zamiast wpadać w panikę, lepiej zacznij działać – i to właśnie chcemy Ci pokazać w tym artykule. Kto wie, być może DRP (lub jego brak) nagle stanie się gorącym tematem przy śniadaniu.

Z artykułu dowiesz się:

Pierwsze kroki po wykryciu awarii

Gdy Twoja strona internetowa lub aplikacja nagle przestaje działać, kluczowe jest szybkie i spokojne działanie. Pierwsze kroki, które podejmiesz po wykryciu awarii, mogą zdecydować o tym, jak szybko uda się przywrócić normalne funkcjonowanie Twoich usług. Oto, co powinieneś zrobić:

  1. Sprawdź zakres problemu – czy awaria dotyczy tylko jednej usługi czy całej infrastruktury? Czy problem jest widoczny dla wszystkich użytkowników czy tylko dla niektórych? Szybka weryfikacja pomoże Ci zrozumieć skalę problemu. Np. problem może być po stronie tylko panelu administracyjnego, a nie koniecznie widoczny dla końcowych użytkowników.
  2. Zapewnij komunikację – poinformuj zespół oraz swoich użytkowników o problemie, używając dostępnych kanałów komunikacji, takich jak media społecznościowe, e‑mail czy strona statusowa. Transparentność w tej kwestii buduje zaufanie oraz redukuje frustrację użytkowników.
  3. Sprawdź ostatnie zmiany – czy przed wystąpieniem problemu dokonano jakichś zmian w konfiguracji lub oprogramowaniu? Często przyczyną awarii są ostatnio wprowadzone modyfikacje.
  4. Skonsultuj plan awaryjny – jeśli posiadasz Plan Disaster Recovery, teraz jest najlepszy moment, aby z niego skorzystać. Znajdziesz w nim zdefiniowane procedury postępowania, które mogą znacznie przyspieszyć rozwiązanie problemu.
  5. Wstrzymaj kampanie reklamowe – jeżeli zapowiada się dłuższa przerwa, a Twoje budżety reklamowe są wysokie i wolumen ruchu/sprzedaży duży, Twoi użytkownicy jeszcze łatwiej się sfrustrują widząc reklamę, a następnie przechodząc na niedziałający portal, e‑sklep czy aplikację. Przy okazji oszczędzisz wydawania tysięcy złotych na pusty, niekonwertujący ruch.

Narzędzia diagnostyczne i metody

Rozpoczynając diagnostykę, warto zaopatrzyć się w odpowiednie narzędzia, które pomogą Ci zlokalizować źródło problemu. Oto kilka, które mogą okazać się nieocenione:

  • Logi systemowe i aplikacji – pierwsze miejsce, do którego warto zajrzeć, to logi. Mogą one dostarczyć cennych informacji o błędach, ostrzeżeniach oraz innych zdarzeniach, które miały miejsce przed wystąpieniem awarii.
  • Monitoring systemu – narzędzia monitorujące, takie jak Nagios, Zabbix, czy Prometheus, mogą dostarczyć informacji na temat wydajności systemu i aplikacji w czasie rzeczywistym. Dzięki nim możesz szybko zauważyć nieprawidłowości, takie jak przeciążenie zasobów.
  • Narzędzia do testowania dostępności – użyj narzędzi takich jak Ping, Traceroute, czy MTR, aby sprawdzić, czy problem nie leży po stronie sieci. Pomogą one zrozumieć, czy serwer jest dostępny z różnych lokalizacji.
  • SSH i zdalny dostęp – dostęp do serwera przez Secure Shell (SSH) jest niezbędny do przeprowadzenia wielu operacji diagnostycznych i naprawczych. Upewnij się, że masz dostęp do swoich maszyn.

Pamiętaj, że skuteczna diagnostyka to połączenie wiedzy technicznej z dostępnymi narzędziami, dlatego w takich momentach, warto mieć dedykowany zespół lub podwykonawcę, który zareaguje w odpowiednim czasie (możesz skorzystać z administracji serwerów 24/7/365).  Znajomość swojego systemu i aplikacji jest nieoceniona podczas rozwiązywania problemów. Nie zapomnij również o korzystaniu z internetowych forów, licznych grup na Facebooku i dokumentacji – często rozwiązanie podobnego problemu zostało już opisane przez kogoś innego.

Potrzebujesz szybkiego wsparcia w awarii?

Koniecznie skontaktuj się z nami - bez zobowiązań!

Szybki kontakt

Dostęp do serwera i systemów zarządzania

Kiedy awaria serwera już została zidentyfikowana, kolejnym krokiem jest uzyskanie dostępu do samego serwera oraz do systemów zarządzania, aby móc przeprowadzić szczegółową diagnostykę i podjąć odpowiednie kroki naprawcze. Dostęp do serwera jest kluczowy, aby móc analizować logi, sprawdzać stan usług i aplikacji oraz wprowadzać niezbędne zmiany w konfiguracji.

 

Metody logowania i dostępu zdalnego

Istnieje kilka podstawowych metod logowania i uzyskiwania dostępu zdalnego do serwera, które mogą być używane w zależności od konfiguracji i preferencji. Oto najważniejsze z nich:

  • SSH (Secure Shell): jest to standardowa metoda dostępu do serwerów Linux/Unix, pozwalająca na bezpieczne logowanie i wykonywanie poleceń w terminalu serwera zdalnego. Dostęp do SSH wymaga zazwyczaj nazwy użytkownika i hasła lub klucza SSH.
  • RDP (Remote Desktop Protocol): używany głównie w środowiskach Windows, RDP umożliwia zdalny dostęp do graficznego interfejsu użytkownika serwera. Jest to szczególnie przydatne w przypadku zarządzania aplikacjami, które wymagają interakcji z GUI.
  • Panele zarządzania hostingiem: dla serwerów wynajmowanych od dostawców usług hostingowych często dostępne są webowe panele zarządzania, takie jak cPanel, Plesk czy DirectAdmin. Panele te oferują łatwy dostęp do wielu funkcji zarządzania serwerem, w tym plikami, bazami danych, pocztą elektroniczną i logami.
  • Konsola KVM (Keyboard, Video, Mouse) lub zdalna konsola IPMI (Intelligent Platform Management Interface): te metody pozwalają na dostęp do serwera na poziomie sprzętowym, co jest przydatne, gdy inne metody logowania zawiodą, na przykład w przypadku awarii systemu lub problemów z siecią. Umożliwiają one pełny dostęp do BIOSu, restart maszyny oraz instalację systemu operacyjnego zdalnie.

 

Diagnostyka problemów z logowaniem

Kiedy napotykasz problemy z logowaniem do serwera, istnieje kilka kroków, które możesz podjąć, aby zdiagnozować i rozwiązać problem. Oto co warto zrobić:

  1. Sprawdź połączenie sieciowe: upewnij się, że Twój komputer ma dostęp do internetu i nie ma problemów z siecią, które mogłyby blokować połączenie z serwerem. Użyj narzędzi takich jak ping, traceroute lub mtr, aby sprawdzić połączenie z adresem IP serwera.
  2. Weryfikacja danych logowania: upewnij się, że używasz poprawnych danych do logowania, takich jak nazwa użytkownika, hasło lub klucz SSH. Sprawdź, czy klawiatura nie jest ustawiona na inny układ klawiszy (np. zamiast QWERTY na AZERTY), co może powodować błędy przy wpisywaniu hasła.
  3. Sprawdzenie konfiguracji SSH: jeśli logujesz się przez SSH, sprawdź plik konfiguracyjny SSH (/etc/ssh/sshd_config na serwerze), aby upewnić się, że nie ma tam ustawień, które mogłyby blokować Twoje połączenie, takich jak ograniczenia dostępu dla określonych adresów IP czy wymóg autentykacji kluczem SSH.
  4. Limit prób logowania: niektóre systemy mają mechanizmy zabezpieczające, które blokują adres IP po kilku nieudanych próbach logowania. Jeśli podejrzewasz, że to może być przyczyna, spróbuj zalogować się z innego adresu IP lub skontaktuj się z administratorem systemu jeżeli nie jesteś nim właśnie Ty 😉
  5. Zablokowane konta: w niektórych przypadkach konto użytkownika może zostać zablokowane z powodu podejrzeń o nieautoryzowany dostęp lub z innych powodów. Skontaktuj się z administratorem systemu, aby sprawdzić status Twojego konta.
  6. Problemy z kluczem SSH: jeśli używasz klucza SSH do logowania, upewnij się, że jest on prawidłowo zainstalowany na serwerze oraz że używasz odpowiedniego klucza prywatnego. Sprawdź też, czy plik ~/.ssh/authorized_keys na serwerze zawiera poprawny klucz publiczny.
  7. Logi serwera: sprawdź logi serwera SSH (/var/log/auth.log na większości systemów Linux) dla informacji o błędach związanych z próbami logowania. Mogą one dostarczyć wskazówek co do przyczyny problemu.

Rozwiązanie problemów z logowaniem często wymaga podejścia krok po kroku i eliminacji potencjalnych przyczyn. Pamiętaj, że zachowanie spokoju i metodyczne podejście są kluczowe w diagnozie i rozwiązywaniu problemów z dostępem do serwera.

Analiza i rozwiązywanie problemów

Po uzyskaniu dostępu do serwera, kluczowe jest przeprowadzenie dogłębnej analizy sytuacji, aby zrozumieć przyczynę awarii i podjąć odpowiednie działania naprawcze. W tym celu konieczne jest zidentyfikowanie źródła problemu, co często wymaga skorzystania z różnorodnych narzędzi diagnostycznych i metod. Pamiętaj, że skuteczne rozwiązanie problemu zaczyna się od jego dokładnej analizy.

 

Typowe scenariusze awarii i ich rozwiązania

W trakcie zarządzania serwerem możesz napotkać na różne scenariusze awarii, z których każdy wymaga innego podejścia. Oto kilka najczęstszych problemów i sposobów ich rozwiązania:

  • Awaria serwisu WWW (np. Apache, Nginx nie startuje): sprawdź logi serwisu dla błędów konfiguracyjnych lub problemów z zależnościami. Upewnij się, że wszystkie wymagane moduły są zainstalowane i prawidłowo skonfigurowane.
  • Problemy z bazą danych (np. MySQL, PostgreSQL nie odpowiada): weryfikuj, czy serwis bazy danych działa i ma dostęp do swoich plików danych. Sprawdź logi bazy danych dla szczegółów dotyczących awarii.
  • Przeciążenie zasobów (CPU, RAM, dysk): użyj narzędzi takich jak top, htop lub iotop do monitorowania użycia zasobów. Znajdź i zakończ procesy zużywające nadmierną ilość zasobów lub rozważ skalowanie zasobów.
  • Problemy z siecią (np. serwer nie jest dostępny z zewnątrz): sprawdź konfigurację sieciową serwera, zasady firewalla i routing. Użyj narzędzi diagnostycznych jak ping, traceroute do analizy problemów z łącznością.

 

Przywracanie usług i systemów

Po zidentyfikowaniu i rozwiązaniu podstawowej przyczyny awarii, następnym krokiem jest przywrócenie normalnego działania usług i systemów. Oto co należy zrobić:

  • Restart usług: po wprowadzeniu koniecznych zmian, restartuj usługi, które były dotknięte problemem. W wielu przypadkach jest to wystarczające, aby przywrócić ich poprawne działanie.
  • Przywracanie konfiguracji: jeśli awaria została spowodowana błędami w konfiguracji, przywróć poprzednie, działające wersje plików konfiguracyjnych.
  • Monitorowanie po rozwiązaniu problemu: użyj narzędzi monitoringu, aby upewnić się, że wszystkie usługi działają poprawnie i problem nie powróci. Monitorowanie pomoże również w wykryciu potencjalnych przyszłych problemów przed ich eskalacją.
  • Testowanie i weryfikacja: przeprowadź testy, aby upewnić się, że usługi działają zgodnie z oczekiwaniami i że problem został całkowicie rozwiązany.
  • Dokumentacja zmian i wniosków: zapisz wszystkie dokonane zmiany oraz wnioski z analizy awarii. Dokumentacja ta będzie cenna przy rozwiązywaniu przyszłych problemów oraz w planowaniu unikania podobnych awarii.

Pamiętaj, że każda awaria to szansa na poprawę i wzmocnienie systemu. Przywracanie usług i systemów to nie tylko kwestia powrotu do stanu sprzed awarii, ale także możliwość optymalizacji i zabezpieczenia systemu na przyszłość.

Optymalizacja i zapobieganie przyszłym awariom

Każda awaria serwera dostarcza cennych lekcji, które mogą być wykorzystane do optymalizacji i zapobiegania podobnym problemom w przyszłości. Zapewnienie wysokiej dostępności i niezawodności serwera nie kończy się na naprawie bieżących problemów, ale wymaga ciągłego monitorowania, aktualizacji oraz przemyślanego planowania.

 

Monitorowanie systemów i aplikacji

Systematyczne monitorowanie systemów i aplikacji jest kluczowe dla wczesnego wykrywania problemów i zapobiegania awariom. Narzędzia do monitorowania mogą śledzić różne aspekty działania serwera, w tym użycie procesora, pamięci, przestrzeń dyskową, dostępność usług i wiele innych. Umożliwiają one również ustawienie alarmów, które informują administratorów o potencjalnych problemach, zanim przekształcą się one w poważne awarie. Popularne narzędzia do monitorowania to m.in. Nagios, Zabbix, Prometheus czy Grafana, każde z nich oferuje szeroki zakres funkcjonalności i może być dostosowane do specyficznych potrzeb infrastruktury. Być może pokusimy się o kilka artykułów dotyczących naszych, najczęściej wykorzystywanych narzędzi w pracy Centuriowego Admina.

Zlecenie monitorowania

Dla organizacji, które nie dysponują wewnętrznymi zasobami do ciągłego monitorowania i zarządzania infrastrukturą serwerową, zlecanie tych zadań specjalizowanym firmom może być skutecznym rozwiązaniem. Centuria, jako doświadczony administrator serwerów, oferuje usługi monitorowania i nadzoru serwerów klientów 24/7/365. Dzięki temu klienci mogą skupić się na swojej podstawowej działalności, mając pewność, że ich infrastruktura jest nieustannie nadzorowana przez profesjonalistów.

Korzyści z zlecenia monitorowania i zarządzania serwerami obejmuje:

  • Całodobowy monitoring: zapewnienie ciągłej obserwacji kluczowych wskaźników wydajności serwerów i szybkie reagowanie na każdą anomalę. Ale także możliwość śledzenia obciążenia dla danego url, np. example.com/koszyk
  • Eksperckie zarządzanie: dostęp do doświadczonej kadry specjalistów, którzy mogą efektywnie zarządzać i optymalizować serwery, zapewniając ich stabilność i bezpieczeństwo. Doświadczony admin od razu jest w stanie stwierdzić co może zrobić, aby jak najszybciej przywrócić środowisko do działania.
  • Zapobieganie awariom: proaktywne działania mające na celu minimalizowanie ryzyka wystąpienia awarii poprzez regularne audyty, aktualizacje i konfiguracje zabezpieczeń.
  • Wsparcie techniczne: szybki dostęp do pomocy technicznej w przypadku wystąpienia problemów, co umożliwia szybką ich diagnozę i rozwiązanie.

Delegowanie odpowiedzialności za monitorowanie i zarządzanie serwerami na zewnętrzną firmę umożliwia organizacjom lepsze wykorzystanie swoich zasobów, jednocześnie podnosząc poziom bezpieczeństwa i niezawodności swojej infrastruktury IT. Dzięki temu możliwe jest nie tylko reagowanie na bieżące problemy, ale także przewidywanie i zapobieganie potencjalnym awariom w przyszłości.

Podsumowanie

Zarządzanie awariami serwera jest nieodłącznym elementem utrzymania stabilnej i bezpiecznej infrastruktury IT. Jak pokazał ten artykuł, kluczowe jest nie tylko szybkie reagowanie w momencie wystąpienia problemów, ale również ciągłe monitorowanie, optymalizacja oraz zapobieganie potencjalnym awariom w przyszłości.

Plan Disaster Recovery jest fundamentem dla każdej organizacji, zapewniającym gotowość na różne scenariusze awaryjne i minimalizującym wpływ nieprzewidzianych zdarzeń na działalność firmy. Opracowanie takiego planu i regularne przeprowadzanie testów awaryjnych pozwala na szybkie przywrócenie kluczowych usług oraz ochronę danych.

Ponadto, wdrażanie systemów monitorowania i korzystanie z usług specjalistycznych firm, takich jak Centuria, może znacząco podnieść poziom bezpieczeństwa i niezawodności infrastruktury. Profesjonalne zarządzanie serwerami i proaktywne działania zapobiegawcze pozwalają na utrzymanie ciągłości działania usług oraz ograniczają ryzyko przestojów i strat.

O autorze

Patryk Szczepaniak

Marketing Manager w Centurii. Entuzjasta digital marketingu, samouk. Praca w różnych sferach digitalu pozwala mu na spoglądanie na biznes holistycznie łącząc wiele działań naraz. Prywatnie biega po krakowskich ścieżkach.

Zobacz także

Zobacz więcej