안녕하세요 오픈소스컨설팅 한진규 이사입니다.
오늘은 장애대응으로 인해 불철주야 바쁜 IT팀에게 힘이되는 솔루션들에 대해 한번 파보겠습니다. Dig Dig Dig
장애가 발생했을 때 가장 어려운 점이 뭘까요?
우리의 Pain Points
장애 사실을 담당자가 가장 늦게 알게 된다.
이런 경험 있으시죠? 사용자가 전화와서 “저 컨플루언스 죽었는데요?” “로그인 화면이 안뜨는데요?”
그제서야 시스템에 접속해 보면, Down 되었단 사실을 알게 되는 상황 말이죠.
이럴때 가장 큰 문제는 이미 사용자는 아무런 사전 공지 없이 접속 장애를 겪으면서 혼란에 빠지고 서비스에 불만이 계속 커져간다는 것입니다.
더 큰 문제는 시스템 담당자는 현상파악 및 재기동에 많은 시간을 할애할수 없고, 임기응변으로 조치 하거나 일단 시스템을 재부팅 하는데 모든 노력을 쏟게 되면서
이 문제의 원인파악은 뒷전으로 밀리게 됩니다. 다음에 같은 문제가 발생해도 똑같이 대응하게 되는 거죠.
흐어어어어엉~ 매번 힘들다. 지난번도 힘들었는데, 이번엔 더 힘들다….
장애 서비스에 지속적으로 접근 시도
되나? 안되나? 되나? 안되나?
서비스가 다운되고 나면, 사용자는 문제가 해결됬는지 확인 할수 있는 방법이 없기 때문에, 해당 서비스에 지속적으로 접근을 시도합니다.
그래봐야 볼수 있는 화면은, 다운된 모습 뿐이지만 빨리 서비스가 재개되길 희망하는 마음에 계속 광클 하게 되죠.
이 경우 시스템은 지속적으로 부하가 증가하게 되고, 시스템 담당자는 해결에 더욱 더 어려움을 겪습니다.
머리아펑
복잡한 내-외부 커뮤니케이션
장애가 발생했을때, 담당자 – 관리자 – 고객(사용자) – 유관 부서 모두 혼란을 겪게 됩니다.
누가 담당자인지 모르거나, 이 장애를 어디에 신고해야할지 모르거나, 누구한테 보고를 해야 하는지, 어떤 부서와 협업을 해야 하는지 불분명한 경우가 많고 이로인해 장애처리를 더 늦어지기도 합니다.
특히나,
장애 사실을 고객에게 알려야 할때, 어떻게 알리세요?? 메일? 게시판? 모두 즉각적이지 않고 접근하기가 용이하지도 않습니다.
이러한 부분들로 인해 우리 IT팀은 오늘도 고통 받고 있습니다 ㅠㅠ 흐엉~
ㄴr는 ㄱr 끔 눈물을 흘린ㄷr
사설이 좀 길었죠? 요약 들어갑니다.
밑줄 쭈악! 별표 세개!!!
이러한 문제점들이 있었습니다.
이러한 문제들을 아틀라시안에서는 지라서비스데스크(Jira Service Desk)와 옵스지니(Opsgenie), 스테이터스 페이지(Statuspage)로 대응하고 있습니다.
오늘 요 아이들에 대해서 좀 이야기 해볼까 합니다. 요즘 재가 애정하는 세 친구들이에요. (지라, 위키는 이제 잘 아시니까 여기서는 패스 합니다.)
아래는 아틀라시안이 바라보는 ITSM의 모습이예요.
지라서비스데스크, 컨플루언스, 지라 소프트웨어를 기반으로, 옵스지니, 스테이터스 페이지가 함께 하면서 IT팀 업무 대부분을 커버할 수 있습니다.
그럼 앞서 말씀드린 오늘의 주인공 세 친구를 소개해 드릴께요
Jira Service Desk
요즘 주변에서 가장 많이 찾고 구매하는 솔루션 중에 하나죠. 이미 Jira Software는 많은 분들이 사용하고 계시지만, Service Desk는 작년부터 붐이 일어난거 같아요.
최근에 문의 내용 중 절반이상이 Service Desk니까요.
ITSM(IT System Management), SR(Service Request)처리 등 다양한 용도로 활용되고 있어요.
지라서비스데스크는 쉽고 편리하게 구성할 수 있지만 강력한 기능으로 티켓을 처리할 수 있습니다. 자세한 기능은 링크 참조 ( https://www.slideshare.net/OpenSourceConsulting/jira-service-desk-201908 )
고객(혹은 내부직원)은 지라서비스데스크를 통해 쉽고 편리하게 문의사항이나 장애를 접수하고 처리 현황을 확인할 수 있습니다.
Opsgenie
옵스지니는 2018년에 아틀라시안에 인수되어, 가장 가파른 성장세를 보이는 제품 중 하나 인데요, 가장 강력한 경쟁자인 Pagerduty 대비 60%정도 저렴한 금액으로
더 강력한 기능을 뽐내고 있지요. (아틀라시안이 인수만 하면 가격을 확 낮춰버림)
반드시 찾아서 알린다!
옵스지니의 가장 큰 역할은 정확하고 즉각적인 장애인지 기능입니다.
아까 이야기 한것 처럼 장애가 발생 했는데, 담당자는 모르고 있다면…..생각만 해도…뜨악!!
옵스지니는 서비스나 시스템에 장애가 발생할 경우, 미리 설정한 On-call 스케쥴에 따라 담당자에게 알람을 뿅! 하고 보내줍니다.
이게 왜 편하냐면, 보통의 장애 알람 시스템은 대상자를 설정하고 메세지를 받는 기능은 있지만, 옵스지니의 경우 반드시 장애 알람이 정확한 담당자에게 전달 되도록 합니다.
여기서 중요한 건 반.드.시!!
위의 화면처럼, 문제가 발생할 경우 누구한테 알릴지, 그때 그 사람이 문자, 전화, 앱알람을 모두 인지 하지 못했을때 누구한테 다시 알릴 건지,
그래도 아무도 확인을 안한다면 다시 또 누구에게 보낼건지 설정 할수가 있어요.
옵스지니는 담당자가 어디에 있건, 뭘하고 있건 반드시 찾아서 알람 보냅니다. (and I will kill you)
물론 일자별, 시간별 담당자도 완전 세부적으로 미리 세팅을 할 수 있습니다. 크으~
장애가 났는데 담당자가 모를 일은 이제 없겠죠?
편리하게 커뮤니케이션 해요!
장애 처리하는 과정에서 혼자 처리하는 경우도 있고, 여러 담당자가 함께 해야 하는 경우도 있고, 대부분의 경우 해당 내용 및 진행상황을 매니저에게 보고하면서 진행해야 할떼가 많습니다.
보통 이럴 때 어떻게 진행하시나요?
전화? 이메일? 메신져?
옵스지니는 Slack과 강력하게 통합이 됩니다. (슬랙쓰신다면 개꿀!)
또한 급한 상황에서 효과적으로 커뮤니케이션 할 수 있도록 비디오챗 기능도 제공하죠.
(이 형 표정 왜이럼?)
이 처럼 편리하게 소통하고 협업 할수 있다는게 옵스지니를 선택하는 또하나의 이유입니다.
이 밖에도 강력한 보고서 기능 및 다양한 앱과의 통합을 통해 빠르고 편리하게 정애를 인지하고, 처리하고, 차후에 같은 일이 재발 되지 않도록 사후 처리를 할 수 있습니다.
국내 고객분들도 비슷한 솔루션을 자체 개발하거나, 간단한 툴을 구입해서 사용하시는 경우가 많은데 이렇게 다양한 기능을 접하시고는 옵스지니를 구매하시는 경우가 많았습니다.
특히 서비스가 상시 운영되고, 장애 발생시 비지니스에 큰 타격을 줄 수 있는 환경이라면, 더더욱 필요하실 거예요.
Statuspage
Dropbox에서 사용중인 스테이터스페이지입니다.
현재 드랍박스의 서비스가 어떤 상황인지 한눈에 볼 수 있어요. 이처럼 특정 사이트나 서비스에 문제가 있을경우, 고객은 장애 처리 상황을 스테이터스페이지를 통해 알수 있죠.
요즘은 회사내에서도 다양한 서비스들이 운용되다보니, 서비스에 장애가 날 경우 사용자들은 계속 문의하거나 처리 상황을 몰라서 답답함을 겪게 되는데요,
이럴때 스테이터스페이지 하나면 쉽고 편리하게 서비스 가동 상황을 전달 할수 있습니다.
(장애가 있을 경우 요렇게 보여줄수 있습니다.)
마무으~리
이렇게 복잡한 장애관리 프로세스가
옵스지니와 스테이터스페이지를 만나면,
이렇게 편리하게 바뀝니다.
본 시나리오가 실제 제품에서 어떻게 동작하는지 동영상으로 보시면 더 이해가 쉬우실꺼예요. https://youtube.com/embed/vsDtLFx-J1o
오늘은 장애대응으로 인해 불철주야 바쁜 IT팀에게 힘이되는 솔루션들에 대해 알아보았습니다.
더 궁금하신 점이 있거나, 제품 구매를 원하시면 언제든지 atlassian@osci.kr 로 연락 주세요!
아틀라시안 플래티넘파트너 오픈소스컨설팅이 함께 하겠습니다
좋은 하루 되세요! 뿅!