DevOps Linux Open Source

[Linux] sar를 이용한 이슈 분석 사례

강주희

2023년 08월 11일
5 min read
/var/log/sa resource usage sar sysstat system activity report

개요
본문
요약 및 정리

안녕하세요. 저희는 오픈소스컨설팅 리눅스팀 입니다. 저희는 리눅스 및 관련 솔루션에 대해 기술지원을 하고 있습니다.

이번 글에서는 서버 모니터링을 위한 여러 툴 중에서도 기본적으로 많이 사용하시는 sar에 대해 다뤄보려고 합니다.

리눅스 서버를 운영하다보면 리소스 사용량을 확인해야 할 경우가 있는데요.

리소스 사용량 그 자체에 대한 리포팅
시스템 문제 분석

이러한 경우 대부분의 리눅스 배포판에 설치되는 sar 를 활용하면 서버에서 사용되는 자원의 사용량을 정확하게 파악 할 수 있습니다.

sar 외에도 많은 유용한 도구들이 있지만, sar 는 이미 설치되어 있거나 기본 리포지토리에서 가져올 수 있어서 분석을 빠르게 시작할 수 있다는 장점이 있습니다.

sar 는 system activity report 명령 도구입니다. 현재 사용량 뿐 아니라, 시스템에 예약작업으로 등록되어 있어서 리소스 사용량을 일정 주기마다 기록/저장하여 이전의 상태와 변화 추이를 확인할 수 있다는 장점이 있습니다.

일반적으로는 OS 설치하면서 같이 설치되는 경우가 많지만, minimal 수준으로 설치하실 경우 설치가 되어 있지 않을 수 있습니다.

그런 경우에는 당황하지 마시고 sysstat 이라는 패키만 설치해 주시면 바로 사용이 가능하니 이점 꼭 기억하시기 바랍니다.

sar를 사용할 때 여러 option을 주어서 다양한 정보를 확인 할 수 있는데요.

실제 이슈 케이스에 따라 어떤 field를 확인하고 분석할 수 있는지 알아보도록 하겠습니다.

Memory 100% , Reboot
이 사례는 시스템이 메모리를 100% 사용 한 후 reboot 된 상황이고,
sar 데이타를 통해 부하의 원인 분석을 진행 하였습니다.
sar 데이타는 11:25:04 AM을 마지막으로 더 이상 찍히지 않았고, 이후 시스템은 리부팅 되었습니다.
참고로, 이 사례에서 sar 는 1분 단위로 수집 되었습니다.
이 시스템의 OS는 RHEL7 입니다.

Memory 사용 정보 확인 (-r)

우선 sar 의 메모리 정보를 확인해 보겠습니다.

메모리 정보를 확인하는 여러 옵션 중에서 일단 -r 옵션을 통해서, 확인해 보겠습니다.

위에서 주목할 필드는 kbactive 와 %memused 입니다. 필드를 설명하면,
- kbactive : 프로세스에 의해서, 비교적 최근에 메모리로 로드된 메모리 공간의 크기를 의미하며, kilobyte 단위의 표시입니다. 최근에 로드된 메모리는 프로세스에서 사용하는 부분일 수 있으므로, 다른 프로세스의 메모리 요청시에도 되도록이면 이 영역에서는 잘 회수되지 않습니다.
- %memused : 현재 시스템의 전체 메모리 중에 사용중인 메모리의 비율을 표시합니다.
11:21:54 AM 시점을 보면, 메모리 사용률(kbmemused)가 99%를 달성하였습니다. 그리고, kbactive 값이 크게 약 9GB 수준에서 28GB 수준으로 증가하였습니다. 이는, 어떤 프로세스에 의해서 메모리 요청이 급증한 것으로 볼 수 있습니다.
하지만 이 데이터만으로는 해당 시점에 메모리가 부족했다고 판단하기는 좀 부족한 것 같습니다.

Page 사용 정보 확인 (-B)

추가적인 메모리 분석을 위해, -B 옵션을 통해서 page 사용 정보를 확인해 보겠습니다.

여기서 확인할 필드들은 모두 의미가 있습니다.
- pgpgin/s : 초당 시스템이 디스크에서 페이징한 총 킬로바이트 수입니다.
- pgpgout/s : 초당 시스템이 디스크로 페이징 아웃한 총 킬로바이트 수입니다.
- pgfree/s : 초당 시스템에서 사용 가능한 목록에 배치한 페이지 수입니다.
- pgscank/s : kswapd 데몬이 초당 스캔한 페이지 수입니다.
- pgscand/s : 초당 직접 스캔한 페이지 수입니다
- pgsteal/s : 메모리 요구를 충족하기 위해 시스템이 초당 캐시(페이지 캐시 및 스왑 캐시)에서 재확보한 페이지 수입니다.
- %vmeff : pgsteal / pgscan으로 계산되는 이것은 페이지 회수 효율성의 지표입니다.
11:21:54 AM 부터 pgpgin/s 와 pgpgout/s 가 크게 증가한 것을 보아 디스크를 읽고 쓰는 작업이 다량 발생한 것을 알 수 있습니다. 위의 sar -r 에서 같은 시점에 kbactive 값처럼 메모리가 급증하고 page in/out 으로 메모리와 디스크간의 I/O 가 많이 일어난 것으로 보입니다.
같은 시점에 %vmeff 는 24.03%을 기록하였습니다. %vmeff 는 pgsteal (페이지 재사용) / pgscan (페이지 스캔) 의 비율이며, 페이지 재사용 효율을 백분율로 보여줍니다.
즉, %vmeff 를 통해서 프로세스의 메모리 요청으로 필요한 만큼 메모리를 회수했는지를 알 수 있습니다. 모든 페이지를 회수하는 상태는 100%이며, 페이지 스캔이 없는 경우에는 0% 으로 표시됩니다. 이 값은 0% 이거나 100% 에 가까워야 정상입니다. 만약 100%보다 낮은 수치가 있을 경우에는 메모리 할당 요청을 하였으나, 원하는 시간 내에 처리 되지 않았을 가능성이 있습니다.
11:25:04 AM 에 24.03% 라는 것은 필요한 메모리 할당이 늦어졌다는 의미이며 메모리가 부족한 상태였음을 알 수 있습니다. 그리고 메모리와 디스크간의 I/O가 많았음을 추정해 볼 수 있습니다.

Swap 사용 정보 확인 (-S)

메모리가 부족한 상황에서의, 디스크 I/O 라면 swap In/Out 이 발생했을 수도 있습니다.
-S 옵션을 통해서, swap 공간의 사용량을 확인해 보겠습니다.

여기서 볼만한 필드는 %swpused 입니다.
- %swpused : 사용중인 swap 메모리 크기
11:21:54 AM 메모리 사용량이 99.71% 까지 증가한 후에 11:21:54 AM 부터, 11:25:04 AM 까지 swap 사용률(%swpused)도 0% → 100%로 증가하였습니다.
최종적으로 메모리 사용률(kbmemused) 과 swap 사용률(%swpused)이 100% 가까이 증가하였고, %vmeff 값을 통해 필요한 메모리 할당이 원하는 시간 내에 처리되지 않았음을 알 수 있습니다. 따라서 시스템의 메모리가 부족한 상황이였음을 알 수 있습니다.

기타 리소스 사용 정보 (CPU usage)

이제 CPU 부하와 run queue를 확인해보겠습니다.

-u 옵션으로 CPU 부하를 확인할 수 있습니다.

여기서 확인해 볼 필드는 %iowait 입니다.
%iowait : 프로세스가 디스크 I/O 요청으로 대기 상태에 있었던 시간의 백분율
%iowait의 수치가 11:21:54 AM 기점으로 크게 증가하였습니다. 이는 I/O 요청으로 대기 중인 상태인 프로세스가 증가하였고, 디스크 액세스가 발생하고 있다고 있다는 것을 알 수 있습니다.
sar -B에서도 디스크 I/O가 많이 발생했다는 것을 확인하였지만 sar -u 로도 프로세스의 I/O 요청이 많았다는 것을 확인할 수 있습니다.

기타 리소스 사용 정보 (process queue)

-q 옵션으로 큐(run queue) 길이와 Load Averages를 확인할 수 있습니다.

여기서 확인해볼 필드는 runq-sz와 blocked 입니다.
- runq-sz : 런타임에 실행되기 위해 대기 중인 프로세스 수
- blocked : I/O 요청이 완료되기를 기다리는 프로세스 수
11:25:04 AM 에 runq-sz 가 33이며 대기열에 프로세스가 많이 쌓여 있는 것을 알 수 있습니다.
blocked는 I/O가 완료되기를 기다리는 프로세스 수를 의미하기 때문에 이 수치가 11:20:01 AM ~ 11:21:54 AM 에 4에서 61까지 증가한 것으로 보아 I/O 요청이 많았다고 추측할 수 있습니다.
다량의 디스크 I/O 요청으로 swap을 포함한 메모리 사용이 100%까지 증가하였고, 이로 인해 CPU에서 프로세스를 처리하지 못해 큐에 프로세스가 많이 쌓였다고 추측해 볼 수 있습니다.

분석 결과

sar 의 -r , -B 옵션을 통해서 memory usage 와 process 의 memory 요청이 급증한 것을 확인하였습니다.그리고, sar -S 로 memory 가 부족으로 인한 swap used 증가를 확인했습니다.그 이후에는 sar 정보나 kernel dump 등이 발생하지는 못하였지만,
계속적인 memory 부족이 process 수행이나 block I/O 동작등의 지연을 유발하고 그로 인해 전체적인 시스템 동작 문제로 kernel 이 시스템을 reboot 했을 것으로 추정할 수 있을 것 같습니다.

Memory Usage 증가와 같은 사례는 시스템 메모리가 증가된 원인 확인이 필요했고, sar 를 통해 메모리 변화 등을 통해 어떠한 특이사항이 있는지 확인해 보고자 분석을 진행하였습니다. 참고로, 이 사례에서 sar 는 1분 단위로 수집되었습니다. 이 시스템의 OS는 RHEL6 입니다.