NUMA 불균형이 고성능 서버에서 만드는 성능 저하 사례와 완화하는 방법 총정리! 함께 알아보자

고성능 서버는 오늘날의 디지털 세상에서 데이터베이스, 가상화, 빅데이터 처리, 인공지능 모델 학습 등 수많은 중요한 작업을 처리하는 핵심 요소입니다. 이러한 서버의 성능을 극대화하기 위해서는 CPU, 메모리, 스토리지 등 모든 하드웨어 자원이 최적으로 활용되어야 합니다. 그중에서도 ‘NUMA(Non-Uniform Memory Access) 불균형’은 많은 고성능 서버 환경에서 간과하기 쉽지만, 심각한 성능 저하를 일으킬 수 있는 중요한 문제입니다.

이 가이드는 NUMA 불균형이 무엇이며, 왜 중요한지, 그리고 실제 환경에서 어떻게 성능을 저하시키는지, 그리고 이를 식별하고 완화하기 위한 실용적인 방법들을 일반 독자의 눈높이에서 설명합니다.

NUMA 불균형이란 무엇이며 왜 중요한가요

목차

먼저 NUMA가 무엇인지부터 이해해야 합니다. 최신 고성능 서버는 일반적으로 여러 개의 CPU 소켓을 가지고 있습니다. 각 CPU 소켓에는 자체적인 코어 집합과 메모리 컨트롤러가 있으며, 이 메모리 컨트롤러에 직접 연결된 메모리(Local Memory)가 존재합니다. 이렇게 CPU와 그에 연결된 로컬 메모리의 묶음을 ‘NUMA 노드’라고 부릅니다.

NUMA 아키텍처는 각 CPU가 자신에게 가장 가까운 메모리에 접근할 때 가장 빠른 속도를 보장하도록 설계되었습니다. 하지만 만약 어떤 CPU가 다른 NUMA 노드에 있는 메모리(Remote Memory)에 접근해야 한다면 어떻게 될까요? 이 경우, CPU는 고속 인터커넥트(예: Intel의 QPI 또는 UPI)를 통해 다른 NUMA 노드의 메모리 컨트롤러를 거쳐야 합니다. 이 과정은 로컬 메모리에 접근하는 것보다 훨씬 느리며, 이것이 바로 ‘NUMA 불균형’이 성능 저하를 일으키는 주된 원인입니다.

NUMA 불균형은 애플리케이션의 프로세스나 스레드가 특정 NUMA 노드의 CPU에서 실행되면서, 필요한 데이터는 다른 NUMA 노드의 메모리에 할당되어 있을 때 발생합니다. 이렇게 되면 원격 메모리 접근이 빈번해지고, 이는 곧 지연 시간 증가, 메모리 대역폭 감소, 캐시 일관성 유지 오버헤드 증가로 이어져 전체 시스템 성능을 크게 떨어뜨리게 됩니다.

NUMA 아키텍처의 기본 이해

NUMA 환경을 효과적으로 관리하려면 그 기본 구조를 이해하는 것이 중요합니다.

  • CPU 소켓과 코어 각 CPU 소켓은 독립적인 프로세서 유닛이며, 여러 개의 코어를 포함합니다.
  • 메모리 컨트롤러 각 CPU 소켓에는 자체 메모리 컨트롤러가 내장되어 있어, 해당 CPU에 직접 연결된 메모리를 관리합니다.
  • 로컬 메모리 특정 NUMA 노드의 CPU에 직접 연결되어, 해당 CPU가 가장 빠르게 접근할 수 있는 메모리입니다.
  • 원격 메모리 다른 NUMA 노드의 CPU에 연결된 메모리로, 접근 시 고속 인터커넥트를 통해야 하므로 로컬 메모리보다 느립니다.
  • 고속 인터커넥트 Intel의 QPI(QuickPath Interconnect) 또는 UPI(Ultra Path Interconnect)와 같은 기술로, NUMA 노드 간의 데이터 통신을 담당합니다. 이 링크의 대역폭과 지연 시간은 원격 메모리 접근 성능에 직접적인 영향을 미칩니다.

서버가 2개 이상의 CPU 소켓을 가지고 있다면, 거의 예외 없이 NUMA 아키텍처를 사용하고 있다고 볼 수 있습니다.

NUMA 불균형이 성능을 저하시키는 방식

NUMA 불균형은 다양한 방식으로 서버 성능에 부정적인 영향을 미칩니다.

  • 원격 메모리 접근 지연 시간 증가

    가장 직접적인 영향입니다. CPU가 자신의 로컬 메모리가 아닌 다른 NUMA 노드의 메모리에 접근할 때, 데이터가 물리적으로 더 먼 거리를 이동해야 합니다. 이로 인해 메모리 접근 지연 시간이 수십에서 수백 나노초 이상 증가할 수 있으며, 이는 초당 수십억 번의 연산을 수행하는 CPU에게는 엄청난 병목 현상으로 작용합니다.

  • 인터노드 링크 대역폭 소모

    여러 CPU가 동시에 다른 NUMA 노드의 메모리에 빈번하게 접근하면, NUMA 노드 간의 고속 인터커넥트(QPI/UPI)의 대역폭이 포화될 수 있습니다. 이는 마치 고속도로에 차량이 너무 많아 정체가 발생하는 것과 같아서, 모든 원격 메모리 접근이 느려지고 전체 시스템의 처리량이 감소합니다.

  • 캐시 일관성 오버헤드 증가

    NUMA 환경에서는 각 CPU 코어의 캐시 메모리(L1, L2, L3) 간의 데이터 일관성을 유지하는 것이 더욱 복잡해집니다. 원격 메모리 접근이 많아지면 캐시 라인의 소유권 이전 및 동기화 작업이 빈번해지고, 이는 CPU 코어에 추가적인 오버헤드를 발생시켜 유효 작업 시간을 줄입니다.

  • 리소스 경합 및 불균형

    특정 NUMA 노드에 작업 부하가 집중되거나, 한 NUMA 노드의 메모리가 다른 노드에 비해 과도하게 사용되면, 전반적인 리소스 불균형이 발생합니다. 이는 일부 CPU 코어는 한가하고 다른 코어는 병목 현상에 시달리는 상황을 초래하여, 서버의 전체적인 유틸리티를 떨어뜨립니다.

실제 환경에서의 NUMA 불균형 사례

NUMA 불균형은 다양한 고성능 환경에서 발생하며, 그 영향은 매우 큽니다.

  • 가상화 환경

    가상 머신(VM)이 NUMA 노드의 경계를 넘어 할당되거나, VM의 vCPU와 메모리가 물리적인 NUMA 노드와 정렬되지 않을 때 발생합니다. 예를 들어, 12코어, 64GB 메모리를 가진 VM이 2개의 10코어, 32GB 메모리 NUMA 노드를 가진 물리적 서버에 배포될 경우, VM의 vCPU와 메모리가 두 NUMA 노드에 걸쳐 할당되어 원격 메모리 접근이 불가피해질 수 있습니다. 이는 VM의 성능을 크게 저하시킵니다.

  • 데이터베이스 서버

    데이터베이스 시스템은 대규모 버퍼 풀(Buffer Pool)이나 캐시를 메모리에 유지하는 경우가 많습니다. 만약 이 버퍼 풀이 여러 NUMA 노드에 걸쳐 분산되어 있고, 데이터베이스 쿼리를 처리하는 스레드가 원격 메모리에 있는 데이터 블록에 자주 접근한다면, 쿼리 응답 시간이 현저히 길어질 수 있습니다. 특히 OLTP(Online Transaction Processing)와 같이 지연 시간에 민감한 워크로드에서 치명적입니다.

  • 빅데이터 및 인메모리 컴퓨팅

    Apache Spark, Hadoop, Redis와 같은 인메모리 데이터 처리 시스템은 대량의 데이터를 메모리에 로드하여 처리합니다. 이러한 시스템에서 데이터가 NUMA 노드에 걸쳐 불균형하게 분산되거나, 데이터를 처리하는 작업자(Worker)가 데이터가 있는 노드가 아닌 다른 노드에서 실행될 경우, 데이터 이동 및 원격 접근으로 인해 작업 완료 시간이 길어지고 처리량이 감소합니다.

  • 고성능 컴퓨팅 HPC

    과학 시뮬레이션이나 복잡한 수치 계산을 수행하는 HPC 애플리케이션은 종종 대규모 병렬 처리를 사용하고 메모리 접근 패턴이 매우 집약적입니다. NUMA 불균형은 이러한 애플리케이션의 스케일업 성능을 제한하고, 계산 완료 시간을 늘려 연구 및 개발 효율성을 저해합니다.

NUMA 불균형을 식별하는 방법

NUMA 불균형을 해결하기 위해서는 먼저 현재 시스템의 NUMA 상태를 파악하는 것이 중요합니다. 리눅스 환경에서 유용한 도구들을 소개합니다.

  • numactl

    numactl은 NUMA 아키텍처 정보를 확인하고, 프로세스의 NUMA 정책을 설정하는 데 사용되는 핵심 도구입니다.

    $ numactl --hardware

    이 명령어를 실행하면 시스템의 NUMA 노드 수, 각 노드의 CPU 코어, 메모리 크기 및 노드 간의 거리(latency) 정보를 확인할 수 있습니다. 특히 ‘distance’ 값은 각 노드에서 다른 노드까지의 상대적인 메모리 접근 비용을 나타냅니다.

  • numastat

    numastat은 NUMA 노드별 메모리 사용량 및 접근 통계를 제공하여, 불균형 여부를 판단하는 데 도움을 줍니다.

    $ numastat -m

    이 명령어는 각 NUMA 노드에서 할당된 메모리, 로컬 접근(Hit), 원격 접근(Miss), 그리고 다른 노드에서 접근된 메모리(Foreign) 등의 상세 통계를 보여줍니다. ‘Miss’나 ‘Foreign’ 수치가 높다면 원격 메모리 접근이 빈번하게 발생하고 있다는 강력한 증거입니다.

    $ numastat -p <PID>

    특정 프로세스(PID)에 대한 NUMA 통계를 확인할 수도 있습니다.

  • lscpu

    lscpu 명령어도 CPU 아키텍처와 함께 NUMA 노드 정보를 간략하게 보여줍니다.

    $ lscpu | grep NUMA
  • 운영체제 모니터링 도구

    top, htop과 같은 도구로 CPU 사용률을 모니터링하면서, 특정 프로세스나 스레드가 어떤 CPU 코어에서 실행되고 있는지 확인하고, 해당 코어가 속한 NUMA 노드와 메모리 사용량을 비교해볼 수 있습니다.

  • 벤더별 도구

    VMware vCenter Server, Intel VTune Amplifier, AMD uProf와 같은 가상화 플랫폼 또는 프로파일링 도구는 NUMA 관련 성능 지표를 시각적으로 제공하여 문제 식별을 돕습니다.

NUMA 불균형 완화 전략

NUMA 불균형을 해결하기 위한 접근 방식은 크게 애플리케이션, 운영체제, 가상화 계층에서 이루어질 수 있습니다.

애플리케이션 수준 최적화

  • NUMA 인식 애플리케이션 설계

    가장 이상적인 방법은 애플리케이션 자체가 NUMA 아키텍처를 인식하도록 설계하는 것입니다. 이는 데이터와 이를 처리하는 스레드를 동일한 NUMA 노드에 배치(데이터 지역성)하도록 메모리 할당 및 스레드 스케줄링 로직을 구현하는 것을 의미합니다. 예를 들어, 대규모 배열이나 데이터 구조를 할당할 때, 해당 데이터를 주로 사용하는 CPU 코어가 있는 NUMA 노드에 할당하도록 명시적으로 지정할 수 있습니다.

  • 프로세스 및 스레드 선호도(Affinity) 설정

    numactl 명령어를 사용하여 특정 프로세스나 스레드를 특정 NUMA 노드의 CPU 코어에 고정(pinning)하고, 해당 노드의 메모리만 사용하도록 설정할 수 있습니다.

    $ numactl --cpunodebind=0 --membind=0 <애플리케이션>

    이 명령어는 <애플리케이션>을 NUMA 노드 0의 CPU에서 실행하고, 메모리 또한 NUMA 노드 0에서만 할당하도록 지시합니다. 이는 원격 메모리 접근을 원천적으로 차단하여 성능을 크게 향상시킬 수 있습니다.

  • 메모리 할당 정책 조정

    numactl은 다양한 메모리 할당 정책을 제공합니다.

    • --localalloc: 가능한 경우 현재 실행 중인 CPU가 속한 NUMA 노드에서 메모리를 할당합니다.
    • --membind=<nodes>: 지정된 NUMA 노드에서만 메모리를 할당합니다.
    • --interleave=<nodes>: 지정된 NUMA 노드들에 메모리를 인터리브(번갈아) 할당하여, 여러 노드의 메모리를 고르게 사용합니다. 이는 단일 노드에 데이터가 너무 커서 모두 담을 수 없을 때 유용할 수 있지만, 원격 접근 가능성을 높입니다.

운영체제 수준 구성

  • NUMA 자동 균형 조정 비활성화

    리눅스 커널은 기본적으로 numa_balancing 기능을 제공하여, 실행 중인 프로세스의 메모리 접근 패턴을 분석하고 자동으로 프로세스를 다른 NUMA 노드로 마이그레이션하여 메모리 지역성을 개선하려고 시도합니다. 그러나 특정 워크로드에서는 이러한 자동화된 마이그레이션이 오히려 성능 저하를 유발할 수 있습니다. 특히 애플리케이션이 이미 NUMA를 인식하고 자체적으로 최적화되어 있는 경우, 커널의 자동 균형 조정을 비활성화하는 것이 더 나을 수 있습니다.

    $ echo 0 > /proc/sys/kernel/numa_balancing

    또는 부팅 시 커널 파라미터로 numa_balancing=disable을 추가합니다.

  • 스케줄러 튜닝

    리눅스 스케줄러는 NUMA 토폴로지를 인식하고 스레드를 적절한 NUMA 노드에 배치하려고 노력하지만, 항상 최적의 결과를 보장하지는 않습니다. 특정 워크로드에 따라 스케줄러의 동작 방식을 튜닝하여 NUMA 지역성을 개선할 수 있습니다.

가상화 계층 최적화

  • NUMA 인식 VM 배치

    VMware ESXi, KVM, Hyper-V와 같은 하이퍼바이저는 물리적 서버의 NUMA 토폴로지를 인식합니다. 가상 머신을 생성하거나 마이그레이션할 때, VM의 vCPU와 메모리 요구 사항을 물리적 NUMA 노드의 용량에 맞춰 정렬하는 것이 중요합니다. 예를 들어, 단일 NUMA 노드의 용량을 초과하지 않도록 VM의 vCPU 및 메모리 크기를 조정합니다.

  • vNUMA(Virtual NUMA) 구성

    대규모 VM의 경우, 하이퍼바이저가 게스트 OS에 물리적 NUMA 토폴로지를 그대로 또는 최적화된 형태로 노출할 수 있습니다. 이를 vNUMA라고 합니다. vNUMA를 사용하면 게스트 OS와 그 안에서 실행되는 애플리케이션이 NUMA를 인식하고 자체적으로 최적화할 수 있도록 하여, 성능 저하를 최소화할 수 있습니다.

흔한 오해와 사실 관계

  • “NUMA를 비활성화하면 모든 문제가 해결된다”

    오해 NUMA를 비활성화하는 옵션(예: BIOS에서 Node Interleaving 활성화 또는 커널 파라미터 numa=off)이 있지만, 이는 시스템의 모든 메모리를 균일한 메모리(UMA)처럼 다루게 만듭니다. 결과적으로 로컬 메모리 접근의 이점을 상실하고, 모든 메모리 접근이 인터노드 링크를 통해 이루어지는 것과 유사한 지연 시간을 가질 수 있습니다. 이는 대부분의 고성능 워크로드에서 오히려 심각한 성능 저하를 초래합니다. NUMA를 이해하고 최적화하는 것이 올바른 접근 방식입니다.

    사실 NUMA를 비활성화하는 것은 일반적으로 권장되지 않습니다. NUMA 아키텍처는 고성능을 위해 설계된 것이므로, 이를 최대한 활용하는 것이 중요합니다.

  • “RAM을 더 추가하면 성능 문제가 해결된다”

    오해 메모리 용량 부족이 문제라면 RAM 추가가 도움이 되지만, NUMA 불균형으로 인한 성능 저하는 단순히 RAM 용량을 늘린다고 해결되지 않습니다. 오히려 추가된 RAM이 NUMA 노드에 걸쳐 불균형하게 할당되거나 원격 접근이 더 많아지면, 문제가 악화될 수도 있습니다.

    사실 메모리 용량과 NUMA 지역성은 별개의 문제입니다. NUMA 불균형은 효율적인 메모리 접근 패턴과 관련이 있습니다.

  • “NUMA 최적화는 슈퍼컴퓨터에서나 필요한 고급 기술이다”

    오해 과거에는 HPC(고성능 컴퓨팅) 분야에서 주로 논의되었지만, 오늘날 대부분의 듀얼 소켓 이상의 서버는 NUMA 아키텍처를 사용합니다. 데이터베이스, 가상화, 빅데이터, 컨테이너 환경 등 일반적인 엔터프라이즈 워크로드에서도 NUMA 불균형은 상당한 성능 저하를 일으킬 수 있습니다.

    사실 NUMA 최적화는 모든 다중 소켓 서버 환경에서 중요하며, 성능에 민감한 애플리케이션이라면 반드시 고려해야 합니다.

전문가 팁과 조언

  • 기준선 설정 및 반복적인 테스트

    NUMA 최적화를 시작하기 전에 반드시 현재 시스템의 성능 기준선(Baseline)을 측정하세요. 그리고 한 번에 하나의 변경 사항만 적용하고, 그 결과를 다시 측정하여 변화의 효과를 정확히 파악해야 합니다. 이는 어떤 최적화가 효과적이었는지, 또는 오히려 성능을 저하시켰는지 판단하는 데 필수적입니다.

  • 워크로드 특성 이해

    운영 중인 애플리케이션이 CPU 집약적인지, 메모리 집약적인지, 아니면 I/O 집약적인지 정확히 이해해야 합니다. 메모리 접근이 잦은 워크로드(예: 인메모리 데이터베이스)일수록 NUMA 불균형의 영향을 크게 받으므로, NUMA 최적화에 더 많은 노력을 기울여야 합니다.

  • 애플리케이션 벤더 가이드 참조

    많은 엔터프라이즈 애플리케이션(예: Oracle Database, SAP HANA, VMware vSphere)은 NUMA 환경에서의 최적화 가이드라인을 제공합니다. 애플리케이션 벤더의 공식 문서를 참조하여 권장되는 NUMA 설정 및 모범 사례를 따르는 것이 가장 안전하고 효과적인 방법입니다.

  • 모니터링의 생활화

    NUMA 관련 지표(numastat 출력 등)를 정기적으로 모니터링하여, 잠재적인 불균형 징후를 조기에 발견하고 대응하는 습관을 들이세요.

비용 효율적인 NUMA 활용 방법

NUMA 최적화는 대부분 추가적인 하드웨어 투자 없이 소프트웨어 설정 변경만으로 이루어지므로, 매우 비용 효율적인 성능 개선 방법입니다.

  • 기존 하드웨어의 재활용 및 성능 극대화

    새로운 CPU나 더 많은 RAM을 구매하기 전에, 현재 사용 중인 서버의 NUMA 구성을 최적화함으로써 기존 하드웨어의 잠재력을 최대한 끌어낼 수 있습니다. 이는 하드웨어 업그레이드 비용을 절감하면서도 성능을 향상시키는 가장 좋은 방법 중 하나입니다.

  • 오픈 소스 및 기본 제공 도구 활용

    numactl, numastat과 같은 리눅스 기본 제공 도구들은 무료로 사용할 수 있으며, NUMA 불균형을 진단하고 해결하는 데 매우 강력합니다. 이러한 도구들을 숙지하고 활용하는 것만으로도 상당한 개선을 이룰 수 있습니다.

  • 프로액티브한 설계

    새로운 애플리케이션을 개발하거나 기존 시스템을 구축할 때, 처음부터 NUMA 아키텍처를 고려하여 설계하는 것이 중요합니다. 이는 나중에 발생할 수 있는 성능 문제를 미리 방지하고, 최적화에 드는 시간과 노력을 줄여줍니다.

  • 가상화 환경에서의 스마트한 VM 배치

    가상화 환경에서는 하이퍼바이저의 NUMA 스케줄링 정책을 이해하고, VM의 vCPU와 메모리 구성을 물리적 NUMA 노드에 맞춰 최적화하는 것만으로도 VM의 성능을 크게 향상시킬 수 있습니다. 이는 라이선스 비용이 드는 추가적인 가상화 기능 없이도 달성 가능한 개선입니다.

자주 묻는 질문

  • 내 서버가 NUMA 아키텍처를 사용하는지 어떻게 알 수 있나요

    대부분의 최신 서버, 특히 듀얼 소켓(CPU 2개) 이상을 사용하는 서버는 NUMA 아키텍처를 채택하고 있습니다. 리눅스에서는 lscpu 명령어를 실행한 후 ‘NUMA node(s)’ 항목을 확인하거나, numactl --hardware 명령어를 통해 상세한 NUMA 토폴로지 정보를 확인할 수 있습니다.

  • 모든 프로세스를 단일 NUMA 노드에 고정해야 하나요

    항상 그렇지는 않습니다. 단일 NUMA 노드에 프로세스를 고정하는 것은 해당 프로세스가 필요로 하는 데이터와 CPU 코어가 모두 한 노드에 있을 때 가장 효과적입니다. 하지만 애플리케이션의 메모리 요구량이 단일 NUMA 노드의 용량을 초과하거나, 여러 NUMA 노드의 CPU를 동시에 활용해야 하는 병렬 워크로드의 경우, 여러 노드에 걸쳐 프로세스를 분산 배치해야 할 수도 있습니다. 이 경우에도 데이터 지역성을 최대한 유지하도록 신중하게 계획해야 합니다.

  • NUMA 불균형으로 인한 성능 저하율은 어느 정도인가요

    성능 저하율은 워크로드의 특성, 원격 메모리 접근 빈도, 데이터 접근 패턴, NUMA 노드 간의 거리(지연 시간) 등 여러 요인에 따라 크게 달라집니다. 가벼운 워크로드에서는 눈에 띄지 않을 수도 있지만, 메모리 집약적인 워크로드에서는 10%에서 50% 이상, 심지어는 몇 배의 성능 저하를 경험할 수도 있습니다. 따라서 실제 환경에서 측정하고 최적화하는 것이 중요합니다.

  • NUMA 최적화는 개발자만 해야 하는 작업인가요

    그렇지 않습니다. 애플리케이션 개발 단계에서 NUMA를 인식하도록 설계하는 것이 가장 좋지만, 운영체제 관리자나 가상화 관리자도 NUMA 노드에 맞춰 워크로드를 배치하고 시스템 설정을 조정하여 성능을 크게 개선할 수 있습니다. 즉, 개발자, 관리자 모두 NUMA에 대한 이해가 필요합니다.

이 게시물이 얼마나 유용했습니까?

평점을 매겨주세요.

평균 평점 0 / 5. 투표 수 : 0

가장 먼저 게시물을 평가해보세요.

댓글 남기기