A100 장비에서 컨테이너 구동 후 GPU 찾지 못하는 현상

작성자 김효상 수정일 2023-06-02 18:16

#A100

오류 메세지 혹은 현상
  • 컨테이너 구동 후  tf.config.list_physical_devices('GPU') 명령어 확인 시 GPU를 찾지 못하는 현상  
    python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'));"



원인
  • A100 GPU 장비 중 A100-SXM-80GB, HGX A100 모델의 경우 nvidia-fabric-manager가 설치 된 후 서비스가 구동이 되어야 GPU를 정상적으로 사용이 가능합니다.


문제 해결
  • Nvidia driver에 맞는 nvidia-fabric-manager를 설치
    # nvidia-fabric-manager 설치
    dnf module install nvidia-driver:<driver-branch>/fm
    
    # rpm 다운로드 후 nvidia-fabric-manager 설치 시
    dnf install nvidia-fabric-manager-xxx.xxx.xx-x.x86_64.rpm
    
    # daemon start
    systemctl start nvidia-fabricmanager


nvidia-fabric-manager rpm 파일을 nvidia driver 버전에 맞게 다운로드 

https://pkgs.org/download/nvidia-fabricmanager


[참고 사이트]

https://learn.microsoft.com/en-us/azure/machine-learning/data-science-virtual-machine/reference-known-issues?view=azureml-api-2

https://forums.developer.nvidia.com/t/error-802-system-not-yet-initialized-cuda-11-3/234955

https://forums.developer.nvidia.com/t/cuda-device-not-initialized-error-on-all-calls-hgx-a100-centos-7/193483

https://www.alibabacloud.com/help/en/elastic-gpu-service/latest/install-a-gpu-driver-on-a-linux-gpu-accelerated-compute-optimized-instance

https://developer.nvidia.com/blog/streamlining-nvidia-driver-deployment-on-rhel-8-with-modularity-streams

https://docs.nvidia.com/datacenter/tesla/hgx-software-guide/index.html#nvidia-fm

https://github.com/NVIDIA/yum-packaging-fabric-manager
https://docs.nvidia.com/datacenter/tesla/pdf/fabric-manager-user-guide.pdf

아티클이 유용했나요?

훌륭합니다!

피드백을 제공해 주셔서 감사합니다.

도움이 되지 못해 죄송합니다!

피드백을 제공해 주셔서 감사합니다.

아티클을 개선할 수 있는 방법을 알려주세요!

최소 하나의 이유를 선택하세요
CAPTCHA 확인이 필요합니다.

피드백 전송

소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.

02-558-8300