A100 장비에서 컨테이너 구동 후 GPU 찾지 못하는 현상

작성자 김효상 수정일 2023-06-02 18:16

오류 메세지 혹은 현상

컨테이너 구동 후 tf.config.list_physical_devices('GPU') 명령어 확인 시 GPU를 찾지 못하는 현상
```
python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'));"
```

원인

A100 GPU 장비 중 A100-SXM-80GB, HGX A100 모델의 경우 nvidia-fabric-manager가 설치 된 후 서비스가 구동이 되어야 GPU를 정상적으로 사용이 가능합니다.

문제 해결

Nvidia driver에 맞는 nvidia-fabric-manager를 설치

# nvidia-fabric-manager 설치
dnf module install nvidia-driver:<driver-branch>/fm

# rpm 다운로드 후 nvidia-fabric-manager 설치 시
dnf install nvidia-fabric-manager-xxx.xxx.xx-x.x86_64.rpm

# daemon start
systemctl start nvidia-fabricmanager

nvidia-fabric-manager rpm 파일을 nvidia driver 버전에 맞게 다운로드

https://pkgs.org/download/nvidia-fabricmanager

[참고 사이트]

https://learn.microsoft.com/en-us/azure/machine-learning/data-science-virtual-machine/reference-known-issues?view=azureml-api-2

https://forums.developer.nvidia.com/t/error-802-system-not-yet-initialized-cuda-11-3/234955

https://forums.developer.nvidia.com/t/cuda-device-not-initialized-error-on-all-calls-hgx-a100-centos-7/193483

https://www.alibabacloud.com/help/en/elastic-gpu-service/latest/install-a-gpu-driver-on-a-linux-gpu-accelerated-compute-optimized-instance

https://developer.nvidia.com/blog/streamlining-nvidia-driver-deployment-on-rhel-8-with-modularity-streams

https://docs.nvidia.com/datacenter/tesla/hgx-software-guide/index.html#nvidia-fm

https://github.com/NVIDIA/yum-packaging-fabric-manager
https://docs.nvidia.com/datacenter/tesla/pdf/fabric-manager-user-guide.pdf