오류 메세지 혹은 현상
- 컨테이너 구동 후 tf.config.list_physical_devices('GPU') 명령어 확인 시 GPU를 찾지 못하는 현상
python -c "import tensorflow as tf; print(tf.config.list_physical_devices('GPU'));"
원인
- A100 GPU 장비 중 A100-SXM-80GB, HGX A100 모델의 경우 nvidia-fabric-manager가 설치 된 후 서비스가 구동이 되어야 GPU를 정상적으로 사용이 가능합니다.
문제 해결
- Nvidia driver에 맞는 nvidia-fabric-manager를 설치
# nvidia-fabric-manager 설치 dnf module install nvidia-driver:<driver-branch>/fm # rpm 다운로드 후 nvidia-fabric-manager 설치 시 dnf install nvidia-fabric-manager-xxx.xxx.xx-x.x86_64.rpm # daemon start systemctl start nvidia-fabricmanager
nvidia-fabric-manager rpm 파일을 nvidia driver 버전에 맞게 다운로드
https://pkgs.org/download/nvidia-fabricmanager
[참고 사이트]
https://forums.developer.nvidia.com/t/error-802-system-not-yet-initialized-cuda-11-3/234955
https://docs.nvidia.com/datacenter/tesla/hgx-software-guide/index.html#nvidia-fm
https://github.com/NVIDIA/yum-packaging-fabric-manager
https://docs.nvidia.com/datacenter/tesla/pdf/fabric-manager-user-guide.pdf
아티클이 유용했나요?
훌륭합니다!
피드백을 제공해 주셔서 감사합니다.
도움이 되지 못해 죄송합니다!
피드백을 제공해 주셔서 감사합니다.
피드백 전송
소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.