모델 학습 진행 중 CUDA 관련 에러가 이것저것 발생했다.
RuntimeError: cusolver error: CUSOLVER_STATUS_INTERNAL_ERROR, when calling `cusolverDnCreate(handle)`
실행환경 : Ubuntu 18.04, CUDA 10.2
동일 환경인 다른 PC에서는 정상 작동했는데 특정 서버에서만 오류가 발생했다.
위의 에러 말고도 유사한 에러가 계속 발생했는데 명확한 해답이 없어 이것저것 시도해보다 보니 결국 nvidia driver의 문제였다.
1. 기존 nvidia-driver 제거
sudo apt --purge autoremove nvidia*
2. recommended driver 버전 확인 : 아래 명령을 입력하면 여러
ubuntu-drivers devices
3. recommended 버전 설치
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
아래 명령으로 apt 드라이버 설치 패키지명 검색
apt-cache search nvidia | grep nvidia-driver-5**
아래 명령으로 recommended version의 드라이버 설치 (5**은 본인 recommended 버전으로 진행하세요.)
sudo apt-get install nvidia-driver-5**