0423 晚上更新
最後sudo apt-get install nvidia-cuda-toolkit 應該是成功幫我們找回cuda.h跟nvcc6.5還有他的好朋友們(.so)
-----
過去一天太驚悚了~
首先是實驗主機的記憶體壞掉無法開機,
後來變成nvidia顯示卡無法launchkernel, 而且錯誤訊息是未知的錯誤@@ 代號1500多
而這時看看gui的部分, 整個畫面只有底線在左上角閃爍, 原本以為壞了, 結果透過ssh連線還是可以進去的.
...
經過外接顯卡盒確認顯示卡是好的之後,
就來處理作業系統的部分了
上網找了一些文章之後確定是driver的問題,
於是先從driver開始重新安裝
http://www.nvidia.com/Download/driverResults.aspx/114708/en-us
下載後要給他執行的權限
所以在ssh裡面下 chmod +x NVIDIA...
接著就可以sudo 執行他,
但是他會跟你說 要關掉xserver 還有nouveau driver,
xserver我透過 kill <PID> 可以達成 但是擋掉nouveau driver這個就有點困難.
後來參考到這篇
https://askubuntu.com/questions/112302/how-do-i-disable-the-nouveau-kernel-driver
融合下面兩個回答以及實際安裝driver時 安裝程序會問說要不要幫忙製造config 檔案來block
選擇後
sudoedit /etc/modprobe.d/nvidia-graphics-drivers.conf
然後貼上以下的文字
# This file was installed by nvidia-current-updates
# Do not edit this file manually
blacklist nouveau
blacklist lbm-nouveau
blacklist nvidia-173
blacklist nvidia-96
blacklist nvidia-current
blacklist nvidia-173-updates
blacklist nvidia-96-updates
alias nvidia nvidia_current_updates
alias nouveau off
alias lbm-nouveau off
然後下這個指令,
sudo update-initramfs -u
重開機
再次kill <xserverPID>, sudo stop lightdm , 然後sudo執行NVIDIA driver
接著就可以一路完成安裝啦~
進去後雖然nvidia-detector還是沒東西, 但是nvidia-smi 有看到我的顯示卡,
感覺已經妥當一半了, 接下來就是安裝CUDA了.
先記錄著
前面因為亂殺(apt-get pruge) 現在麻煩大了. 因為剛剛手殘去做apt-get install nvidia-current
結果好像把前面好不容易裝好的375版本driver蓋掉了, 連nvidia-smi都不見了...
而最早的cuda好像是6.5,現在執行之前build的程式會有這個警告
error while loading shared libraries: libcudart.so.6.5: cannot open shared object file: No such file or directory
先從7.5開始重新安裝 https://developer.nvidia.com/cuda-75-downloads-archive
安裝之後還是要重新開機. 沒有用.
後來繼續搜尋執行時的error code
找到這篇拯救世界
https://devtalk.nvidia.com/default/topic/760872/ubuntu-12-04-error-cudagetdevicecount-returned-30/
關鍵是這個 $ sudo update-alternatives --config x86_64-linux-gnu_gl_conf
選擇 prime的之後馬上就出現nvidia-smi之類的東西了
然後執行昨天build的cuda程式也可以如期執行
不過早期有6.5相依性的程式還是不能執行
留言列表