0423 晚上更新
最後sudo apt-get install nvidia-cuda-toolkit 應該是成功幫我們找回cuda.h跟nvcc6.5還有他的好朋友們(.so)

-----

過去一天太驚悚了~

首先是實驗主機的記憶體壞掉無法開機,
後來變成nvidia顯示卡無法launchkernel, 而且錯誤訊息是未知的錯誤@@ 代號1500多

而這時看看gui的部分, 整個畫面只有底線在左上角閃爍, 原本以為壞了, 結果透過ssh連線還是可以進去的. 

...

經過外接顯卡盒確認顯示卡是好的之後,
就來處理作業系統的部分了

上網找了一些文章之後確定是driver的問題,
於是先從driver開始重新安裝

http://www.nvidia.com/Download/driverResults.aspx/114708/en-us

下載後要給他執行的權限

所以在ssh裡面下 chmod +x NVIDIA...  

接著就可以sudo 執行他,

但是他會跟你說 要關掉xserver 還有nouveau driver,

xserver我透過 kill  <PID> 可以達成 但是擋掉nouveau driver這個就有點困難.

後來參考到這篇

https://askubuntu.com/questions/112302/how-do-i-disable-the-nouveau-kernel-driver

融合下面兩個回答以及實際安裝driver時 安裝程序會問說要不要幫忙製造config 檔案來block 
選擇後

sudoedit /etc/modprobe.d/nvidia-graphics-drivers.conf 
然後貼上以下的文字

# This file was installed by nvidia-current-updates
# Do not edit this file manually

blacklist nouveau
blacklist lbm-nouveau
blacklist nvidia-173
blacklist nvidia-96
blacklist nvidia-current
blacklist nvidia-173-updates
blacklist nvidia-96-updates
alias nvidia nvidia_current_updates
alias nouveau off
alias lbm-nouveau off

然後下這個指令,
sudo update-initramfs -u
重開機

再次
kill <xserverPID>, sudo stop lightdm , 然後sudo執行NVIDIA driver

接著就可以一路完成安裝啦~

進去後雖然nvidia-detector還是沒東西, 但是nvidia-smi 有看到我的顯示卡,

感覺已經妥當一半了, 接下來就是安裝CUDA了.

先記錄著

前面因為亂殺(apt-get pruge)  現在麻煩大了.  因為剛剛手殘去做apt-get install nvidia-current 
結果好像把前面好不容易裝好的375版本driver蓋掉了, 連nvidia-smi都不見了...


而最早的cuda好像是6.5,現在執行之前build的程式會有這個警告  
error while loading shared libraries: libcudart.so.6.5: cannot open shared object file: No such file or directory
 

先從7.5開始重新安裝 https://developer.nvidia.com/cuda-75-downloads-archive

安裝之後還是要重新開機. 沒有用.

 

後來繼續搜尋執行時的error code
找到這篇拯救世界
https://devtalk.nvidia.com/default/topic/760872/ubuntu-12-04-error-cudagetdevicecount-returned-30/

關鍵是這個 $ sudo update-alternatives --config x86_64-linux-gnu_gl_conf
選擇 prime的之後馬上就出現nvidia-smi之類的東西了 

然後執行昨天build的cuda程式也可以如期執行

不過早期有6.5相依性的程式還是不能執行

 

arrow
arrow
    全站熱搜

    jerrychen210054 發表在 痞客邦 留言(0) 人氣()