Коллеги, приветствую. Нужен свежий взгляд на проблему с майнинговой картой P102-100. Бьюсь второй день, карта упорно отказывается инициализироваться в системе.
Дисклеймер: Я новичок в глубокой настройке Linux-драйверов, поэтому большую часть работы по подбору патчей, исправлению ошибок компиляции и анализу логов я проделывал с помощью ИИ.
Конфигурация стенда
-
CPU: AMD Ryzen 5 3400G (Picasso)
-
RAM: 16 GB DDR4 (Объем ограничен, поэтому использование APU для вычислений исключено).
-
MB: AMD 400 Series (B450/A320)
-
OS: Debian 13 Trixie (Proxmox VE 8.x)
-
Kernel: 6.17.13-4-pve
-
GPU 0 (Display/BIOS): GeForce GT 220 (GT216, 1GB) — драйвер 340.xx (legacy).
-
GPU 1 (Target): NVIDIA P102-100 (GP102, 10GB, Mining Card) — класс 0302 (3D controller).
Суть проблемы
Драйвер (патченный 580.142) успешно собирается и загружается, но карта «отваливается» сразу после попытки обращения к ней.
Симптомы:
-
nvidia-smiвыдает:No devices were found(exit code 6). -
В
dmesgсыпятся ошибки:-
NVRM: RmInitAdapter failed! (0x25:0x65:1636) -
NVRM: Xid (PCI:0000:06:00): 62, 0b9a(1670) 00000000 00000000
-
-
CUDA
cuInit(0)возвращаетCUDA_ERROR_NO_DEVICE (101). -
Аномалия: После «холодного» старта (полное обесточивание) карта видна в
nvidia-smiв течение 1–2 минут, после чего падает в Xid 62.
Важное уточнение по встроенной графике (APU)
В системе присутствует встройка Radeon Vega 11, однако вариант её использования для вычислений (ROCm/OpenCL) не рассматривается вовсе. Причина — всего 16 ГБ оперативной памяти в системе. Выделение существенного объема под нужды видеоядра сделает работу хоста (Proxmox) и запуск LLM невозможными. Более того, официальная поддержка ROCm для этого APU отсутствует, а «костыльные» методы не оправдывают затрат ресурсов.
Что уже сделано:
-
Драйвер: С помощью ИИ был найден и адаптирован патч от
dartraiden/NVIDIA-patcher. Модули собраны с правками под ядро 6.17 (MODULE_LICENSEна GPL для доступа к символам__vma_start_writeи фиксы таймеров). -
Firmware: Пробовал отключать GSP (
NVreg_EnableGpuFirmware=0). -
Persistence: Запущен
nvidia-persistenced. -
BIOS/UEFI: *
Above 4G Decodingвключен.-
Встройка Vega 11 видна в lspci, но программно игнорируется, чтобы не отъедать RAM.
-
Линк на P102 сейчас x4 2.5 GT/s.
-
Ограничения и планы
-
Физического доступа к карте для прошивки программатором (CH341A) нет.
-
GT 220 необходима как единственный стабильный видеовыход.
-
nvflashне видит адаптер, так как драйвер не завершил инициализацию. -
ИИ предложил перепрошить карту на другую версию vBIOS, в частности рекомендует прошивку от Zotac как наиболее стабильную для этих моделей.
Вопросы
-
Есть ли способ заставить
nvflash(в Linux или DOS) прошить vBIOS (хочу попробовать Zotac) на этой карте принудительно, если драйвер NVIDIA находится в состоянии ошибки? -
Может ли наличие древней GT 220 (Legacy) конфликтовать по ресурсам PCIe BAR с GP102, учитывая требования последней к диапазонам адресов?
-
Есть ли смысл пытаться принудительно ограничить версию PCIe в BIOS или пробовать патчи
re-bar-uefi, если встройка фактически «съедает» часть адресного пространства, даже если не используется?
Буду благодарен за любую идею. P102 — единственный шанс получить адекватное GPU-ускорение в данной сборке.