Проблема инициализации NVIDIA P102-100 на Proxmox (Xid 62, RmInitAdapter failed)

Коллеги, приветствую. Нужен свежий взгляд на проблему с майнинговой картой P102-100. Бьюсь второй день, карта упорно отказывается инициализироваться в системе.

Дисклеймер: Я новичок в глубокой настройке Linux-драйверов, поэтому большую часть работы по подбору патчей, исправлению ошибок компиляции и анализу логов я проделывал с помощью ИИ.

Конфигурация стенда

  • CPU: AMD Ryzen 5 3400G (Picasso)

  • RAM: 16 GB DDR4 (Объем ограничен, поэтому использование APU для вычислений исключено).

  • MB: AMD 400 Series (B450/A320)

  • OS: Debian 13 Trixie (Proxmox VE 8.x)

  • Kernel: 6.17.13-4-pve

  • GPU 0 (Display/BIOS): GeForce GT 220 (GT216, 1GB) — драйвер 340.xx (legacy).

  • GPU 1 (Target): NVIDIA P102-100 (GP102, 10GB, Mining Card) — класс 0302 (3D controller).

Суть проблемы

Драйвер (патченный 580.142) успешно собирается и загружается, но карта «отваливается» сразу после попытки обращения к ней.

Симптомы:

  1. nvidia-smi выдает: No devices were found (exit code 6).

  2. В dmesg сыпятся ошибки:

    • NVRM: RmInitAdapter failed! (0x25:0x65:1636)

    • NVRM: Xid (PCI:0000:06:00): 62, 0b9a(1670) 00000000 00000000

  3. CUDA cuInit(0) возвращает CUDA_ERROR_NO_DEVICE (101).

  4. Аномалия: После «холодного» старта (полное обесточивание) карта видна в nvidia-smi в течение 1–2 минут, после чего падает в Xid 62.

Важное уточнение по встроенной графике (APU)

В системе присутствует встройка Radeon Vega 11, однако вариант её использования для вычислений (ROCm/OpenCL) не рассматривается вовсе. Причина — всего 16 ГБ оперативной памяти в системе. Выделение существенного объема под нужды видеоядра сделает работу хоста (Proxmox) и запуск LLM невозможными. Более того, официальная поддержка ROCm для этого APU отсутствует, а «костыльные» методы не оправдывают затрат ресурсов.

Что уже сделано:

  1. Драйвер: С помощью ИИ был найден и адаптирован патч от dartraiden/NVIDIA-patcher. Модули собраны с правками под ядро 6.17 (MODULE_LICENSE на GPL для доступа к символам __vma_start_write и фиксы таймеров).

  2. Firmware: Пробовал отключать GSP (NVreg_EnableGpuFirmware=0).

  3. Persistence: Запущен nvidia-persistenced.

  4. BIOS/UEFI: * Above 4G Decoding включен.

    • Встройка Vega 11 видна в lspci, но программно игнорируется, чтобы не отъедать RAM.

    • Линк на P102 сейчас x4 2.5 GT/s.

Ограничения и планы

  • Физического доступа к карте для прошивки программатором (CH341A) нет.

  • GT 220 необходима как единственный стабильный видеовыход.

  • nvflash не видит адаптер, так как драйвер не завершил инициализацию.

  • ИИ предложил перепрошить карту на другую версию vBIOS, в частности рекомендует прошивку от Zotac как наиболее стабильную для этих моделей.

Вопросы

  1. Есть ли способ заставить nvflash (в Linux или DOS) прошить vBIOS (хочу попробовать Zotac) на этой карте принудительно, если драйвер NVIDIA находится в состоянии ошибки?

  2. Может ли наличие древней GT 220 (Legacy) конфликтовать по ресурсам PCIe BAR с GP102, учитывая требования последней к диапазонам адресов?

  3. Есть ли смысл пытаться принудительно ограничить версию PCIe в BIOS или пробовать патчи re-bar-uefi, если встройка фактически «съедает» часть адресного пространства, даже если не используется?

Буду благодарен за любую идею. P102 — единственный шанс получить адекватное GPU-ускорение в данной сборке.

В режиме vgpu cuda не работает в виртуалке.

Нужно прокидывать полностью через pcie device, all functions=1

В хосте предварительно добавить в blacklist драйвер нвидии.

И я не уверен, что в майнерской версии 102 чипа физически включены cuda.
Если надо запустить на самом pve - пробуйте сначала более старые версии драйвера.
И у китайцев был под эти карты какой-то модифицированный Биос, от обычных карт не подойдёт.

Ну кстати да, долгие беседы с нейросетями подтверждают ваше предположение о том, что надо перепрошивать BIOS на патченый.

А я что-то побаиваюсь…

Да и вообще думаю, а потянет ли моя майнинговая видяшка хоть какую-то нейросеть? Просто когда я ее покупал, знаний было очень-очень мало, а стоила она буквально копейки.

LLM не потянет (физически они запустятся, но будет либо 1-5 токенов/с на большой нормальной модели, либо до 10-20 на сильно порезанной с галлюцинациями)

Для нормальной работы с LLM нужна архитектура нвидии 3000 и выше и 32+ гига видеопамяти (16гб достаточно для экспериментов)

Мелкие специализированные модели будут работать без проблем (при условии, что cuda нормально работает)
У меня yolov8 вертится на gtx960 2гб, занимает меньше 1 гига.