Differences

This shows you the differences between two versions of the page.

--- ubuntu:gpu:troubleshooting:error_ring_gfx_0.0.0_timeout [2023/06/05 13:03] – created peter
+++ ubuntu:gpu:troubleshooting:error_ring_gfx_0.0.0_timeout [2023/06/05 13:22] (current) – peter
@@ Line 4: / Line 4: @@
 <code>
-[   85.861734] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx_0.0.0 timeout, signaled seq=13365, emitted seq=13367 [   85.862162] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information: process kwin_x11 pid 819 thread kwin_x11:cs0 pid 838
+[   85.861734] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx_0.0.0 timeout, signaled seq=13365, emitted seq=13367
+[   85.862162] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information: process kwin_x11 pid 819 thread kwin_x11:cs0 pid 838
 </code>
@@ Line 19: / Line 20: @@
 ----
+===== An alternative workaround =====
+Use the **amdgpu.ppfeaturemask** parameter to narrow down which power feature is causing problems.
+  * The bits in that parameter are defined by the **PP_FEATURE_MASK** enum here: https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/tree/drivers/gpu/drm/amd/include/amd_shared.h#n199
+<code bash>
+cat /sys/class/drm/card0/device/pp_features
+</code>
+returns:
+<code bash>
+features high: 0x0003ebb8 low: 0x71ffffff
+No. Feature               Bit : State
+. FW_DATA_READ         ( 0) : enabled
+. DPM_GFXCLK           ( 1) : enabled
+. DPM_GFX_POWER_OPTIMIZER ( 2) : enabled
+. DPM_UCLK             ( 3) : enabled
+. DPM_FCLK             ( 4) : enabled
+. DPM_SOCCLK           ( 5) : enabled
+. DPM_MP0CLK           ( 6) : enabled
+. DPM_LINK             ( 7) : enabled
+. DPM_DCN              ( 8) : enabled
+. VMEMP_SCALING        ( 9) : enabled
+. VDDIO_MEM_SCALING    (10) : enabled
+. DS_GFXCLK            (11) : enabled
+. DS_SOCCLK            (12) : enabled
+. DS_FCLK              (13) : enabled
+. DS_LCLK              (14) : enabled
+. DS_DCFCLK            (15) : enabled
+. DS_UCLK              (16) : enabled
+. GFX_ULV              (17) : enabled
+. FW_DSTATE            (18) : enabled
+. GFXOFF               (19) : enabled
+. BACO                 (20) : enabled
+. MM_DPM               (21) : enabled
+. SOC_MPCLK_DS         (22) : enabled
+. BACO_MPCLK_DS        (23) : enabled
+. THROTTLERS           (24) : enabled
+. SMARTSHIFT           (25) : disabled
+. GTHR                 (26) : disabled
+. ACDC                 (27) : disabled
+. VR0HOT               (28) : enabled
+. FW_CTF               (29) : enabled
+. FAN_CONTROL          (30) : enabled
+. GFX_DCS              (31) : disabled
+. GFX_READ_MARGIN      (32) : disabled
+. LED_DISPLAY          (33) : disabled
+. GFXCLK_SPREAD_SPECTRUM (34) : disabled
+. OUT_OF_BAND_MONITOR  (35) : enabled
+. OPTIMIZED_VMIN       (36) : enabled
+. GFX_IMU              (37) : enabled
+. BOOT_TIME_CAL        (38) : disabled
+. GFX_PCC_DFLL         (39) : enabled
+. SOC_CG               (40) : enabled
+. DF_CSTATE            (41) : enabled
+. GFX_EDC              (42) : disabled
+. BOOT_POWER_OPT       (43) : enabled
+. CLOCK_POWER_DOWN_BYPASS (44) : disabled
+. DS_VCN               (45) : enabled
+. BACO_CG              (46) : enabled
+. MEM_TEMP_READ        (47) : enabled
+. ATHUB_MMHUB_PG       (48) : enabled
+. SOC_PCC              (49) : enabled
+</code>
+----
+==== Change Kernel Boot Parameters ====
+Try adding the **amdgpu.ppfeaturemask** to the kernel boot parameters, **/etc/default/grub**:
+<file bash /etc/default/grub>
+GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amdgpu.ppfeaturemask=0xfffd3fff"
+</file>
+and update Grub
+<code bash>
+sudo update-grub
+</code>
+Then reboot, and check if the fault happens again.
+<WRAP info>
+**NOTE:**  It may be that the fault is caused by one or more of those features:
+<code>
+PP_OVERDRIVE_MASK = 0x4000,
+PP_GFXOFF_MASK = 0x8000,
+PP_STUTTER_MODE = 0x20000,
+</code>
+</WRAP>
+----
+===== Use Mesa Environment Parameters to identify the cause =====
+Add **RADV_DEBUG=hang** to the **/etc/environment**, then try triggering the fault again.
+This dumps a report to $HOME/radv_dumps_<pid>_<time> if a GPU hang is detected.
+Report the error to the Mesa Team.
+<WRAP info>
+**NOTE:**  See https://docs.mesa3d.org/envvars.html
+</WRAP>
+----
+===== References =====
+https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/tree/drivers/gpu/drm/amd/include/amd_shared.h#n199
+https://docs.mesa3d.org/envvars.html