找回密码
 立即注册
搜索
查看: 2624|回复: 42

[数码] [电子疑难病] 无规律的Ubuntu 24死机现象, 求赛博专家会诊

[复制链接]
     
发表于 2025-6-1 02:34 | 显示全部楼层 |阅读模式
本帖最后由 WiiGe 于 2025-6-11 07:46 编辑


最新一次死机的日志:  https://share.wiige.top/upload/er5yBd

=================================================================================

更新简单脱敏后的日志: https://share.wiige.top/p/aAAYza

=================================================================================

我弄了一台HP的Z8G4工作站当HomeServer, 系统Ubuntu 24 LTS, 所有应用均docker化与系统隔离, 主要就是Nextcloud, Komga, Plex, Gitlab之类的东西

配置为:
Z8G4: https://support.hp.com/us-en/dri ... orkstation/16449803
内存有128GB DDR4 ECC(已隐去空槽信息):
  1. sudo dmidecode -t memory
  2. # dmidecode 3.5
  3. Getting SMBIOS data from sysfs.
  4. SMBIOS 3.2.0 present.

  5. Handle 0x000F, DMI type 16, 23 bytes
  6. Physical Memory Array
  7.         Location: System Board Or Motherboard
  8.         Use: System Memory
  9.         Error Correction Type: Single-bit ECC
  10.         Maximum Capacity: 4608 GB
  11.         Error Information Handle: Not Provided
  12.         Number Of Devices: 12

  13. Handle 0x0010, DMI type 17, 40 bytes
  14. Memory Device
  15.         Array Handle: 0x000F
  16.         Error Information Handle: Not Provided
  17.         Total Width: 72 bits
  18.         Data Width: 64 bits
  19.         Size: 64 GB
  20.         Form Factor: DIMM
  21.         Set: None
  22.         Locator: CPU0-DIMM1
  23.         Bank Locator: CPU0
  24.         Type: DDR4
  25.         Type Detail: Synchronous LRDIMM
  26.         Speed: 2666 MT/s
  27.         Manufacturer: Samsung
  28.         Serial Number: 398E97A7
  29.         Asset Tag: Not Specified
  30.         Part Number: M386A8K40BM2-CTD
  31.         Rank: 4
  32.         Configured Memory Speed: 2666 MT/s
  33.         Minimum Voltage: 1.2 V
  34.         Maximum Voltage: 1.2 V
  35.         Configured Voltage: 1.2 V


  36. Handle 0x001D, DMI type 16, 23 bytes
  37. Physical Memory Array
  38.         Location: System Board Or Motherboard
  39.         Use: System Memory
  40.         Error Correction Type: Single-bit ECC
  41.         Maximum Capacity: 4608 GB
  42.         Error Information Handle: Not Provided
  43.         Number Of Devices: 12

  44. Handle 0x001E, DMI type 17, 40 bytes
  45. Memory Device
  46.         Array Handle: 0x001D
  47.         Error Information Handle: Not Provided
  48.         Total Width: 72 bits
  49.         Data Width: 64 bits
  50.         Size: 64 GB
  51.         Form Factor: DIMM
  52.         Set: None
  53.         Locator: CPU1-DIMM1
  54.         Bank Locator: CPU1
  55.         Type: DDR4
  56.         Type Detail: Synchronous LRDIMM
  57.         Speed: 2666 MT/s
  58.         Manufacturer: Samsung
  59.         Serial Number: 398F3D61
  60.         Asset Tag: Not Specified
  61.         Part Number: M386A8K40BM2-CTD
  62.         Rank: 4
  63.         Configured Memory Speed: 2666 MT/s
  64.         Minimum Voltage: 1.2 V
  65.         Maximum Voltage: 1.2 V
  66.         Configured Voltage: 1.2 V
复制代码


有几片SSD:


  1. $sudo smartctl --all /dev/nvme0

  2. === START OF INFORMATION SECTION ===
  3. Model Number:                       INTEL SSDPED1D280GA
  4. Serial Number:                      PHMB75160057280CGN
  5. Firmware Version:                   E2010480
  6. PCI Vendor/Subsystem ID:            0x8086
  7. IEEE OUI Identifier:                0x5cd2e4
  8. Controller ID:                      0
  9. NVMe Version:                       <1.2
  10. Number of Namespaces:               1
  11. Namespace 1 Size/Capacity:          280,065,171,456 [280 GB]
  12. Namespace 1 Formatted LBA Size:     512
  13. Local Time is:                      Sun Jun  1 01:58:46 2025 CST
  14. Firmware Updates (0x02):            1 Slot
  15. Optional Admin Commands (0x0007):   Security Format Frmw_DL
  16. Optional NVM Commands (0x0006):     Wr_Unc DS_Mngmt
  17. Log Page Attributes (0x0a):         Cmd_Eff_Lg Telmtry_Lg
  18. Maximum Data Transfer Size:         32 Pages

  19. === START OF SMART DATA SECTION ===
  20. SMART overall-health self-assessment test result: PASSED

  21. $ sudo smartctl --all /dev/nvme1

  22. === START OF INFORMATION SECTION ===
  23. Model Number:                       MEMBLAZE P6530CH0384M00
  24. Serial Number:                      SH220600806
  25. Firmware Version:                   0A101Z00
  26. PCI Vendor/Subsystem ID:            0x1c5f
  27. IEEE OUI Identifier:                0x00e004
  28. Total NVM Capacity:                 3,840,755,982,336 [3.84 TB]
  29. Unallocated NVM Capacity:           0
  30. Controller ID:                      1
  31. NVMe Version:                       1.4
  32. Number of Namespaces:               1
  33. Namespace 1 Size/Capacity:          3,840,755,982,336 [3.84 TB]
  34. Namespace 1 Formatted LBA Size:     512
  35. Namespace 1 IEEE EUI-64:            38b19e 7418032601
  36. Local Time is:                      Sun Jun  1 01:59:07 2025 CST
  37. Firmware Updates (0x17):            3 Slots, Slot 1 R/O, no Reset required
  38. Optional Admin Commands (0x001f):   Security Format Frmw_DL NS_Mngmt Self_Test
  39. Optional NVM Commands (0x0054):     DS_Mngmt Sav/Sel_Feat Timestmp
  40. Log Page Attributes (0x1e):         Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg Pers_Ev_Lg
  41. Maximum Data Transfer Size:         128 Pages
  42. Warning  Comp. Temp. Threshold:     70 Celsius
  43. Critical Comp. Temp. Threshold:     77 Celsius
  44. Namespace 1 Features (0x08):        No_ID_Reuse

  45. Supported Power States
  46. St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
  47. 0 +    25.00W       -        -    0  0  0  0        0       0
  48. 1 +    14.00W       -        -    0  0  0  0        0       0
  49. 2 +    13.00W       -        -    0  0  0  0        0       0
  50. 3 +    12.00W       -        -    0  0  0  0        0       0
  51. 4 +    11.00W       -        -    0  0  0  0        0       0
  52. 5 +    10.00W       -        -    0  0  0  0        0       0
  53. 6 +     9.00W       -        -    0  0  0  0        0       0
  54. 7 +     8.00W       -        -    0  0  0  0        0       0
  55. 8 +     7.00W       -        -    0  0  0  0        0       0
  56. 9 +     6.00W       -        -    0  0  0  0        0       0

  57. Supported LBA Sizes (NSID 0x1)
  58. Id Fmt  Data  Metadt  Rel_Perf
  59. 0 +     512       0         2
  60. 1 -    4096       0         0
  61. 2 -     512       8         2
  62. 3 -    4096       8         0
  63. 4 -    4096      64         0

  64. === START OF SMART DATA SECTION ===
  65. SMART overall-health self-assessment test result: PASSED


  66. $sudo smartctl --all /dev/nvme2
  67. === START OF INFORMATION SECTION ===
  68. Model Number:                       Fanxiang S500Pro 2TB
  69. Serial Number:                      FXS500Pro243954233
  70. Firmware Version:                   SN12517
  71. PCI Vendor/Subsystem ID:            0x1e4b
  72. IEEE OUI Identifier:                0x000000
  73. Total NVM Capacity:                 2,048,408,248,320 [2.04 TB]
  74. Unallocated NVM Capacity:           0
  75. Controller ID:                      0
  76. NVMe Version:                       1.4
  77. Number of Namespaces:               1
  78. Namespace 1 Size/Capacity:          2,048,408,248,320 [2.04 TB]
  79. Namespace 1 Formatted LBA Size:     512
  80. Namespace 1 IEEE EUI-64:            000000 0243954233
  81. Local Time is:                      Sun Jun  1 01:59:09 2025 CST
  82. Firmware Updates (0x1a):            5 Slots, no Reset required
  83. Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
  84. Optional NVM Commands (0x001f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
  85. Log Page Attributes (0x02):         Cmd_Eff_Lg
  86. Maximum Data Transfer Size:         128 Pages
  87. Warning  Comp. Temp. Threshold:     90 Celsius
  88. Critical Comp. Temp. Threshold:     95 Celsius

  89. Supported Power States
  90. St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
  91. 0 +     6.50W       -        -    0  0  0  0        0       0
  92. 1 +     5.80W       -        -    1  1  1  1        0       0
  93. 2 +     3.60W       -        -    2  2  2  2        0       0
  94. 3 -   0.7460W       -        -    3  3  3  3     5000   10000
  95. 4 -   0.7260W       -        -    4  4  4  4     8000   45000

  96. Supported LBA Sizes (NSID 0x1)
  97. Id Fmt  Data  Metadt  Rel_Perf
  98. 0 +     512       0         0

  99. === START OF SMART DATA SECTION ===
  100. SMART overall-health self-assessment test result: PASSED

  101. $ sudo smartctl --all /dev/nvme3

  102. === START OF INFORMATION SECTION ===
  103. Model Number:                       MEMBLAZE P6530CH0384M00
  104. Serial Number:                      SH220600832
  105. Firmware Version:                   0A101Z00
  106. PCI Vendor/Subsystem ID:            0x1c5f
  107. IEEE OUI Identifier:                0x00e004
  108. Total NVM Capacity:                 3,840,755,982,336 [3.84 TB]
  109. Unallocated NVM Capacity:           0
  110. Controller ID:                      1
  111. NVMe Version:                       1.4
  112. Number of Namespaces:               1
  113. Namespace 1 Size/Capacity:          3,840,755,982,336 [3.84 TB]
  114. Namespace 1 Formatted LBA Size:     512
  115. Namespace 1 IEEE EUI-64:            38b19e 7418034001
  116. Local Time is:                      Sun Jun  1 01:59:11 2025 CST
  117. Firmware Updates (0x17):            3 Slots, Slot 1 R/O, no Reset required
  118. Optional Admin Commands (0x001f):   Security Format Frmw_DL NS_Mngmt Self_Test
  119. Optional NVM Commands (0x0054):     DS_Mngmt Sav/Sel_Feat Timestmp
  120. Log Page Attributes (0x1e):         Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg Pers_Ev_Lg
  121. Maximum Data Transfer Size:         128 Pages
  122. Warning  Comp. Temp. Threshold:     70 Celsius
  123. Critical Comp. Temp. Threshold:     77 Celsius
  124. Namespace 1 Features (0x08):        No_ID_Reuse

  125. Supported Power States
  126. St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
  127. 0 +    25.00W       -        -    0  0  0  0        0       0
  128. 1 +    14.00W       -        -    0  0  0  0        0       0
  129. 2 +    13.00W       -        -    0  0  0  0        0       0
  130. 3 +    12.00W       -        -    0  0  0  0        0       0
  131. 4 +    11.00W       -        -    0  0  0  0        0       0
  132. 5 +    10.00W       -        -    0  0  0  0        0       0
  133. 6 +     9.00W       -        -    0  0  0  0        0       0
  134. 7 +     8.00W       -        -    0  0  0  0        0       0
  135. 8 +     7.00W       -        -    0  0  0  0        0       0
  136. 9 +     6.00W       -        -    0  0  0  0        0       0

  137. Supported LBA Sizes (NSID 0x1)
  138. Id Fmt  Data  Metadt  Rel_Perf
  139. 0 +     512       0         2
  140. 1 -    4096       0         0
  141. 2 -     512       8         2
  142. 3 -    4096       8         0
  143. 4 -    4096      64         0

  144. === START OF SMART DATA SECTION ===
  145. SMART overall-health self-assessment test result: PASSED
复制代码


CPU就捡的洋垃圾6138:
  1. $ cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c
  2.      80  Intel(R) Xeon(R) Gold 6138 CPU @ 2.00GHz
复制代码


弄了张3070 8G 涡轮跑点小模型:
  1. $ lspci | grep -i nvidia
复制代码



症状表现:
7*24小时运行, 但时不时会死机, 死机间隔短则十数小时, 长则数月. 据统计70%的死机时间在00:00-09:00这段时间, 剩下的30%死机随机分布于其他时间段, 但00:00-09:00这段时间主要就是Plex的声纹分析和媒体分析之类的后台工作
死机时直连显示器无光标闪烁, 直连键盘输入无响应, CapsLoack和ScrLock无响应. LAN内SSH无响应, Intel AMT无响应

机箱内未见故障灯(这内部是真好看呐):

死机时候可明显听到风扇拉满, 至少处于80%+的高转速, 因为平时Z8G4非常安静
除了Hard reset之外, 这个问题从没被我真正解决过
大概是入手这套配置1-2个月后开始出现, 该症状已经持续超过一年


我做了什么:
检查机箱内温度, 发现最高也就62°C, CPU占用率平均低于47%, 某些单核会持续100%(后台转码情有可原)
怀疑是显卡过热所以没显示输出, nvitop看了发现也就不到60°C
怀疑是swap满了卡死, 检查内核日志无OOM字样, 将swap扩到64G问题依旧
怀疑是网卡过热掉了, 发现显示输出也是卡死, 这机要死应是大家齐齐整整一起死了
怀疑是运行环境太热, 切到7*24小时开空调的卧室, 症状依旧, 死机频率仍旧不可琢磨
怀疑是杂牌电饭锅线吃不住1800W的电源, 换了根原装备件电源线, 问题依旧
怀疑是内存不稳, 在BIOS里跑了3小时内存测试, 全绿通过
怀疑是电源不对, 看了原装备件价格, 被劝退
怀疑是主板有问题, 但我没有证据, 店家: 做好散热不要乱猜

挠头: 难不成还能是CPU单核满载把自己热死了?

类似病症:
https://h30471.www3.hp.com/t5/tai-shi-dian-nao/z8g4jing-chang-si-ji/m-p/1134658  -> 我没有它那样的故障灯
https://h30471.www3.hp.com/t5/tai-shi-dian-nao/HP-Z8G4-928-PCIE-yan-zhong-chao-shi-si-ji-zhong-qi/m-p/1261763 -> 我没有它那样的POST报错
https://h30471.www3.hp.com/t5/tai-shi-dian-nao/hui-puZ8G4gong-zuo-zhanCPU-wen-du-guo-gao-jing-chang-si-ji/m-p/1264789 -> 我观察了下我没有那么高的温度(数据来自cockpit)
https://h30471.www3.hp.com/t5/tai-shi-dian-nao/HPZ8G4-pin-fan-si-ji/m-p/1077573 -> 和我的状况很像, 我看了看也妹有啥浮灰影响散热


现在我没啥思路了. 就想着发来这里集思广益, 看看诸君有没有什么好点子可以找到这个错误的缘由, 按理说这机器就是散热强力设计稳定, 是个只为性能释放而生的机器, 怎么没事就死机叻? 我不明白(奉化口音)
如有需要我可以贴一下dmesg和journalctl -k的输出, 但我看着这东西又臭又长大家估计不怎么想看......?


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
发表于 2025-6-1 07:44 | 显示全部楼层
装win,看下有没有whea,有就换电源
回复

使用道具 举报

     
 楼主| 发表于 2025-6-1 10:16 | 显示全部楼层
服务还在跑唉能不能不用再装个系统......能用dmesg之类的直接诊断吗? 如果你猜是电源问题, 那我在dmesg里面确实看到了几个ACPI错误:

  1. [    7.234940] i2c i2c-0: Systems with more than 8 memory slots not supported yet, not instantiating SPD
  2. [    7.234950] ioatdma 0000:00:04.1: enabling device (0004 -> 0006)
  3. [    7.259027] ioatdma 0000:00:04.2: enabling device (0004 -> 0006)
  4. [    7.280643] ioatdma 0000:00:04.3: enabling device (0004 -> 0006)
  5. [    7.298799] ioatdma 0000:00:04.4: enabling device (0004 -> 0006)
  6. [    7.316247] ioatdma 0000:00:04.5: enabling device (0004 -> 0006)
  7. [    7.330358] ioatdma 0000:00:04.6: enabling device (0004 -> 0006)
  8. [    7.342621] ioatdma 0000:00:04.7: enabling device (0004 -> 0006)
  9. [    7.345615] gnss: GNSS driver registered with major 236
  10. [    7.347248] ACPI Error: Needed [Buffer/String/Package], found [Integer] 00000000bbfdd616 (20230628/exresop-557)
  11. [    7.348108] ACPI Error: AE_AML_OPERAND_TYPE, While resolving operands for [Index] (20230628/dswexec-433)

  12. [    7.348125]
  13.                Initialized Local Variables for Method [WVPO]:
  14. [    7.348127]   Local1: 00000000b7f14b0c <Obj>           Buffer(12) 00 00 00 00 00 00 00 00

  15. [    7.348140] Initialized Arguments for Method [WVPO]:  (2 arguments defined for method invocation)
  16. [    7.348142]   Arg0:   000000009fb42d8e <Obj>           Integer 0000000000000004
  17. [    7.348147]   Arg1:   00000000bbfdd616 <Obj>           Integer 0000000000000000

  18. [    7.348156] ACPI Error: Aborting method \_SB.WMIV.WVPO due to previous error (AE_AML_OPERAND_TYPE) (20230628/psparse-529)
  19. [    7.348166] ACPI Error: Aborting method \_SB.WMIV.WMPV due to previous error (AE_AML_OPERAND_TYPE) (20230628/psparse-529)
  20. [    7.357943] ACPI Error: Needed [Buffer/String/Package], found [Integer] 000000004f09eef4 (20230628/exresop-557)
  21. [    7.358106] ioatdma 0000:80:04.0: enabling device (0004 -> 0006)
  22. [    7.359974] ACPI Error: AE_AML_OPERAND_TYPE, While resolving operands for [Index] (20230628/dswexec-433)

  23. [    7.361874]
  24.                Initialized Local Variables for Method [WVPO]:
  25. [    7.361879]   Local1: 00000000ea3c534d <Obj>           Buffer(12) 00 00 00 00 00 00 00 00

  26. [    7.361921] Initialized Arguments for Method [WVPO]:  (2 arguments defined for method invocation)
  27. [    7.361926]   Arg0:   00000000ac004b87 <Obj>           Integer 0000000000000004
  28. [    7.361943]   Arg1:   000000004f09eef4 <Obj>           Integer 0000000000000000

  29. [    7.361972] ACPI Error: Aborting method \_SB.WMIV.WVPO due to previous error (AE_AML_OPERAND_TYPE) (20230628/psparse-529)
  30. [    7.363854] ACPI Error: Aborting method \_SB.WMIV.WMPV due to previous error (AE_AML_OPERAND_TYPE) (20230628/psparse-529)
  31. [    7.369425] ACPI Error: Needed [Buffer/String/Package], found [Integer] 00000000305152d8 (20230628/exresop-557)
  32. [    7.370762] ACPI Error: AE_AML_OPERAND_TYPE, While resolving operands for [Index] (20230628/dswexec-433)

  33. [    7.372121]
  34.                Initialized Local Variables for Method [WVPO]:
  35. [    7.372124]   Local1: 0000000051f950d8 <Obj>           Buffer(136) 00 00 00 00 00 00 00 00

  36. [    7.372162] Initialized Arguments for Method [WVPO]:  (2 arguments defined for method invocation)
  37. [    7.372167]   Arg0:   000000007cce02b3 <Obj>           Integer 0000000000000080
  38. [    7.372183]   Arg1:   00000000305152d8 <Obj>           Integer 0000000000000000

  39. [    7.372206] ACPI Error: Aborting method \_SB.WMIV.WVPO due to previous error (AE_AML_OPERAND_TYPE) (20230628/psparse-529)
  40. [    7.372276] workqueue: work_for_cpu_fn hogged CPU for >10000us 8 times, consider switching to WQ_UNBOUND
  41. [    7.373520] ACPI Error: Aborting method \_SB.WMIV.WMPV due to previous error (AE_AML_OPERAND_TYPE) (20230628/psparse-529)
  42. [    7.374961] input: HP WMI hotkeys as /devices/virtual/input/input9
  43. [    7.378132] ACPI Error: Needed [Buffer/String/Package], found [Integer] 00000000e263359f (20230628/exresop-557)
  44. [    7.379034] ACPI Error: AE_AML_OPERAND_TYPE, While resolving operands for [Index] (20230628/dswexec-433)

  45. [    7.379951]
  46.                Initialized Local Variables for Method [WVPO]:
  47. [    7.379953]   Local1: 00000000c51b5c99 <Obj>           Buffer(136) 00 00 00 00 00 00 00 00

  48. [    7.379973] Initialized Arguments for Method [WVPO]:  (2 arguments defined for method invocation)
  49. [    7.379975]   Arg0:   00000000e5261626 <Obj>           Integer 0000000000000080
  50. [    7.379983]   Arg1:   00000000e263359f <Obj>           Integer 0000000000000000

  51. [    7.379995] ACPI Error: Aborting method \_SB.WMIV.WVPO due to previous error (AE_AML_OPERAND_TYPE) (20230628/psparse-529)
  52. [    7.380921] ACPI Error: Aborting method \_SB.WMIV.WMPV due to previous error (AE_AML_OPERAND_TYPE) (20230628/psparse-529)
  53. [    7.389494] ioatdma 0000:80:04.1: enabling device (0004 -> 0006)
  54. [    7.405383] ioatdma 0000:80:04.2: enabling device (0004 -> 0006)
  55. [    7.419566] ioatdma 0000:80:04.3: enabling device (0004 -> 0006)
  56. [    7.429298] ice: Intel(R) Ethernet Connection E800 Series Linux Driver
  57. [    7.429301] ice: Copyright (c) 2018, Intel Corporation.
  58. [    7.432372] ioatdma 0000:80:04.4: enabling device (0004 -> 0006)
  59. [    7.433469] Creating 1 MTD partitions on "0000:00:1f.5":
  60. [    7.433498] 0x000000000000-0x000002000000 : "BIOS"
  61. [    7.444463] ioatdma 0000:80:04.5: enabling device (0004 -> 0006)
  62. [    7.456213] ioatdma 0000:80:04.6: enabling device (0004 -> 0006)
  63. [    7.467575] ioatdma 0000:80:04.7: enabling device (0004 -> 0006)
  64. [    7.468405] snd_hda_intel 0000:00:1f.3: enabling device (0140 -> 0142)
  65. [    7.469170] snd_hda_intel 0000:2d:00.1: enabling device (0140 -> 0142)
  66. [    7.469332] snd_hda_intel 0000:2d:00.1: Disabling MSI
  67. [    7.469397] snd_hda_intel 0000:2d:00.1: Handle vga_switcheroo audio client
复制代码


这样的内核日志能定位出是电源问题吗?
回复

使用道具 举报

     
发表于 2025-6-1 12:11 来自手机 | 显示全部楼层
死机前的日志没什么可疑点或者共同的特征吗?先看死机前状态想办法复现吧,实在没头绪我也觉得可以换个系统或者起码换个内核试试,docker 化的应用应该很好迁移才对
回复

使用道具 举报

     
 楼主| 发表于 2025-6-1 12:43 | 显示全部楼层
本帖最后由 WiiGe 于 2025-6-1 12:53 编辑
indtability 发表于 2025-6-1 12:11
死机前的日志没什么可疑点或者共同的特征吗?先看死机前状态想办法复现吧,实在没头绪我也觉得可以换个系统 ...

我贴个journalctl -p err 给你看看哦

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
 楼主| 发表于 2025-6-1 12:48 | 显示全部楼层
死机状态我并不能稳定复现, 只是每次死机症状完全一致因此让我认为这应是同一个问题.
话说还有什么其他可以查看历史日志的工具吗? 我也就知道个 journalctl 和 dmesg......
大夫有需要的话我都可以贴出来的
回复

使用道具 举报

     
发表于 2025-6-1 13:16 | 显示全部楼层
先跑硬件测试,比如内存测试
再确定软件问题
回复

使用道具 举报

     
发表于 2025-6-1 13:17 来自手机 | 显示全部楼层
日志下载下来只有8k,没法打开看,不过日志要是没有明显错误或者看不出死机规律的话,感觉也没啥好办法,只能建议换成更上游的内核或者发行版来碰碰运气了。
回复

使用道具 举报

     
 楼主| 发表于 2025-6-1 13:51 | 显示全部楼层
chachi 发表于 2025-6-1 13:16
先跑硬件测试,比如内存测试
再确定软件问题

内存测试已通过, 全绿
回复

使用道具 举报

     
发表于 2025-6-1 16:15 | 显示全部楼层
跑个gpu stress test试试?
回复

使用道具 举报

     
发表于 2025-6-1 17:47 来自手机 | 显示全部楼层
开机报的那些apci意义不大。journalctl -b -1 -k看能不能抓到上次死机现场。

—— 来自 HONOR PTP-AN10, Android 15, 鹅球 v3.5.99
回复

使用道具 举报

     
 楼主| 发表于 2025-6-1 22:32 | 显示全部楼层
本帖最后由 WiiGe 于 2025-6-1 23:24 编辑
calmer 发表于 2025-6-1 17:47
开机报的那些apci意义不大。journalctl -b -1 -k看能不能抓到上次死机现场。

—— 来自 HONOR PTP-AN10, A ...

你说得对我也感觉这些ACPI错误似乎不是关键的问题, 不过journalctl -b -1 -k只能拿到5月26号之后的内容, 所以我尝试了 journalctl > all.log, 得到了一个500M的日志.
回复

使用道具 举报

     
 楼主| 发表于 2025-6-1 22:40 | 显示全部楼层
以下是我的一些观察:
日志中最多的错误是
  1. Feb 26 00:23:47 z8g4-portal dockerd[2421]: time="2025-02-25T16:23:47.091392377Z" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:42370" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:42370->127.0.0.53:53: i/o timeout" question=";tracker.tiny-**.com.\tIN\t A"
复制代码
这种内容, 在某次重启后能看到超过4万行的错误(行号1858635-1890899):


这类错误发生过多次, 几乎每次重启后执行一段时间都会大量出现, 其中夹杂一些:

  1. May 31 01:02:49 z8g4-portal dockerd[2445]: time="2025-05-31T01:02:49.706566899+08:00" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:49889" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:49889->127.0.0.53:53: i/o timeout" question=";share.rayser.cn.\tIN\t A"
  2. May 31 01:03:13 z8g4-portal systemd-timesyncd[1928]: Timed out waiting for reply from 198.18.26.128:123 (ntp.ubuntu.com).
  3. May 31 01:05:01 z8g4-portal CRON[66042]: pam_unix(cron:session): session opened for user root(uid=0) by root(uid=0)
  4. May 31 01:05:01 z8g4-portal CRON[66043]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
  5. May 31 01:05:01 z8g4-portal CRON[66042]: pam_unix(cron:session): session closed for user root
  6. May 31 01:05:35 z8g4-portal dockerd[2445]: time="2025-05-31T01:05:35.012524229+08:00" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:42567" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:42567->127.0.0.53:53: i/o timeout" question=";tracker.bt4g.com.\tIN\t A"
复制代码


或者
  1. May 31 00:57:13 z8g4-portal dockerd[2445]: time="2025-05-31T00:57:13.910263128+08:00" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:46779" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:46779->127.0.0.53:53: i/o timeout" question=";share.rayser.cn.\tIN\t A"
  2. May 31 00:58:13 z8g4-portal systemd[1]: Starting pmie_check.service - Check PMIE instances are running...
  3. May 31 00:58:13 z8g4-portal systemd[1]: Starting pmie_farm_check.service - Check and migrate non-primary pmie farm instances...
  4. May 31 00:58:13 z8g4-portal systemd[1]: Started pmie_check.service - Check PMIE instances are running.
  5. May 31 00:58:13 z8g4-portal systemd[1]: Started pmie_farm_check.service - Check and migrate non-primary pmie farm instances.
  6. May 31 00:58:13 z8g4-portal systemd[1]: pmie_farm_check.service: Deactivated successfully.
  7. May 31 00:58:13 z8g4-portal systemd[1]: pmie_check.service: Deactivated successfully.
  8. May 31 01:00:01 z8g4-portal systemd[1]: Starting sysstat-collect.service - system activity accounting tool...
  9. May 31 01:00:01 z8g4-portal systemd[1]: Starting systemd-tmpfiles-clean.service - Cleanup of Temporary Directories...
  10. May 31 01:00:01 z8g4-portal systemd[1]: sysstat-collect.service: Deactivated successfully.
  11. May 31 01:00:01 z8g4-portal systemd[1]: Finished sysstat-collect.service - system activity accounting tool.
  12. May 31 01:00:01 z8g4-portal systemd[1]: systemd-tmpfiles-clean.service: Deactivated successfully.
  13. May 31 01:00:01 z8g4-portal systemd[1]: Finished systemd-tmpfiles-clean.service - Cleanup of Temporary Directories.
  14. May 31 01:01:04 z8g4-portal dockerd[2445]: time="2025-05-31T01:01:04.350097803+08:00" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:59390" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:59390->127.0.0.53:53: i/o timeout" question=";sparkle.ghostchu.com.\tIN\t A"
复制代码


的错误, 看上去是NTP的问题.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

     
 楼主| 发表于 2025-6-1 22:50 | 显示全部楼层
根据日志来看, 带-- Boot XXXXXXXXXXXXXXX -- 的记录有29条, 即journalctl记载了29次重启, 以这个 [resolver] failed to query external DNS server 后紧跟重启的记录有14次, 占比约48%, 我感觉可能这和我遇到的多次死机症状有所关联? 大致形式如下:

  1. Mar 04 10:18:24 z8g4-portal dockerd[14786]: time="2025-03-04T02:18:24.008409267Z" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:47004" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:47004->127.0.0.53:53: i/o timeout" question=";seeders-paradise.org.\tIN\t AAAA"
  2. Mar 04 10:18:24 z8g4-portal dockerd[14786]: time="2025-03-04T02:18:24.008511054Z" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:57097" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:57097->127.0.0.53:53: i/o timeout" question=";seeders-paradise.org.\tIN\t A"
  3. Mar 04 10:18:29 z8g4-portal dockerd[14786]: time="2025-03-04T02:18:29.053045662Z" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:34618" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:34618->127.0.0.53:53: i/o timeout" question=";highteahop.top.\tIN\t AAAA"
  4. Mar 04 10:18:29 z8g4-portal dockerd[14786]: time="2025-03-04T02:18:29.053119935Z" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:50855" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:50855->127.0.0.53:53: i/o timeout" question=";highteahop.top.\tIN\t A"
  5. Mar 04 10:20:04 z8g4-portal systemd[1]: Starting sysstat-collect.service - system activity accounting tool...
  6. Mar 04 10:20:04 z8g4-portal systemd[1]: sysstat-collect.service: Deactivated successfully.
  7. Mar 04 10:20:04 z8g4-portal systemd[1]: Finished sysstat-collect.service - system activity accounting tool.
  8. -- Boot b2563ed2eccc4cb0b982bd5928adb2a7 --
  9. Mar 04 13:07:50 z8g4-portal kernel: Linux version 6.8.0-54-generic (buildd@lcy02-amd64-083) (x86_64-linux-gnu-gcc-13 (Ubuntu 13.3.0-6ubuntu2~24.04) 13.3.0, GNU ld (GNU Binutils for Ubuntu) 2.42) #56-Ubuntu SMP PREEMPT_DYNAMIC Sat Feb  8 00:37:57 UTC 2025 (Ubuntu 6.8.0-54.56-generic 6.8.12)
复制代码


有Journal stopped字样的重启我认为这就是正常维护性重启, 不计入死机现场, 次数16次, 占比约55%:
  1. Mar 12 07:13:44 z8g4-portal systemd-shutdown[1]: Syncing filesystems and block devices.
  2. Mar 12 07:13:44 z8g4-portal kernel: BTRFS info (device dm-0): last unmount of filesystem 533af4a8-6aaf-49f7-8d01-5336db1d8307
  3. Mar 12 07:13:59 z8g4-portal systemd-shutdown[1]: Sending SIGTERM to remaining processes...
  4. Mar 12 07:13:59 z8g4-portal systemd-journald[1202]: Journal stopped
  5. -- Boot 440da79b7a1d4f44b1fbc5356f736634 --
  6. Mar 12 07:21:35 z8g4-portal kernel: Linux version 6.8.0-55-generic (buildd@lcy02-amd64-095) (x86_64-linux-gnu-gcc-13 (Ubuntu 13.3.0-6ubuntu2~24.04) 13.3.0, GNU ld (GNU Binutils for Ubuntu) 2.42) #57-Ubuntu SMP PREEMPT_DYNAMIC Wed Feb 12 23:42:21 UTC 2025 (Ubuntu 6.8.0-55.57-generic 6.8.12)
  7. Mar 12 07:21:35 z8g4-portal kernel: Command line: BOOT_IMAGE=/vmlinuz-6.8.0-55-generic root=/dev/mapper/ubuntu--vg-lv--0 ro
  8. Mar 12 07:21:35 z8g4-portal kernel: KERNEL supported cpus:
  9. Mar 12 07:21:35 z8g4-portal kernel:   Intel GenuineIntel
复制代码
回复

使用道具 举报

发表于 2025-6-1 23:06 | 显示全部楼层
127.0.0.53连接失败可能是ubuntu的systemd-resolved设置有问题?不过你都用了这么久了不应该吧。而且不至于卡死整个机器吧,除非是网卡硬件问题(自己在win11遇到过一次每次重启之后10分钟左右稳定卡死,注意到每次卡死之前网络先挂,重新插拔网卡之后再无问题)
回复

使用道具 举报

     
 楼主| 发表于 2025-6-1 23:30 | 显示全部楼层
本帖最后由 WiiGe 于 2025-6-2 00:16 编辑

在这些[resolver] failed to query external DNS server 错误之前我看到一些OOM错误, 其他情况我没怎么看明白到底发生了什么, OOM这种情况大致出现了7-8次, 形式如下:
  1. May 02 11:06:54 z8g4-portal dockerd[2386]: time="2025-05-02T03:06:54.074625447Z" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:35975" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:35975->127.0.0.53:53: i/o timeout" question=";taciturn-shadow.spb.ru.\tIN\t A"
  2. May 02 11:09:11 z8g4-portal kernel: Plex Commercial invoked oom-killer: gfp_mask=0x140cca(GFP_HIGHUSER_MOVABLE|__GFP_COMP), order=0, oom_score_adj=0
  3. May 02 11:09:11 z8g4-portal kernel: CPU: 0 PID: 287380 Comm: Plex Commercial Tainted: P           OE      6.8.0-58-generic #60-Ubuntu
  4. May 02 11:09:11 z8g4-portal kernel: Hardware name: HP HP Z8 G4 Workstation/81C7, BIOS P60 v02.95 11/21/2024
  5. May 02 11:09:11 z8g4-portal kernel: Call Trace:
  6. May 02 11:09:11 z8g4-portal kernel:  <TASK>
  7. May 02 11:09:11 z8g4-portal kernel:  dump_stack_lvl+0x76/0xa0
  8. May 02 11:09:11 z8g4-portal kernel:  dump_stack+0x10/0x20
  9. May 02 11:09:11 z8g4-portal kernel:  dump_header+0x47/0x1f0
  10. May 02 11:09:11 z8g4-portal kernel:  oom_kill_process+0x118/0x280
  11. May 02 11:09:11 z8g4-portal kernel:  ? oom_evaluate_task+0x143/0x1e0
  12. May 02 11:09:11 z8g4-portal kernel:  out_of_memory+0x103/0x350
  13. May 02 11:09:11 z8g4-portal kernel:  __alloc_pages_may_oom+0x10c/0x1d0
  14. May 02 11:09:11 z8g4-portal kernel:  __alloc_pages_slowpath.constprop.0+0x420/0x9f0
  15. May 02 11:09:11 z8g4-portal kernel:  __alloc_pages+0x31f/0x350
  16. May 02 11:09:11 z8g4-portal kernel:  alloc_pages_mpol+0x91/0x210
  17. May 02 11:09:11 z8g4-portal kernel:  alloc_pages+0x5b/0xd0
  18. May 02 11:09:11 z8g4-portal kernel:  folio_alloc+0x15/0x40
  19. May 02 11:09:11 z8g4-portal kernel:  filemap_alloc_folio+0xf4/0x100
  20. May 02 11:09:11 z8g4-portal kernel:  __filemap_get_folio+0x195/0x2d0
  21. May 02 11:09:11 z8g4-portal kernel:  filemap_fault+0x15c/0x8e0
  22. May 02 11:09:11 z8g4-portal kernel:  ? set_pte_range+0x116/0x3f0
  23. May 02 11:09:11 z8g4-portal kernel:  __do_fault+0x3a/0x190
  24. May 02 11:09:11 z8g4-portal kernel:  do_read_fault+0x133/0x200
  25. May 02 11:09:11 z8g4-portal kernel:  do_fault+0xf0/0x260
  26. May 02 11:09:11 z8g4-portal kernel:  handle_pte_fault+0x114/0x1d0
  27. May 02 11:09:11 z8g4-portal kernel:  __handle_mm_fault+0x654/0x800
  28. May 02 11:09:11 z8g4-portal kernel:  handle_mm_fault+0x18a/0x380
  29. May 02 11:09:11 z8g4-portal kernel:  do_user_addr_fault+0x169/0x670
  30. May 02 11:09:11 z8g4-portal kernel:  exc_page_fault+0x83/0x1b0
  31. May 02 11:09:11 z8g4-portal kernel:  asm_exc_page_fault+0x27/0x30
  32. May 02 11:09:11 z8g4-portal kernel: RIP: 0033:0x709ad07aaffa
  33. May 02 11:09:11 z8g4-portal kernel: Code: Unable to access opcode bytes at 0x709ad07aafd0.
  34. May 02 11:09:11 z8g4-portal kernel: RSP: 002b:00007ffdb9994370 EFLAGS: 00010202
  35. May 02 11:09:11 z8g4-portal kernel: RAX: 0000709ad07ab1c0 RBX: 0000709aceb65080 RCX: 0000000000000010
  36. May 02 11:09:11 z8g4-portal kernel: RDX: 0000000000000002 RSI: ffffffffffffffec RDI: 0000709ad00c7580
  37. May 02 11:09:11 z8g4-portal kernel: RBP: 0000000000000006 R08: 0000709acea212f0 R09: 0000709acea212ec
  38. May 02 11:09:11 z8g4-portal kernel: R10: 0000000000000000 R11: 0000000000000000 R12: 0000709ad00c7580
  39. May 02 11:09:11 z8g4-portal kernel: R13: 0000000000001800 R14: 0000709acebb7dc0 R15: 0000709aceb913c0
  40. May 02 11:09:11 z8g4-portal kernel:  </TASK>
  41. May 02 11:09:11 z8g4-portal kernel: Mem-Info:
  42. May 02 11:09:11 z8g4-portal kernel: active_anon:6681869 inactive_anon:24607315 isolated_anon:0
  43.                                      active_file:30644 inactive_file:20137 isolated_file:0
  44.                                      unevictable:11192 dirty:13 writeback:0
  45.                                      slab_reclaimable:254395 slab_unreclaimable:296998
  46.                                      mapped:64449 shmem:34779 pagetables:220975
  47.                                      sec_pagetables:0 bounce:0
  48.                                      kernel_misc_reclaimable:0
  49.                                      free:115427 free_pcp:14330 free_cma:0
  50. May 02 11:09:11 z8g4-portal kernel: Node 0 active_anon:7669552kB inactive_anon:53187884kB active_file:91524kB inactive_file:73772kB unevictable:27528kB isolated(anon):0kB isolated(file):0kB mapped:147512kB dirty:52kB writeback:0kB shmem:25020kB shmem_thp:0kB shmem_p**pped:0kB anon_thp:0kB writeback_tmp:0kB kernel_stack:29912kB pagetables:580788kB sec_pagetables:0kB all_unreclaimable? no
  51. May 02 11:09:11 z8g4-portal kernel: Node 1 active_anon:19057924kB inactive_anon:45241376kB active_file:31052kB inactive_file:6776kB unevictable:17240kB isolated(anon):0kB isolated(file):0kB mapped:110284kB dirty:0kB writeback:0kB shmem:114096kB shmem_thp:0kB shmem_p**pped:0kB anon_thp:0kB writeback_tmp:0kB kernel_stack:35848kB pagetables:303112kB sec_pagetables:0kB all_unreclaimable? no
  52. May 02 11:09:11 z8g4-portal kernel: Node 0 DMA free:11264kB boost:0kB min:8kB low:20kB high:32kB reserved_highatomic:0KB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:15988kB managed:15360kB mlocked:0kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB
  53. May 02 11:09:11 z8g4-portal kernel: lowmem_reserve[]: 0 1595 63998 63998 63998
  54. May 02 11:09:11 z8g4-portal kernel: Node 0 DMA32 free:247020kB boost:0kB min:1116kB low:2748kB high:4380kB reserved_highatomic:0KB active_anon:244352kB inactive_anon:1181220kB active_file:1356kB inactive_file:1204kB unevictable:0kB writepending:32kB present:1767796kB managed:1701228kB mlocked:0kB bounce:0kB free_pcp:6252kB local_pcp:0kB free_cma:0kB
  55. May 02 11:09:11 z8g4-portal kernel: lowmem_reserve[]: 0 0 62402 62402 62402
  56. May 02 11:09:11 z8g4-portal kernel: Node 0 Normal free:133464kB boost:257320kB min:301076kB low:364972kB high:428868kB reserved_highatomic:0KB active_anon:7425236kB inactive_anon:52006628kB active_file:89964kB inactive_file:72276kB unevictable:27528kB writepending:20kB present:65011712kB managed:63909016kB mlocked:27528kB bounce:0kB free_pcp:29556kB local_pcp:248kB free_cma:0kB
  57. May 02 11:09:11 z8g4-portal kernel: lowmem_reserve[]: 0 0 0 0 0
  58. May 02 11:09:11 z8g4-portal kernel: Node 1 Normal free:71976kB boost:79872kB min:125096kB low:191136kB high:257176kB reserved_highatomic:0KB active_anon:19057924kB inactive_anon:45241376kB active_file:31052kB inactive_file:6776kB unevictable:17240kB writepending:0kB present:67108864kB managed:66040244kB mlocked:17240kB bounce:0kB free_pcp:19500kB local_pcp:0kB free_cma:0kB
  59. May 02 11:09:11 z8g4-portal kernel: lowmem_reserve[]: 0 0 0 0 0
  60. May 02 11:09:11 z8g4-portal kernel: Node 0 DMA: 0*4kB 0*8kB 0*16kB 0*32kB 0*64kB 0*128kB 0*256kB 0*512kB 1*1024kB (U) 1*2048kB (M) 2*4096kB (M) = 11264kB
  61. May 02 11:09:11 z8g4-portal kernel: Node 0 DMA32: 722*4kB (UM) 1063*8kB (UME) 902*16kB (UME) 820*32kB (UME) 505*64kB (UME) 325*128kB (UME) 158*256kB (UME) 81*512kB (UME) 37*1024kB (UM) 1*2048kB (M) 0*4096kB = 247840kB
  62. May 02 11:09:11 z8g4-portal kernel: Node 0 Normal: 4166*4kB (UME) 4475*8kB (UME) 2479*16kB (UME) 1276*32kB (UME) 22*64kB (M) 0*128kB 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 134368kB
  63. May 02 11:09:11 z8g4-portal kernel: Node 1 Normal: 261*4kB (UME) 303*8kB (UME) 1411*16kB (UME) 1401*32kB (UME) 0*64kB 1*128kB (M) 0*256kB 0*512kB 0*1024kB 0*2048kB 0*4096kB = 71004kB
  64. May 02 11:09:11 z8g4-portal kernel: Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=1048576kB
  65. May 02 11:09:11 z8g4-portal kernel: Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB
  66. May 02 11:09:11 z8g4-portal kernel: Node 1 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=1048576kB
  67. May 02 11:09:11 z8g4-portal kernel: Node 1 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB
  68. May 02 11:09:11 z8g4-portal kernel: 116714 total pagecache pages
  69. May 02 11:09:11 z8g4-portal kernel: 26954 pages in swap cache
  70. May 02 11:09:11 z8g4-portal kernel: Free swap  = 0kB
  71. May 02 11:09:11 z8g4-portal kernel: Total swap = 8388604kB
  72. May 02 11:09:11 z8g4-portal kernel: 33476090 pages RAM
  73. May 02 11:09:11 z8g4-portal kernel: 0 pages HighMem/MovableOnly
  74. May 02 11:09:11 z8g4-portal kernel: 559628 pages reserved
  75. May 02 11:09:11 z8g4-portal kernel: 0 pages hwpoisoned
  76. May 02 11:09:11 z8g4-portal kernel: Tasks state (memory values in pages):
  77. May 02 11:09:11 z8g4-portal kernel: [  pid  ]   uid  tgid total_vm      rss rss_anon rss_file rss_shmem pgtables_bytes swapents oom_score_adj name
  78. May 02 11:09:11 z8g4-portal kernel: [   1203]     0  1203    35180      160      160        0         0   139264        0          -250 systemd-journal
  79. May 02 11:09:11 z8g4-portal kernel: [   1234]     0  1234    20117     6080     3520     2560         0    98304        0         -1000 dmeventd
  80. 很长很长很长的Tasks state
  81. 很长很长很长的Tasks state
  82. 很长很长很长的Tasks state
  83. 很长很长很长的Tasks state
  84. 很长很长很长的Tasks state
  85. May 02 11:09:11 z8g4-portal kernel: [ 478703]     0 478703     5326     1280        0     1280         0    73728        0             0 curl
  86. May 02 11:09:11 z8g4-portal kernel: [ 478719]  1000 478719     3909        0        0        0         0    81920        0             0 sudo
  87. May 02 11:09:11 z8g4-portal kernel: [ 478726]   999 478726    55568     1760        0     1440       320   172032      329             0 postgres
  88. May 02 11:09:11 z8g4-portal kernel: [ 478747]   999 478747    55073      160        0      160         0   126976      329             0 postgres
  89. May 02 11:09:11 z8g4-portal kernel: oom-kill:constraint=CONSTRAINT_NONE,nodemask=(null),cpuset=docker-9ebf9b26996e7c9e659ad15d77607dc4bf5a53052370014be92d3a108c675cd2.scope,mems_allowed=0-1,global_oom,task_memcg=/system.slice/docker-82e65ed77c11c0b981e0f273c0193944b9c35d4e93f39d24ba7b5182352c1085.scope,task=ffmpeg,pid=443109,uid=0
  90. May 02 11:09:11 z8g4-portal kernel: Out of memory: Killed process 443109 (ffmpeg) total-vm:118242576kB, anon-rss:116685432kB, file-rss:0kB, shmem-rss:0kB, UID:0 pgtables:228776kB oom_score_adj:0
  91. May 02 11:09:11 z8g4-portal systemd[1]: docker-82e65ed77c11c0b981e0f273c0193944b9c35d4e93f39d24ba7b5182352c1085.scope: A process of this unit has been killed by the OOM killer.
  92. May 02 11:09:12 z8g4-portal dockerd[2386]: time="2025-05-02T03:09:11.892772400Z" level=warning msg="Health check for container 9ebf9b26996e7c9e659ad15d77607dc4bf5a53052370014be92d3a108c675cd2 error: timed out starting health check for container 9ebf9b26996e7c9e659ad15d77607dc4bf5a53052370014be92d3a108c675cd2"
  93. May 02 11:09:12 z8g4-portal dockerd[2386]: time="2025-05-02T03:09:11.892973734Z" level=warning msg="Health check for container 0fb159a16e740859ef9d5cec397b0bf6588e2868c7444f87caa95fb47b9ee1ca error: timed out starting health check for container 0fb159a16e740859ef9d5cec397b0bf6588e2868c7444f87caa95fb47b9ee1ca"
  94. May 02 11:09:12 z8g4-portal dockerd[2386]: time="2025-05-02T03:09:11.893194928Z" level=warning msg="Health check for container e69453d2b9babaf835e77c238e0d3ad151701d79fd03e3b15404d6ff803fb9d3 error: timed out starting health check for container e69453d2b9babaf835e77c238e0d3ad151701d79fd03e3b15404d6ff803fb9d3"
  95. May 02 11:09:19 z8g4-portal kernel: oom_reaper: reaped process 443109 (ffmpeg), now anon-rss:0kB, file-rss:0kB, shmem-rss:0kB
  96. May 02 11:09:26 z8g4-portal dockerd[2386]: time="2025-05-02T03:09:26.710334282Z" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:35892" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:35892->127.0.0.53:53: i/o timeout" question=";console.打码打码打码打码.\tIN\t AAAA"
  97. May 02 11:09:26 z8g4-portal dockerd[2386]: time="2025-05-02T03:09:26.710435489Z" level=error msg="[resolver] failed to query external DNS server" client-addr="udp:127.0.0.1:33238" dns-server="udp:127.0.0.53:53" error="read udp 127.0.0.1:33238->127.0.0.53:53: i/o timeout" question=";console.打码打码打码打码.\tIN\t A"
复制代码


我想我看的应该也不怎么全面, 欢迎有其他工具的大夫加入会诊, 我找了个快传平台搭了个microbin把输出日志简单脱敏放了上去: https://share.wiige.top/p/aAAYza
回复

使用道具 举报

     
 楼主| 发表于 2025-6-1 23:32 | 显示全部楼层
posthoc 发表于 2025-6-1 23:06
127.0.0.53连接失败可能是ubuntu的systemd-resolved设置有问题?不过你都用了这么久了不应该吧。而且不至于 ...

确实, 看上去[resolver] failed to query external DNS server是某种错误导致的结果而不是诱因, 但这日志我实在是没法完全看懂
回复

使用道具 举报

     
发表于 2025-6-2 00:55 | 显示全部楼层
查了下reddit上好像也类似现象:

  1. https://www.reddit.com/r/Ubuntu/comments/1dbt03y/ubuntu_2404_lts_freezes_randomly_sometimes/
复制代码


不如先换成22试试看

评分

参与人数 1战斗力 +1 收起 理由
WiiGe + 1 要不降内核算了......?

查看全部评分

回复

使用道具 举报

     
发表于 2025-6-2 02:08 来自手机 | 显示全部楼层
swap 好像占满了,往这方面找找呢?

dns 错误是配置有问题还是运行时出的问题呢?我对 docker 不熟,不过按 podman 的使用经验来说,有些情况确实需要单独配置 dns。

评分

参与人数 1战斗力 +1 收起 理由
WiiGe + 1 同感

查看全部评分

回复

使用道具 举报

     
发表于 2025-6-2 02:54 | 显示全部楼层
大概率是软件吃满了内存和 swap,导致系统响应极慢形如死机。
可以试试在docker配置里加上 -mem,限制所有 container 合计内存小于总内存,再看看会不会出现死机。

评分

参与人数 1战斗力 +1 收起 理由
WiiGe + 1 同感

查看全部评分

回复

使用道具 举报

     
发表于 2025-6-2 02:55 | 显示全部楼层
本帖最后由 phorcys02 于 2025-6-2 03:00 编辑

swap耗尽, free 内存也没多少, 还有 内核分配内存 出错的信息
大概率是OOM导致的, 因为如果一个服务会导致系统oom,那就不会只出现一次,只会是无数次。
记录下内存使用的日志,检查下是你的哪个服务吃这么多内存,还是说哪个服务有内存泄露或者配置了太大的cache。

要么修好泄露,要么减少内存使用,要么加点内存。

评分

参与人数 1战斗力 +1 收起 理由
WiiGe + 1 同感

查看全部评分

回复

使用道具 举报

     
 楼主| 发表于 2025-6-2 05:42 | 显示全部楼层
痴货 发表于 2025-6-2 00:55
查了下reddit上好像也类似现象:

卧槽看着好像是这么回事儿哦? 我动摇了
回复

使用道具 举报

     
 楼主| 发表于 2025-6-2 05:50 | 显示全部楼层
本帖最后由 WiiGe 于 2025-6-2 06:13 编辑
phorcys02 发表于 2025-6-2 02:55
swap耗尽, free 内存也没多少, 还有 内核分配内存 出错的信息
大概率是OOM导致的, 因为如果一个服务会导 ...

这是怎么看出来的呢? 是关注哪些关键词可以看到内核分配内存失败的哇? 求教啊
是这个:

  1. Apr 24 13:06:13 z8g4-portal kernel: workqueue: work_for_cpu_fn hogged CPU for >10000us 4 times, consider switching to WQ_UNBOUND
复制代码

或是:
  1. Apr 27 17:21:24 z8g4-portal kernel: workqueue: vmstat_update hogged CPU for >10000us 4 times, consider switching to WQ_UNBOUND
复制代码
还是:
  1. Apr 28 18:00:07 z8g4-portal kernel: workqueue: drain_vmap_area_work hogged CPU for >10000us 8 times, consider switching to WQ_UNBOUND
复制代码

这个呢?

记录下内存使用的日志是用sar来看吗? 我没太多这部分经验. 或者说一劳永逸地找个旧路由器搭个Prometheus?

我觉得你和楼上两位的说法很符合我的直觉, 但我没啥排查内存泄漏减少内存的思路, 望大夫们来张详细些的处方.

不过加内存好说, 总之看日志不妨碍我下单, 板子上空插槽也够, 先拉到512G看看是否会影响死机现象的出现频率, 这样可好?
回复

使用道具 举报

发表于 2025-6-2 11:48 | 显示全部楼层
内存爆炸把ffmpeg杀了
你就不能先少开点容器看看会不会死机?
回复

使用道具 举报

     
发表于 2025-6-2 12:35 | 显示全部楼层
WiiGe 发表于 2025-6-2 05:50
这是怎么看出来的呢? 是关注哪些关键词可以看到内核分配内存失败的哇? 求教啊
是这个:
或是:

简单的如atop,sar之类的定时记录的,频率配高一点跑跑看
或者一步到位Prometheus也没毛病...
我感觉你列出的几个服务应该不至于吃满内存,大概率是什么配置的问题
回复

使用道具 举报

     
发表于 2025-6-2 12:45 | 显示全部楼层
你不打算关容器来测试稳定性的话就给每个容器加上cpu内存限制
回复

使用道具 举报

     
 楼主| 发表于 2025-6-2 23:54 来自手机 | 显示全部楼层
moondigi 发表于 2025-6-2 12:45
你不打算关容器来测试稳定性的话就给每个容器加上cpu内存限制

我是docker compose启的,随便加
resource:
limite/reservation:
  memory:
  cpu:
这些项会导致容器以奇形怪状的方式报错,属实有些ptsd,有什么好的引入方式吗?
回复

使用道具 举报

     
 楼主| 发表于 2025-6-2 23:55 来自手机 | 显示全部楼层
phorcys02 发表于 2025-6-2 12:35
简单的如atop,sar之类的定时记录的,频率配高一点跑跑看
或者一步到位Prometheus也没毛病...
我感觉你列 ...

老专家有什么排查配置的思路吗?或者说先等一段时间拿到内存使用日志再说?
回复

使用道具 举报

     
 楼主| 发表于 2025-6-2 23:56 来自手机 | 显示全部楼层
tsubasa9 发表于 2025-6-2 11:48
内存爆炸把ffmpeg杀了
你就不能先少开点容器看看会不会死机?

没…………没有规律嘛我也不知道先噶谁,总之我把ffmpeg先斩了看看情况?
回复

使用道具 举报

     
发表于 2025-6-3 09:29 | 显示全部楼层
WiiGe 发表于 2025-6-2 23:54
我是docker compose启的,随便加
resource:
limite/reservation:

我用podman的不用docker,你看看官方文档是不是配置错了,先用命令行加cpu内存参数启动测试一段时间
回复

使用道具 举报

发表于 2025-6-3 09:39 | 显示全部楼层
本帖最后由 tsubasa9 于 2025-6-3 09:41 编辑

没有规律就应该先空置啥都不跑,控制变量好歹学过吧
先前办公室工作站跑服务也是差不多症状
重装了个minimal的archlinux一样表现
最后换了内存才解决
基本认定是内存兼容问题
内存测试和log毫无问题
回复

使用道具 举报

头像被屏蔽
     
发表于 2025-6-3 09:40 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

     
 楼主| 发表于 2025-6-3 09:49 | 显示全部楼层
moondigi 发表于 2025-6-3 09:29
我用podman的不用docker,你看看官方文档是不是配置错了,先用命令行加cpu内存参数启动测试一段时间 ...

好奇问问podman是不是就是非商业的docker? 我看官网的意思好像是和k8s很近, 也是用containerd的吗? 我只有一些k3s写yaml的经历没用过podman
回复

使用道具 举报

     
 楼主| 发表于 2025-6-3 09:55 | 显示全部楼层
tsubasa9 发表于 2025-6-3 09:39
没有规律就应该先空置啥都不跑,控制变量好歹学过吧
先前办公室工作站跑服务也是差不多症状
重装了个minima ...

对的对的对的, 这种测不出来但是跑起来怎么都不顺的问题最烦人叻
最开始控制变量想的是再弄一台Z8G4然后配置匀一匀弄成两个256G内存的机器负债均衡看看
但是预算不太够, 就想还是先来坛里问问, 指不定有什么思路
空跑肯定是不太行的, 这些服务是我的刚需, 所以还是回到了预算不太够的情况上来了哈哈
回复

使用道具 举报

     
发表于 2025-6-3 10:38 | 显示全部楼层
线上运行的机器一般是推荐把swap干掉的,这样它即使OOM也不太会拖累大家一起死
另外有带外硬件监控吗?
回复

使用道具 举报

     
 楼主| 发表于 2025-6-3 15:12 来自手机 | 显示全部楼层
ChengChung 发表于 2025-6-3 10:38
线上运行的机器一般是推荐把swap干掉的,这样它即使OOM也不太会拖累大家一起死
另外有带外硬件监控吗? ...

好问题,HP的工作站都只有Intel AMT,就那个破vPro,我不知道这东西到底能不能算BMC
回复

使用道具 举报

     
 楼主| 发表于 2025-6-11 08:54 | 显示全部楼层
本帖最后由 WiiGe 于 2025-6-11 10:52 编辑

在这一周内我做了的改进:

- 接受 ChengChung 的建议干掉了 swap
- 接受 moondigi 的建议给compose.yaml 加了limit
- 接受 tsubasa9 的建议空载 48小时 (未见异常)
- 买了台洋垃圾小主机搭 Prometheus, 但机器还在快递员手上
- 添加了两根64G内存, 但有一根无法识别而正处于退换货状态, 机器上已安装3根64G内存

昨天下午仍旧出现一次死机情况, 内核日志已于1楼更新


Update: 刚才2025-06-11-10:40 又一次死机, 机器在拉取docker hub的vllm的镜像的同时我通过WebDav打开了一个BDMV文件夹, 这时Plex正在执行入库操作, 然后它就死机了

会不会和网络/文件系统的IO有关系?

回复

使用道具 举报

     
 楼主| 发表于 2025-6-11 13:32 | 显示全部楼层
本帖最后由 WiiGe 于 2025-6-11 13:34 编辑

附sar结果:
  1. sar -f /var/log/sysstat/sa04
  2. Linux 6.8.0-60-generic (z8g4-portal)    06/04/2025      _x86_64_        (80 CPU)

  3. 12:00:22 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
  4. 12:10:13 AM     all      0.45      0.20      0.43      0.23      0.00     98.69
  5. 12:20:12 AM     all      0.44      0.18      0.45      0.14      0.00     98.79
  6. 12:30:24 AM     all      0.38      0.00      0.14      0.00      0.00     99.48
  7. 12:40:06 AM     all      0.38      0.00      0.14      0.00      0.00     99.48
  8. 12:50:04 AM     all      0.37      0.00      0.13      0.00      0.00     99.49
  9. 01:00:23 AM     all      0.35      0.00      0.12      0.00      0.00     99.53
  10. 01:10:12 AM     all      0.53      0.00      0.22      0.00      0.00     99.24
  11. 01:20:10 AM     all      0.36      0.00      0.13      0.00      0.00     99.51
  12. 01:30:02 AM     all      0.48      0.00      0.21      0.00      0.00     99.31
  13. 01:40:17 AM     all      0.41      0.00      0.18      0.00      0.00     99.41
  14. 01:50:06 AM     all      0.49      0.00      0.36      0.00      0.00     99.15
  15. 02:00:05 AM     all      0.47      0.00      0.32      0.00      0.00     99.21
  16. 02:10:21 AM     all      0.53      0.00      0.39      0.01      0.00     99.07
  17. 02:20:02 AM     all      0.45      0.00      0.29      0.00      0.00     99.26
  18. 02:30:15 AM     all      0.43      0.00      0.24      0.00      0.00     99.33
  19. 02:40:24 AM     all      0.45      0.00      0.28      0.00      0.00     99.27
  20. 02:50:06 AM     all      0.37      0.00      0.15      0.00      0.00     99.48
  21. 03:00:16 AM     all      0.34      0.00      0.12      0.00      0.00     99.54
  22. 03:10:02 AM     all      0.68      0.00      0.43      0.00      0.00     98.88
  23. 03:20:05 AM     all      0.58      0.00      0.32      0.00      0.00     99.10
  24. 03:30:24 AM     all      0.37      0.00      0.16      0.00      0.00     99.47
  25. 03:40:14 AM     all      0.37      0.00      0.15      0.00      0.00     99.48
  26. 03:50:24 AM     all      0.36      0.00      0.12      0.00      0.00     99.52
  27. 04:00:02 AM     all      0.35      0.00      0.12      0.00      0.00     99.53
  28. 04:10:24 AM     all      0.37      0.00      0.12      0.00      0.00     99.51
  29. 04:20:04 AM     all      0.36      0.00      0.12      0.00      0.00     99.52
  30. 04:30:22 AM     all      0.35      0.00      0.12      0.00      0.00     99.53
  31. 04:40:14 AM     all      0.49      0.00      0.24      0.03      0.00     99.24
  32. 04:50:12 AM     all      0.52      0.00      0.17      0.01      0.00     99.30
  33. 05:00:16 AM     all      0.36      0.00      0.12      0.00      0.00     99.51
  34. 05:10:02 AM     all      0.66      0.00      0.24      0.04      0.00     99.06
  35. 05:20:08 AM     all      0.49      0.00      0.19      0.07      0.00     99.25
  36. 05:30:13 AM     all      0.36      0.00      0.12      0.00      0.00     99.51
  37. 05:40:22 AM     all      0.37      0.00      0.13      0.00      0.00     99.50
  38. 05:50:01 AM     all      0.35      0.00      0.12      0.00      0.00     99.52
  39. 06:00:12 AM     all      0.35      0.00      0.12      0.00      0.00     99.54
  40. 06:10:24 AM     all      0.38      0.00      0.12      0.00      0.00     99.49
  41. 06:20:02 AM     all      0.35      0.00      0.12      0.00      0.00     99.54
  42. 06:30:24 AM     all      0.35      0.00      0.12      0.00      0.00     99.53
  43. 06:40:24 AM     all      0.39      0.00      0.13      0.00      0.00     99.47
  44. 06:50:10 AM     all      0.39      0.00      0.13      0.00      0.00     99.48
  45. 07:00:24 AM     all      0.40      0.00      0.13      0.00      0.00     99.46
  46. 07:10:02 AM     all      0.40      0.00      0.13      0.00      0.00     99.47
  47. 07:20:08 AM     all      0.35      0.00      0.12      0.00      0.00     99.53
  48. 07:30:17 AM     all      0.35      0.00      0.12      0.00      0.00     99.54
  49. 07:40:22 AM     all      0.39      0.00      0.12      0.00      0.00     99.49
  50. 07:50:12 AM     all      0.35      0.00      0.11      0.00      0.00     99.53
  51. 08:00:00 AM     all      0.35      0.00      0.12      0.00      0.00     99.53
  52. 08:10:11 AM     all      0.38      0.00      0.12      0.00      0.00     99.49
  53. 08:20:10 AM     all      0.35      0.00      0.11      0.00      0.00     99.54
  54. 08:30:00 AM     all      0.36      0.00      0.12      0.00      0.00     99.51
  55. 08:40:24 AM     all      0.36      0.00      0.12      0.00      0.00     99.52
  56. 08:50:02 AM     all      0.36      0.00      0.12      0.00      0.00     99.51
  57. 09:00:24 AM     all      0.36      0.00      0.14      0.00      0.00     99.50
  58. 09:10:24 AM     all      0.88      0.52      0.38      0.08      0.00     98.14
  59. 09:20:01 AM     all      0.36      2.08      0.35      0.00      0.00     97.21
  60. 09:30:24 AM     all      0.35      2.06      0.35      0.00      0.00     97.24
  61. 09:40:12 AM     all      0.36      2.06      0.36      0.00      0.00     97.21
  62. 09:50:05 AM     all      0.37      2.07      0.36      0.00      0.00     97.20
  63. 10:00:02 AM     all      0.35      2.07      0.36      0.00      0.00     97.21

  64. 10:00:02 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
  65. 10:10:03 AM     all      0.93      0.26      0.40      0.08      0.00     98.34
  66. 10:20:05 AM     all      0.37      0.00      0.13      0.00      0.00     99.50
  67. 10:30:12 AM     all      0.37      0.00      0.13      0.00      0.00     99.51
  68. 10:40:06 AM     all      0.37      0.00      0.13      0.00      0.00     99.49
  69. 10:50:02 AM     all      0.36      0.00      0.12      0.00      0.00     99.51
  70. 11:00:24 AM     all      0.36      0.00      0.12      0.00      0.00     99.52
  71. 11:10:07 AM     all      0.38      0.00      0.13      0.00      0.00     99.49
  72. 11:20:11 AM     all      0.37      0.00      0.13      0.00      0.00     99.50
  73. 11:30:17 AM     all      0.37      0.00      0.12      0.00      0.00     99.50
  74. 11:40:02 AM     all      0.37      0.00      0.14      0.00      0.00     99.49
  75. 11:50:04 AM     all      0.37      0.00      0.12      0.00      0.00     99.50
  76. 12:00:24 PM     all      0.36      0.00      0.12      0.00      0.00     99.51
  77. 12:10:22 PM     all      0.37      0.00      0.13      0.00      0.00     99.50
  78. 12:20:12 PM     all      0.36      0.00      0.12      0.00      0.00     99.51
  79. 12:30:08 PM     all      0.37      0.00      0.12      0.00      0.00     99.50
  80. 12:40:24 PM     all      0.37      0.00      0.12      0.00      0.00     99.51
  81. 12:50:02 PM     all      0.37      0.00      0.12      0.00      0.00     99.51
  82. 01:00:14 PM     all      0.37      0.00      0.12      0.00      0.00     99.51
  83. 01:10:13 PM     all      0.38      0.00      0.12      0.00      0.00     99.49
  84. 01:20:11 PM     all      0.35      0.00      0.12      0.00      0.00     99.52
  85. 01:30:24 PM     all      0.37      0.00      0.13      0.01      0.00     99.49
  86. 01:40:12 PM     all      0.37      0.00      0.13      0.01      0.00     99.50
  87. 01:50:07 PM     all      0.36      0.00      0.12      0.00      0.00     99.52
  88. 02:00:02 PM     all      0.36      0.00      0.12      0.00      0.00     99.51
  89. 02:10:23 PM     all      0.39      0.00      0.12      0.00      0.00     99.49
  90. 02:20:22 PM     all      0.36      0.00      0.12      0.00      0.00     99.52
  91. 02:30:12 PM     all      0.37      0.00      0.12      0.00      0.00     99.50
  92. 02:40:24 PM     all      0.37      0.00      0.12      0.00      0.00     99.51
  93. 02:50:02 PM     all      0.38      0.00      0.13      0.00      0.00     99.48
  94. 03:00:15 PM     all      0.53      0.00      0.21      0.09      0.00     99.17
  95. 03:10:01 PM     all      0.59      0.00      0.16      0.00      0.00     99.25
  96. 03:20:21 PM     all      0.53      0.00      0.15      0.00      0.00     99.32
  97. 03:30:24 PM     all      0.38      0.00      0.15      0.00      0.00     99.47
  98. 03:40:02 PM     all      0.46      0.00      0.15      0.00      0.00     99.39
  99. 03:50:24 PM     all      0.40      0.00      0.14      0.00      0.00     99.46
  100. 04:00:24 PM     all      0.43      0.00      0.15      0.00      0.00     99.42
  101. 04:10:22 PM     all      0.38      0.00      0.14      0.00      0.00     99.48
  102. 04:20:24 PM     all      0.41      0.00      0.15      0.00      0.00     99.44
  103. 04:30:07 PM     all      0.39      0.00      0.14      0.00      0.00     99.47
  104. 04:40:16 PM     all      0.43      0.00      0.15      0.00      0.00     99.42
  105. 04:50:08 PM     all      0.38      0.00      0.14      0.00      0.00     99.48
  106. 05:00:14 PM     all      0.40      0.00      0.15      0.00      0.00     99.45
  107. 05:10:09 PM     all      0.44      0.00      0.15      0.00      0.00     99.41
  108. 05:20:12 PM     all      0.39      0.00      0.13      0.00      0.00     99.48
  109. 05:30:24 PM     all      0.38      0.00      0.14      0.00      0.00     99.48
  110. 05:40:02 PM     all      0.41      0.00      0.14      0.00      0.00     99.45
  111. 05:50:22 PM     all      0.41      0.00      0.17      0.06      0.00     99.35
  112. 06:00:00 PM     all      0.44      0.00      0.14      0.00      0.00     99.42
  113. 06:10:12 PM     all      0.47      0.00      0.14      0.00      0.00     99.39
  114. 06:20:06 PM     all      0.47      0.00      0.18      0.00      0.00     99.35
  115. 06:30:02 PM     all      0.44      0.00      0.16      0.00      0.00     99.40
  116. 06:40:05 PM     all      0.46      0.00      0.15      0.00      0.00     99.38
  117. 06:50:17 PM     all      0.44      0.00      0.12      0.00      0.00     99.43
  118. 07:00:06 PM     all      0.45      0.00      0.14      0.00      0.00     99.41
  119. 07:10:20 PM     all      0.44      0.00      0.14      0.00      0.00     99.42
  120. 07:20:02 PM     all      0.41      0.00      0.13      0.00      0.00     99.45
  121. 07:30:09 PM     all      0.41      0.00      0.13      0.00      0.00     99.45
  122. 07:40:24 PM     all      0.42      0.00      0.14      0.00      0.00     99.43
  123. 07:50:11 PM     all      0.37      0.00      0.13      0.00      0.00     99.49
  124. 08:00:24 PM     all      0.37      0.00      0.13      0.00      0.00     99.50

  125. 08:00:24 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
  126. 08:10:12 PM     all      0.37      0.00      0.13      0.00      0.00     99.50
  127. 08:20:07 PM     all     30.58      1.26      0.71      0.01      0.00     67.44
  128. 08:30:02 PM     all     33.38     12.77      5.61      0.08      0.00     48.15
  129. 08:40:24 PM     all     27.96      7.33      2.78      0.01      0.00     61.92
  130. 08:50:16 PM     all     23.59      0.99      0.48      0.00      0.00     74.94
  131. 09:00:20 PM     all     23.15      0.90      0.49      0.00      0.00     75.46
  132. 09:10:24 PM     all     23.69      0.96      0.53      0.00      0.00     74.82
  133. 09:20:07 PM     all     23.88      0.99      0.57      0.00      0.00     74.55
  134. 09:30:24 PM     all     24.19      1.00      0.56      0.00      0.00     74.25
  135. 09:40:02 PM     all     24.29      0.96      0.58      0.00      0.00     74.17
  136. 09:50:18 PM     all     17.12      0.55      0.41      0.00      0.00     81.91
  137. 10:00:24 PM     all      0.36      0.00      0.15      0.00      0.00     99.49
  138. 10:10:12 PM     all      0.37      0.00      0.14      0.00      0.00     99.49
  139. 10:20:24 PM     all      0.40      0.00      0.17      0.00      0.00     99.43
  140. 10:30:02 PM     all      0.40      0.00      0.14      0.00      0.00     99.46
  141. 10:40:03 PM     all      0.40      0.00      0.17      0.00      0.00     99.42
  142. 10:50:24 PM     all      0.38      0.00      0.16      0.00      0.00     99.46
  143. 11:00:12 PM     all      0.38      0.00      0.15      0.00      0.00     99.47
  144. 11:10:07 PM     all      0.38      0.00      0.16      0.00      0.00     99.46
  145. 11:20:02 PM     all      0.39      0.00      0.16      0.00      0.00     99.45
  146. 11:30:01 PM     all      0.43      0.00      0.16      0.00      0.00     99.40
  147. 11:40:24 PM     all      0.39      0.00      0.16      0.00      0.00     99.45
  148. 11:50:05 PM     all      0.39      0.00      0.15      0.00      0.00     99.46
  149. Average:        all      2.13      0.27      0.24      0.01      0.00     97.34
复制代码



  1. sar -f /var/log/sysstat/sa10
  2. Linux 6.8.0-60-generic (z8g4-portal)    06/10/2025      _x86_64_        (80 CPU)

  3. 12:00:04 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
  4. 12:10:11 AM     all     20.56      1.25      2.31      0.05      0.00     75.83
  5. 12:20:17 AM     all     20.28      1.09      2.39      0.05      0.00     76.18
  6. 12:30:09 AM     all     19.09      0.06      2.50      0.33      0.00     78.01
  7. 12:40:07 AM     all     18.94      0.00      2.30      0.04      0.00     78.72
  8. 12:50:14 AM     all     18.86      0.00      2.32      0.04      0.00     78.78
  9. 01:00:08 AM     all     18.84      0.00      2.45      0.05      0.00     78.66
  10. 01:10:04 AM     all     18.88      0.00      2.55      0.06      0.00     78.50
  11. 01:20:08 AM     all     18.70      0.00      2.49      0.06      0.00     78.74
  12. 01:30:02 AM     all     18.67      0.00      2.56      0.07      0.00     78.70
  13. 01:40:04 AM     all     18.50      0.00      2.67      0.07      0.00     78.76
  14. 01:50:04 AM     all     18.48      0.00      2.66      0.08      0.00     78.78
  15. 02:00:01 AM     all     18.59      0.00      2.63      0.08      0.00     78.70
  16. 02:10:04 AM     all     18.60      0.00      2.60      0.07      0.00     78.73
  17. 02:20:04 AM     all     18.67      0.00      2.53      0.06      0.00     78.74
  18. 02:30:15 AM     all     18.59      0.00      2.63      0.07      0.00     78.72
  19. 02:40:17 AM     all     18.45      0.00      2.69      0.07      0.00     78.79
  20. 02:50:14 AM     all     18.54      0.00      2.61      0.07      0.00     78.79
  21. 03:00:12 AM     all     18.86      0.00      2.35      0.06      0.00     78.73
  22. 03:10:00 AM     all     19.15      0.00      2.59      0.06      0.00     78.19
  23. 03:20:12 AM     all     18.81      0.00      2.62      0.06      0.00     78.51
  24. 03:30:17 AM     all     18.45      0.00      2.68      0.06      0.00     78.81
  25. 03:40:07 AM     all     18.41      0.00      2.74      0.06      0.00     78.79
  26. 03:50:01 AM     all     18.47      0.00      2.67      0.06      0.00     78.79
  27. 04:00:04 AM     all     18.51      0.00      2.67      0.07      0.00     78.75
  28. 04:10:17 AM     all     18.47      0.00      2.65      0.06      0.00     78.82
  29. 04:20:17 AM     all     18.44      0.00      2.69      0.06      0.00     78.80
  30. 04:30:13 AM     all     18.52      0.00      2.61      0.06      0.00     78.80
  31. 04:40:10 AM     all     18.53      0.00      2.59      0.07      0.00     78.81
  32. 04:50:14 AM     all     18.51      0.00      2.63      0.06      0.00     78.80
  33. 05:00:08 AM     all     18.72      0.00      2.70      0.07      0.00     78.51
  34. 05:10:17 AM     all     18.76      0.00      2.45      0.06      0.00     78.74
  35. 05:20:09 AM     all     18.55      0.00      2.68      0.06      0.00     78.71
  36. 05:30:13 AM     all     18.50      0.00      2.69      0.06      0.00     78.75
  37. 05:40:05 AM     all     18.66      0.00      2.56      0.06      0.00     78.73
  38. 05:50:17 AM     all     18.71      0.00      2.50      0.06      0.00     78.73
  39. 06:00:04 AM     all     18.77      0.00      2.53      0.06      0.00     78.64
  40. 06:10:07 AM     all     18.84      0.00      2.64      0.06      0.00     78.46
  41. 06:20:17 AM     all     18.87      0.00      2.55      0.06      0.00     78.52
  42. 06:30:14 AM     all     18.76      0.00      2.47      0.06      0.00     78.72
  43. 06:40:17 AM     all     18.66      0.00      2.61      0.06      0.00     78.68
  44. 06:50:02 AM     all     18.66      0.00      2.59      0.06      0.00     78.70
  45. 07:00:14 AM     all     18.68      0.00      2.54      0.06      0.00     78.72
  46. 07:10:12 AM     all     18.58      0.00      2.54      0.05      0.00     78.83
  47. 07:20:14 AM     all     18.63      0.00      2.20      0.05      0.00     79.12
  48. 07:30:14 AM     all      1.32      0.00      0.18      0.00      0.00     98.50
  49. 07:40:04 AM     all      0.23      0.00      0.10      0.00      0.00     99.67
  50. 07:50:17 AM     all      0.23      0.00      0.10      0.00      0.00     99.67
  51. 08:00:04 AM     all      0.27      0.00      0.10      0.00      0.00     99.62
  52. 08:10:08 AM     all      0.24      0.00      0.10      0.00      0.00     99.66
  53. 08:20:17 AM     all      0.24      0.00      0.10      0.00      0.00     99.65
  54. 08:30:00 AM     all      0.24      0.00      0.10      0.00      0.00     99.65
  55. 08:40:01 AM     all      0.24      0.00      0.10      0.00      0.00     99.66
  56. 08:50:17 AM     all      0.24      0.00      0.11      0.00      0.00     99.65
  57. 09:00:13 AM     all      0.33      0.00      0.19      0.00      0.00     99.47
  58. 09:10:04 AM     all      0.74      1.21      0.42      0.08      0.00     97.56
  59. 09:20:02 AM     all      0.26      2.06      0.34      0.00      0.00     97.34
  60. 09:30:14 AM     all      0.26      2.06      0.35      0.00      0.00     97.33
  61. 09:40:04 AM     all      0.24      2.03      0.37      0.00      0.00     97.36
  62. 09:50:03 AM     all      0.23      2.03      0.37      0.00      0.00     97.36
  63. 10:00:10 AM     all      0.54      1.58      0.38      0.13      0.00     97.38

  64. 10:00:10 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
  65. 10:10:11 AM     all      0.49      0.00      0.17      0.19      0.00     99.15
  66. 10:20:17 AM     all      0.25      0.00      0.11      0.00      0.00     99.63
  67. 10:30:06 AM     all      0.25      0.00      0.11      0.00      0.00     99.64
  68. 10:40:17 AM     all      0.26      0.00      0.11      0.00      0.00     99.62
  69. 10:50:04 AM     all      0.26      0.00      0.11      0.00      0.00     99.63
  70. 11:00:13 AM     all      0.31      0.00      0.12      0.00      0.00     99.56
  71. 11:10:17 AM     all      0.27      0.00      0.11      0.00      0.00     99.62
  72. 11:20:14 AM     all      0.39      0.42      0.34      0.16      0.00     98.68
  73. 11:30:15 AM     all      0.45      3.57      0.69      0.21      0.00     95.08
  74. 11:40:04 AM     all      0.25      2.06      0.30      0.05      0.00     97.35
  75. 11:50:04 AM     all      0.24      2.10      0.30      0.05      0.00     97.31
  76. 12:00:13 PM     all      0.33      2.08      0.35      0.04      0.00     97.20
  77. 12:10:17 PM     all      0.28      2.08      0.31      0.03      0.00     97.30
  78. 12:20:17 PM     all      0.25      2.11      0.31      0.04      0.00     97.30
  79. 12:30:04 PM     all      0.24      2.08      0.32      0.05      0.00     97.31
  80. 12:40:17 PM     all      0.25      2.09      0.30      0.05      0.00     97.32
  81. 12:50:04 PM     all      0.25      2.10      0.30      0.04      0.00     97.31
  82. 01:00:15 PM     all      0.30      2.09      0.31      0.04      0.00     97.24
  83. 01:10:17 PM     all      0.25      2.08      0.30      0.05      0.00     97.32
  84. 01:20:14 PM     all      0.25      2.09      0.29      0.01      0.00     97.37
  85. 01:30:14 PM     all      0.27      2.12      0.49      0.40      0.00     96.73
  86. 01:40:17 PM     all      0.25      2.11      0.27      0.01      0.00     97.37
  87. 01:50:00 PM     all      0.48      7.19      2.88      0.16      0.00     89.29
  88. 02:00:14 PM     all      1.42      3.94      1.77      0.47      0.00     92.40
  89. 02:10:14 PM     all      1.03      4.71      1.40      0.75      0.00     92.11
  90. 02:20:17 PM     all      0.73      3.71      1.33      1.48      0.00     92.75
  91. 02:30:04 PM     all      0.27      1.96      0.32      0.02      0.00     97.43
  92. 02:40:17 PM     all      0.26      2.07      0.36      0.04      0.00     97.26
  93. 02:50:17 PM     all      0.28      2.07      0.33      0.01      0.00     97.32
  94. 03:00:14 PM     all      0.30      2.07      0.34      0.00      0.00     97.28
  95. 03:10:17 PM     all      0.27      2.08      0.35      0.00      0.00     97.30
  96. 03:20:04 PM     all      0.26      2.10      0.33      0.00      0.00     97.31
  97. 03:30:15 PM     all      0.27      2.06      0.28      0.01      0.00     97.39
  98. 03:40:17 PM     all      0.28      2.16      0.25      0.00      0.00     97.31
  99. 03:50:03 PM     all      0.31      2.18      0.30      0.01      0.00     97.20
  100. 04:00:13 PM     all      0.37      2.25      0.31      0.02      0.00     97.05
  101. 04:10:04 PM     all      0.26      2.34      0.24      0.00      0.00     97.15
  102. 04:20:17 PM     all      0.25      2.33      0.28      0.00      0.00     97.14
  103. 04:30:17 PM     all      0.26      2.27      0.29      0.01      0.00     97.18
  104. 04:40:09 PM     all      0.24      2.17      0.24      0.02      0.00     97.33
  105. 04:50:04 PM     all      0.25      2.28      0.26      0.12      0.00     97.09
  106. 05:00:14 PM     all      0.31      2.28      0.26      0.00      0.00     97.15
  107. 05:10:17 PM     all      0.38      2.68      0.43      0.08      0.00     96.43
  108. Average:        all      8.24      0.98      1.31      0.08      0.00     89.39

  109. 05:30:58 PM  LINUX RESTART      (80 CPU)

  110. 05:40:07 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
  111. 05:50:37 PM     all      1.06      0.00      0.63      0.03      0.00     98.28
  112. 06:00:07 PM     all      0.70      0.00      0.41      0.01      0.00     98.88
  113. 06:10:07 PM     all      0.54      0.00      0.24      0.01      0.00     99.22
  114. 06:20:09 PM     all      0.43      0.00      0.17      0.01      0.00     99.40
  115. 06:30:13 PM     all      0.45      0.00      0.24      0.01      0.00     99.30
  116. 06:40:06 PM     all      0.41      0.00      0.25      0.21      0.00     99.13
  117. 06:50:07 PM     all      0.37      0.00      0.11      0.00      0.00     99.51
  118. 07:00:34 PM     all      0.34      0.00      0.10      0.00      0.00     99.55
  119. 07:10:13 PM     all      0.39      0.00      0.11      0.00      0.00     99.50
  120. 07:20:27 PM     all      0.36      0.00      0.10      0.00      0.00     99.54
  121. 07:30:06 PM     all      0.37      0.00      0.10      0.00      0.00     99.53
  122. 07:40:17 PM     all      0.37      0.00      0.21      0.02      0.00     99.39
  123. 07:50:21 PM     all      0.39      0.00      0.33      0.01      0.00     99.26
  124. 08:00:07 PM     all      0.38      0.00      0.11      0.00      0.00     99.51
  125. 08:10:27 PM     all      0.99      0.53      0.14      0.00      0.00     98.34
  126. 08:20:00 PM     all      7.23      3.58      0.44      0.01      0.00     88.74
  127. 08:30:17 PM     all      4.43      1.58      0.38      0.02      0.00     93.59
  128. 08:40:31 PM     all      3.73      1.75      0.30      0.00      0.00     94.22
  129. 08:50:07 PM     all      4.20      2.93      0.34      0.00      0.00     92.53
  130. 09:00:14 PM     all      3.50      2.32      0.32      0.00      0.00     93.85
  131. 09:10:06 PM     all      1.14      0.63      0.16      0.00      0.00     98.07
  132. 09:20:27 PM     all      0.68      0.24      0.13      0.00      0.00     98.95
  133. 09:30:12 PM     all      0.33      0.00      0.10      0.00      0.00     99.57
  134. 09:40:07 PM     all      0.36      0.00      0.10      0.00      0.00     99.54
  135. 09:50:08 PM     all      0.34      0.00      0.10      0.00      0.00     99.56
  136. 10:00:21 PM     all      0.34      0.00      0.10      0.00      0.00     99.56
  137. 10:10:16 PM     all      0.38      0.00      0.11      0.00      0.00     99.51
  138. 10:20:12 PM     all      0.33      0.00      0.10      0.00      0.00     99.56
  139. 10:30:17 PM     all      0.33      0.00      0.11      0.00      0.00     99.55
  140. 10:40:19 PM     all      0.34      0.00      0.11      0.00      0.00     99.54
  141. 10:50:37 PM     all      0.34      0.00      0.10      0.00      0.00     99.55
  142. 11:00:11 PM     all      0.38      0.00      0.11      0.00      0.00     99.52
  143. 11:10:04 PM     all      0.36      0.00      0.11      0.00      0.00     99.53
  144. 11:20:08 PM     all      0.34      0.00      0.10      0.00      0.00     99.56
  145. 11:30:24 PM     all      0.33      0.00      0.10      0.00      0.00     99.57
  146. 11:40:07 PM     all      0.33      0.00      0.10      0.00      0.00     99.57
  147. 11:50:27 PM     all      0.34      0.00      0.10      0.00      0.00     99.56
  148. Average:        all      1.01      0.36      0.19      0.01      0.00     98.43
复制代码
回复

使用道具 举报

     
发表于 2025-6-11 14:18 | 显示全部楼层
还是用wintogo跑个窗试试吧
回复

使用道具 举报

     
发表于 2025-6-11 21:31 来自手机 | 显示全部楼层
怀疑是硬盘问题的话fsck试了吗
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|上海互联网违法和不良信息举报中心|网上有害信息举报专区|962110 反电信诈骗|举报电话 021-62035905|Stage1st ( 沪ICP备13020230号-1|沪公网安备 31010702007642号 )

GMT+8, 2025-6-15 22:49 , Processed in 0.134296 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表