1.. include:: ../disclaimer-zh_CN.rst
2
3:Original: :doc:`../../../admin-guide/bug-hunting`
4
5:译者:
6
7 吴想成 Wu XiangCheng <bobwxc@email.cn>
8
9追踪缺陷
10=========
11
12内核错误报告通常附带如下堆栈转储::
13
14	------------[ cut here ]------------
15	WARNING: CPU: 1 PID: 28102 at kernel/module.c:1108 module_put+0x57/0x70
16	Modules linked in: dvb_usb_gp8psk(-) dvb_usb dvb_core nvidia_drm(PO) nvidia_modeset(PO) snd_hda_codec_hdmi snd_hda_intel snd_hda_codec snd_hwdep snd_hda_core snd_pcm snd_timer snd soundcore nvidia(PO) [last unloaded: rc_core]
17	CPU: 1 PID: 28102 Comm: rmmod Tainted: P        WC O 4.8.4-build.1 #1
18	Hardware name: MSI MS-7309/MS-7309, BIOS V1.12 02/23/2009
19	 00000000 c12ba080 00000000 00000000 c103ed6a c1616014 00000001 00006dc6
20	 c1615862 00000454 c109e8a7 c109e8a7 00000009 ffffffff 00000000 f13f6a10
21	 f5f5a600 c103ee33 00000009 00000000 00000000 c109e8a7 f80ca4d0 c109f617
22	Call Trace:
23	 [<c12ba080>] ? dump_stack+0x44/0x64
24	 [<c103ed6a>] ? __warn+0xfa/0x120
25	 [<c109e8a7>] ? module_put+0x57/0x70
26	 [<c109e8a7>] ? module_put+0x57/0x70
27	 [<c103ee33>] ? warn_slowpath_null+0x23/0x30
28	 [<c109e8a7>] ? module_put+0x57/0x70
29	 [<f80ca4d0>] ? gp8psk_fe_set_frontend+0x460/0x460 [dvb_usb_gp8psk]
30	 [<c109f617>] ? symbol_put_addr+0x27/0x50
31	 [<f80bc9ca>] ? dvb_usb_adapter_frontend_exit+0x3a/0x70 [dvb_usb]
32	 [<f80bb3bf>] ? dvb_usb_exit+0x2f/0xd0 [dvb_usb]
33	 [<c13d03bc>] ? usb_disable_endpoint+0x7c/0xb0
34	 [<f80bb48a>] ? dvb_usb_device_exit+0x2a/0x50 [dvb_usb]
35	 [<c13d2882>] ? usb_unbind_interface+0x62/0x250
36	 [<c136b514>] ? __pm_runtime_idle+0x44/0x70
37	 [<c13620d8>] ? __device_release_driver+0x78/0x120
38	 [<c1362907>] ? driver_detach+0x87/0x90
39	 [<c1361c48>] ? bus_remove_driver+0x38/0x90
40	 [<c13d1c18>] ? usb_deregister+0x58/0xb0
41	 [<c109fbb0>] ? SyS_delete_module+0x130/0x1f0
42	 [<c1055654>] ? task_work_run+0x64/0x80
43	 [<c1000fa5>] ? exit_to_usermode_loop+0x85/0x90
44	 [<c10013f0>] ? do_fast_syscall_32+0x80/0x130
45	 [<c1549f43>] ? sysenter_past_esp+0x40/0x6a
46	---[ end trace 6ebc60ef3981792f ]---
47
48这样的堆栈跟踪提供了足够的信息来识别内核源代码中发生错误的那一行。根据问题的
49严重性,它还可能包含 **“Oops”** 一词,比如::
50
51	BUG: unable to handle kernel NULL pointer dereference at   (null)
52	IP: [<c06969d4>] iret_exc+0x7d0/0xa59
53	*pdpt = 000000002258a001 *pde = 0000000000000000
54	Oops: 0002 [#1] PREEMPT SMP
55	...
56
57尽管有 **Oops** 或其他类型的堆栈跟踪,但通常需要找到出问题的行来识别和处理缺
58陷。在本章中,我们将参考“Oops”来了解需要分析的各种堆栈跟踪。
59
60如果内核是用 ``CONFIG_DEBUG_INFO`` 编译的,那么可以使用文件:
61`scripts/decode_stacktrace.sh` 。
62
63链接的模块
64-----------
65
66受到污染或正在加载/卸载的模块用“(…)”标记,污染标志在
67`Documentation/admin-guide/tainted-kernels.rst` 文件中进行了描述,“正在被加
68载”用“+”标注,“正在被卸载”用“-”标注。
69
70
71Oops消息在哪?
72---------------
73
74通常,Oops文本由klogd从内核缓冲区读取,然后交给 ``syslogd`` ,后者将其写入
75syslog文件,通常是 ``/var/log/messages`` (取决于 ``/etc/syslog.conf`` )。
76在使用systemd的系统上,它也可以由 ``journald`` 守护进程存储,并通过运行
77``journalctl`` 命令进行访问。
78
79有时 ``klogd`` 会挂掉,这种情况下您可以运行 ``dmesg > file`` 从内核缓冲区
80读取数据并保存它。或者您可以 ``cat /proc/kmsg > file`` ,但是您必须适时
81中断以停止传输,因为 ``kmsg`` 是一个“永无止境的文件”。
82
83如果机器严重崩溃,无法输入命令或磁盘不可用,那还有三个选项:
84
85(1) 手动复制屏幕上的文本,并在机器重新启动后输入。很难受,但这是突然崩溃下
86    唯一的选择。或者你可以用数码相机拍下屏幕——虽然不那么好,但总比什么都没
87    有好。如果消息滚动超出控制台顶部,使用更高分辨率(例如 ``vga=791`` )
88    引导启动将允许您阅读更多文本。(警告:这需要 ``vesafb`` ,因此对“早期”
89    的Oppses没有帮助)
90
91(2) 从串口终端启动(参见
92    :ref:`Documentation/admin-guide/serial-console.rst <serial_console>` ),
93    在另一台机器上运行调制解调器然后用你喜欢的通信程序捕获输出。
94    Minicom运行良好。
95
96(3) 使用Kdump(参阅 Documentation/admin-guide/kdump/kdump.rst ),使用
97    Documentation/admin-guide/kdump/gdbmacros.txt 中的dmesg gdbmacro从旧内存
98    中提取内核环形缓冲区。
99
100找到缺陷位置
101-------------
102
103如果你能指出缺陷在内核源代码中的位置,则报告缺陷的效果会非常好。这有两种方法。
104通常来说使用 ``gdb`` 会比较容易,不过内核需要用调试信息来预编译。
105
106gdb
107^^^^
108
109GNU 调试器(GNU debugger, ``gdb`` )是从 ``vmlinux`` 文件中找出OOPS的确切
110文件和行号的最佳方法。
111
112在使用 ``CONFIG_DEBUG_INFO`` 编译的内核上使用gdb效果最好。可通过运行以下命令
113进行设置::
114
115  $ ./scripts/config -d COMPILE_TEST -e DEBUG_KERNEL -e DEBUG_INFO
116
117在用 ``CONFIG_DEBUG_INFO`` 编译的内核上,你可以直接从OOPS复制EIP值::
118
119 EIP:    0060:[<c021e50e>]    Not tainted VLI
120
121并使用GDB来将其翻译成可读形式::
122
123  $ gdb vmlinux
124  (gdb) l *0xc021e50e
125
126如果没有启用 ``CONFIG_DEBUG_INFO`` ,则使用OOPS的函数偏移::
127
128 EIP is at vt_ioctl+0xda8/0x1482
129
130并在启用 ``CONFIG_DEBUG_INFO`` 的情况下重新编译内核::
131
132  $ ./scripts/config -d COMPILE_TEST -e DEBUG_KERNEL -e DEBUG_INFO
133  $ make vmlinux
134  $ gdb vmlinux
135  (gdb) l *vt_ioctl+0xda8
136  0x1888 is in vt_ioctl (drivers/tty/vt/vt_ioctl.c:293).
137  288	{
138  289		struct vc_data *vc = NULL;
139  290		int ret = 0;
140  291
141  292		console_lock();
142  293		if (VT_BUSY(vc_num))
143  294			ret = -EBUSY;
144  295		else if (vc_num)
145  296			vc = vc_deallocate(vc_num);
146  297		console_unlock();
147
148或者若您想要更详细的显示::
149
150  (gdb) p vt_ioctl
151  $1 = {int (struct tty_struct *, unsigned int, unsigned long)} 0xae0 <vt_ioctl>
152  (gdb) l *0xae0+0xda8
153
154您也可以使用对象文件作为替代::
155
156  $ make drivers/tty/
157  $ gdb drivers/tty/vt/vt_ioctl.o
158  (gdb) l *vt_ioctl+0xda8
159
160如果你有调用跟踪,类似::
161
162     Call Trace:
163      [<ffffffff8802c8e9>] :jbd:log_wait_commit+0xa3/0xf5
164      [<ffffffff810482d9>] autoremove_wake_function+0x0/0x2e
165      [<ffffffff8802770b>] :jbd:journal_stop+0x1be/0x1ee
166      ...
167
168这表明问题可能在 :jbd: 模块中。您可以在gdb中加载该模块并列出相关代码::
169
170  $ gdb fs/jbd/jbd.ko
171  (gdb) l *log_wait_commit+0xa3
172
173.. note::
174
175     您还可以对堆栈跟踪处的任何函数调用执行相同的操作,例如::
176
177	 [<f80bc9ca>] ? dvb_usb_adapter_frontend_exit+0x3a/0x70 [dvb_usb]
178
179     上述调用发生的位置可以通过以下方式看到::
180
181	$ gdb drivers/media/usb/dvb-usb/dvb-usb.o
182	(gdb) l *dvb_usb_adapter_frontend_exit+0x3a
183
184objdump
185^^^^^^^^
186
187要调试内核,请使用objdump并从崩溃输出中查找十六进制偏移,以找到有效的代码/汇
188编行。如果没有调试符号,您将看到所示例程的汇编程序代码,但是如果内核有调试
189符号,C代码也将可见(调试符号可以在内核配置菜单的hacking项中启用)。例如::
190
191    $ objdump -r -S -l --disassemble net/dccp/ipv4.o
192
193.. note::
194
195   您需要处于内核树的顶层以便此获得您的C文件。
196
197如果您无法访问源代码,仍然可以使用以下方法调试一些崩溃转储(如Dave Miller的
198示例崩溃转储输出所示)::
199
200     EIP is at 	+0x14/0x4c0
201      ...
202     Code: 44 24 04 e8 6f 05 00 00 e9 e8 fe ff ff 8d 76 00 8d bc 27 00 00
203     00 00 55 57  56 53 81 ec bc 00 00 00 8b ac 24 d0 00 00 00 8b 5d 08
204     <8b> 83 3c 01 00 00 89 44  24 14 8b 45 28 85 c0 89 44 24 18 0f 85
205
206     Put the bytes into a "foo.s" file like this:
207
208            .text
209            .globl foo
210     foo:
211            .byte  .... /* bytes from Code: part of OOPS dump */
212
213     Compile it with "gcc -c -o foo.o foo.s" then look at the output of
214     "objdump --disassemble foo.o".
215
216     Output:
217
218     ip_queue_xmit:
219         push       %ebp
220         push       %edi
221         push       %esi
222         push       %ebx
223         sub        $0xbc, %esp
224         mov        0xd0(%esp), %ebp        ! %ebp = arg0 (skb)
225         mov        0x8(%ebp), %ebx         ! %ebx = skb->sk
226         mov        0x13c(%ebx), %eax       ! %eax = inet_sk(sk)->opt
227
228`scripts/decodecode` 文件可以用来自动完成大部分工作,这取决于正在调试的CPU
229体系结构。
230
231报告缺陷
232---------
233
234一旦你通过定位缺陷找到了其发生的地方,你可以尝试自己修复它或者向上游报告它。
235
236为了向上游报告,您应该找出用于开发受影响代码的邮件列表。这可以使用 ``get_maintainer.pl`` 。
237
238
239例如,您在gspca的sonixj.c文件中发现一个缺陷,则可以通过以下方法找到它的维护者::
240
241	$ ./scripts/get_maintainer.pl -f drivers/media/usb/gspca/sonixj.c
242	Hans Verkuil <hverkuil@xs4all.nl> (odd fixer:GSPCA USB WEBCAM DRIVER,commit_signer:1/1=100%)
243	Mauro Carvalho Chehab <mchehab@kernel.org> (maintainer:MEDIA INPUT INFRASTRUCTURE (V4L/DVB),commit_signer:1/1=100%)
244	Tejun Heo <tj@kernel.org> (commit_signer:1/1=100%)
245	Bhaktipriya Shridhar <bhaktipriya96@gmail.com> (commit_signer:1/1=100%,authored:1/1=100%,added_lines:4/4=100%,removed_lines:9/9=100%)
246	linux-media@vger.kernel.org (open list:GSPCA USB WEBCAM DRIVER)
247	linux-kernel@vger.kernel.org (open list)
248
249请注意它将指出:
250
251- 最后接触源代码的开发人员(如果这是在git树中完成的)。在上面的例子中是Tejun
252  和Bhaktipriya(在这个特定的案例中,没有人真正参与这个文件的开发);
253- 驱动维护人员(Hans Verkuil);
254- 子系统维护人员(Mauro Carvalho Chehab);
255- 驱动程序和/或子系统邮件列表(linux-media@vger.kernel.org);
256- Linux内核邮件列表(linux-kernel@vger.kernel.org)。
257
258通常,修复缺陷的最快方法是将它报告给用于开发相关代码的邮件列表(linux-media
259ML),抄送驱动程序维护者(Hans)。
260
261如果你完全不知道该把报告寄给谁,且 ``get_maintainer.pl`` 也没有提供任何有用
262的信息,请发送到linux-kernel@vger.kernel.org。
263
264感谢您的帮助,这使Linux尽可能稳定:-)
265
266修复缺陷
267---------
268
269如果你懂得编程,你不仅可以通过报告错误来帮助我们,还可以提供一个解决方案。
270毕竟,开源就是分享你的工作,你不想因为你的天才而被认可吗?
271
272如果你决定这样做,请在制定解决方案后将其提交到上游。
273
274请务必阅读
275:ref:`Documentation/process/submitting-patches.rst <submittingpatches>` ,
276以帮助您的代码被接受。
277
278
279---------------------------------------------------------------------------
280
281用 ``klogd`` 进行Oops跟踪的注意事项
282------------------------------------
283
284为了帮助Linus和其他内核开发人员, ``klogd`` 对保护故障的处理提供了大量支持。
285为了完整支持地址解析,至少应该使用 ``sysklogd`` 包的1.3-pl3版本。
286
287当发生保护故障时, ``klogd`` 守护进程会自动将内核日志消息中的重要地址转换为
288它们的等效符号。然后通过 ``klogd`` 使用的任何报告机制来转发这个已翻译的内核
289消息。保护错误消息可以直接从消息文件中剪切出来并转发给内核开发人员。
290
291``klogd`` 执行两种类型的地址解析,静态翻译和动态翻译。静态翻译使用System.map
292文件。为了进行静态转换, ``klogd`` 守护进程必须能够在守护进程初始化时找到系
293统映射文件。有关 ``klogd`` 如何搜索映射文件的信息,请参见klogd手册页。
294
295当使用内核可加载模块时,动态地址转换非常重要。由于内核模块的内存是从内核的
296动态内存池中分配的,因此无论是模块的开头还是模块中的函数和符号都没有固定的
297位置。
298
299内核支持系统调用,允许程序确定加载哪些模块及其在内存中的位置。klogd守护进程
300使用这些系统调用构建了一个符号表,可用于调试可加载内核模块中发生的保护错误。
301
302klogd至少会提供产生保护故障的模块的名称。如果可加载模块的开发人员选择从模块
303导出符号信息,则可能会有其他可用的符号信息。
304
305由于内核模块环境可以是动态的,因此当模块环境发生变化时,必须有一种通知
306``klogd`` 守护进程的机制。有一些可用的命令行选项允许klogd向当前正在执行的守
307护进程发出信号示意应该刷新符号信息。有关更多信息,请参阅 ``klogd`` 手册页。
308
309sysklogd发行版附带了一个补丁,它修改了 ``modules-2.0.0`` 包,以便在加载或
310卸载模块时自动向klogd发送信号。应用此补丁基本上可无缝支持调试内核可加载模块
311发生的保护故障。
312
313以下是 ``klogd`` 处理的可加载模块中的保护故障示例::
314
315	Aug 29 09:51:01 blizard kernel: Unable to handle kernel paging request at virtual address f15e97cc
316	Aug 29 09:51:01 blizard kernel: current->tss.cr3 = 0062d000, %cr3 = 0062d000
317	Aug 29 09:51:01 blizard kernel: *pde = 00000000
318	Aug 29 09:51:01 blizard kernel: Oops: 0002
319	Aug 29 09:51:01 blizard kernel: CPU:    0
320	Aug 29 09:51:01 blizard kernel: EIP:    0010:[oops:_oops+16/3868]
321	Aug 29 09:51:01 blizard kernel: EFLAGS: 00010212
322	Aug 29 09:51:01 blizard kernel: eax: 315e97cc   ebx: 003a6f80   ecx: 001be77b   edx: 00237c0c
323	Aug 29 09:51:01 blizard kernel: esi: 00000000   edi: bffffdb3   ebp: 00589f90   esp: 00589f8c
324	Aug 29 09:51:01 blizard kernel: ds: 0018   es: 0018   fs: 002b   gs: 002b   ss: 0018
325	Aug 29 09:51:01 blizard kernel: Process oops_test (pid: 3374, process nr: 21, stackpage=00589000)
326	Aug 29 09:51:01 blizard kernel: Stack: 315e97cc 00589f98 0100b0b4 bffffed4 0012e38e 00240c64 003a6f80 00000001
327	Aug 29 09:51:01 blizard kernel:        00000000 00237810 bfffff00 0010a7fa 00000003 00000001 00000000 bfffff00
328	Aug 29 09:51:01 blizard kernel:        bffffdb3 bffffed4 ffffffda 0000002b 0007002b 0000002b 0000002b 00000036
329	Aug 29 09:51:01 blizard kernel: Call Trace: [oops:_oops_ioctl+48/80] [_sys_ioctl+254/272] [_system_call+82/128]
330	Aug 29 09:51:01 blizard kernel: Code: c7 00 05 00 00 00 eb 08 90 90 90 90 90 90 90 90 89 ec 5d c3
331
332---------------------------------------------------------------------------
333
334::
335
336  Dr. G.W. Wettstein           Oncology Research Div. Computing Facility
337  Roger Maris Cancer Center    INTERNET: greg@wind.rmcc.com
338  820 4th St. N.
339  Fargo, ND  58122
340  Phone: 701-234-7556
341