85887556d0d3578447c451fba11fead07627903f
[dragonfly.git] / share / man / man7 / vkernel.7
1 .\"
2 .\" Copyright (c) 2006, 2007
3 .\"     The DragonFly Project.  All rights reserved.
4 .\"
5 .\" Redistribution and use in source and binary forms, with or without
6 .\" modification, are permitted provided that the following conditions
7 .\" are met:
8 .\"
9 .\" 1. Redistributions of source code must retain the above copyright
10 .\"    notice, this list of conditions and the following disclaimer.
11 .\" 2. Redistributions in binary form must reproduce the above copyright
12 .\"    notice, this list of conditions and the following disclaimer in
13 .\"    the documentation and/or other materials provided with the
14 .\"    distribution.
15 .\" 3. Neither the name of The DragonFly Project nor the names of its
16 .\"    contributors may be used to endorse or promote products derived
17 .\"    from this software without specific, prior written permission.
18 .\"
19 .\" THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
20 .\" ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
21 .\" LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
22 .\" FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE
23 .\" COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
24 .\" INCIDENTAL, SPECIAL, EXEMPLARY OR CONSEQUENTIAL DAMAGES (INCLUDING,
25 .\" BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
26 .\" LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
27 .\" AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
28 .\" OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
29 .\" OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
30 .\" SUCH DAMAGE.
31 .\"
32 .Dd December 27, 2018
33 .Dt VKERNEL 7
34 .Os
35 .Sh NAME
36 .Nm vkernel ,
37 .Nm vcd ,
38 .Nm vkd ,
39 .Nm vke
40 .Nd virtual kernel architecture
41 .Sh SYNOPSIS
42 .Cd "platform vkernel64 # for 64 bit vkernels"
43 .Cd "device vcd"
44 .Cd "device vkd"
45 .Cd "device vke"
46 .Pp
47 .Pa /var/vkernel/boot/kernel/kernel
48 .Op Fl hdstUvz
49 .Op Fl c Ar file
50 .Op Fl e Ar name Ns = Ns Li value : Ns Ar name Ns = Ns Li value : Ns ...
51 .Op Fl i Ar file
52 .Op Fl I Ar interface Ns Op Ar :address1 Ns Oo Ar :address2 Oc Ns Oo Ar /netmask Oc Ns Oo Ar =mac Oc
53 .Op Fl l Ar cpulock
54 .Op Fl m Ar size
55 .Op Fl n Ar numcpus Ns Op Ar :lbits Ns Oo Ar :cbits Oc
56 .Op Fl p Ar pidfile
57 .Op Fl r Ar file Ns Op Ar :serno
58 .Op Fl R Ar file Ns Op Ar :serno
59 .Sh DESCRIPTION
60 The
61 .Nm
62 architecture allows for running
63 .Dx
64 kernels in userland.
65 .Pp
66 The following options are available:
67 .Bl -tag -width ".Fl m Ar size"
68 .It Fl c Ar file
69 Specify a readonly CD-ROM image
70 .Ar file
71 to be used by the kernel, with the first
72 .Fl c
73 option defining
74 .Li vcd0 ,
75 the second one
76 .Li vcd1 ,
77 and so on.
78 The first
79 .Fl r ,
80 .Fl R ,
81 or
82 .Fl c
83 option specified on the command line will be the boot disk.
84 The CD9660 filesystem is assumed when booting from this media.
85 .It Fl d
86 Disables hardware pagetable for
87 .Nm .
88 .It Fl e Ar name Ns = Ns Li value : Ns Ar name Ns = Ns Li value : Ns ...
89 Specify an environment to be used by the kernel.
90 This option can be specified more than once.
91 .It Fl h
92 Shows a list of available options, each with a short description.
93 .It Fl i Ar file
94 Specify a memory image
95 .Ar file
96 to be used by the virtual kernel.
97 If no
98 .Fl i
99 option is given, the kernel will generate a name of the form
100 .Pa /var/vkernel/memimg.XXXXXX ,
101 with the trailing
102 .Ql X Ns s
103 being replaced by a sequential number, e.g.\&
104 .Pa memimg.000001 .
105 .It Fl I Ar interface Ns Op Ar :address1 Ns Oo Ar :address2 Oc Ns Oo Ar /netmask Oc Ns Oo Ar =MAC Oc
106 Create a virtual network device, with the first
107 .Fl I
108 option defining
109 .Li vke0 ,
110 the second one
111 .Li vke1 ,
112 and so on.
113 .Pp
114 The
115 .Ar interface
116 argument is the name of a
117 .Xr tap 4
118 device node or the path to a
119 .Xr vknetd 8
120 socket.
121 The
122 .Pa /dev/
123 path prefix does not have to be specified and will be automatically prepended
124 for a device node.
125 Specifying
126 .Cm auto
127 will pick the first unused
128 .Xr tap 4
129 device.
130 .Pp
131 The
132 .Ar address1
133 and
134 .Ar address2
135 arguments are the IP addresses of the
136 .Xr tap 4
137 and
138 .Nm vke
139 interfaces.
140 Optionally,
141 .Ar address1
142 may be of the form
143 .Li bridge Ns Em X
144 in which case the
145 .Xr tap 4
146 interface is added to the specified
147 .Xr bridge 4
148 interface.
149 The
150 .Nm vke
151 address is not assigned until the interface is brought up in the guest.
152 .Pp
153 The
154 .Ar netmask
155 argument applies to all interfaces for which an address is specified.
156 .Pp
157 The
158 .Ar MAC
159 argument is the MAC address of the
160 .Xr vke 4
161 interface.
162 If not specified, a pseudo-random one will be generated.
163 .Pp
164 When running multiple vkernels it is often more convenient to simply
165 connect to a
166 .Xr vknetd 8
167 socket and let vknetd deal with the tap and/or bridge.
168 An example of this would be
169 .Pa /var/run/vknet:0.0.0.0:10.2.0.2/16 .
170 .It Fl l Ar cpulock
171 Specify which, if any, real CPUs to lock virtual CPUs to.
172 .Ar cpulock
173 is one of
174 .Cm any ,
175 .Cm map Ns Op Ns , Ns Ar startCPU ,
176 or
177 .Ar CPU .
178 .Pp
179 .Cm any
180 does not map virtual CPUs to real CPUs.
181 This is the default.
182 .Pp
183 .Cm map Ns Op Ns , Ns Ar startCPU
184 maps each virtual CPU to a real CPU starting with real CPU 0 or
185 .Ar startCPU
186 if specified.
187 .Pp
188 .Ar CPU
189 locks all virtual CPUs to the real CPU specified by
190 .Ar CPU .
191 .Pp
192 Locking the vkernel to a set of cpus is recommended on multi-socket systems
193 to improve NUMA locality of reference.
194 .It Fl m Ar size
195 Specify the amount of memory to be used by the kernel in bytes,
196 .Cm K
197 .Pq kilobytes ,
198 .Cm M
199 .Pq megabytes
200 or
201 .Cm G
202 .Pq gigabytes .
203 Lowercase versions of
204 .Cm K , M ,
205 and
206 .Cm G
207 are allowed.
208 .It Fl n Ar numcpus Ns Op Ar :lbits Ns Oo Ar :cbits Oc
209 .Ar numcpus
210 specifies the number of CPUs you wish to emulate.
211 Up to 16 CPUs are supported with 2 being the default unless otherwise
212 specified.
213 .Pp
214 .Ar lbits
215 specifies the number of bits within APICID(=CPUID) needed for representing
216 the logical ID.
217 Controls the number of threads/core (0 bits - 1 thread, 1 bit - 2 threads).
218 This parameter is optional (mandatory only if
219 .Ar cbits
220 is specified).
221 .Pp
222 .Ar cbits
223 specifies the number of bits within APICID(=CPUID) needed for representing
224 the core ID.
225 Controls the number of core/package (0 bits - 1 core, 1 bit - 2 cores).
226 This parameter is optional.
227 .It Fl p Ar pidfile
228 Specify a pidfile in which to store the process ID.
229 Scripts can use this file to locate the vkernel pid for the purpose of
230 shutting down or killing it.
231 .Pp
232 The vkernel will hold a lock on the pidfile while running.
233 Scripts may test for the lock to determine if the pidfile is valid or
234 stale so as to avoid accidentally killing a random process.
235 Something like '/usr/bin/lockf -ks -t 0 pidfile echo -n' may be used
236 to test the lock.
237 A non-zero exit code indicates that the pidfile represents a running
238 vkernel.
239 .Pp
240 An error is issued and the vkernel exits if this file cannot be opened for
241 writing or if it is already locked by an active vkernel process.
242 .It Fl r Ar file Ns Op Ar :serno
243 Specify a R/W disk image
244 .Ar file
245 to be used by the kernel, with the first
246 .Fl r
247 option defining
248 .Li vkd0 ,
249 the second one
250 .Li vkd1 ,
251 and so on.
252 A serial number for the virtual disk can be specified in
253 .Ar serno .
254 .Pp
255 The first
256 .Fl r
257 or
258 .Fl c
259 option specified on the command line will be the boot disk.
260 .It Fl R Ar file Ns Op Ar :serno
261 Works like
262 .Fl r
263 but treats the disk image as copy-on-write.  This allows
264 a private copy of the image to be modified but does not
265 modify the image file.  The image file will not be locked
266 in this situation and multiple vkernels can run off the
267 same image file if desired.
268 .Pp
269 Since modifications are thrown away, any data you wish
270 to retain across invocations needs to be exported over
271 the network prior to shutdown.
272 This gives you the flexibility to mount the disk image
273 either read-only or read-write depending on what is
274 convenient.
275 However, keep in mind that when mounting a COW image
276 read-write, modifications will eat system memory and
277 swap space until the vkernel is shut down.
278 .It Fl s
279 Boot into single-user mode.
280 .It Fl t
281 Tell the vkernel to use a precise host timer when calculating clock values.
282 If the TSC isn't used, this will impose higher overhead on the vkernel as it
283 will have to make a system call to the real host every time it wants to get
284 the time.
285 However, the more precise timer might be necessary for your application.
286 .Pp
287 By default, the vkernel uses the TSC cpu timer if possible, or an imprecise
288 (host-tick-resolution) timer which uses a user-mapped kernel page and does
289 not have any syscall overhead.
290 .It Fl T
291 Force the vkernel to not use the TSC cpu timer.
292 .It Fl U
293 Enable writing to kernel memory and module loading.
294 By default, those are disabled for security reasons.
295 .It Fl v
296 Turn on verbose booting.
297 .It Fl z
298 Force the vkernel's ram to be pre-zerod.  Useful for benchmarking on
299 single-socket systems where the memory allocation does not have to be
300 NUMA-friendly.
301 This options is not recommended on multi-socket systems or when the
302 .Fl l
303 option is used.
304 .El
305 .Sh DEVICES
306 A number of virtual device drivers exist to supplement the virtual kernel.
307 .Ss Disk device
308 The
309 .Nm vkd
310 driver allows for up to 16
311 .Xr vn 4
312 based disk devices.
313 The root device will be
314 .Li vkd0
315 (see
316 .Sx EXAMPLES
317 for further information on how to prepare a root image).
318 .Ss CD-ROM device
319 The
320 .Nm vcd
321 driver allows for up to 16 virtual CD-ROM devices.
322 Basically this is a read only
323 .Nm vkd
324 device with a block size of 2048.
325 .Ss Network interface
326 The
327 .Nm vke
328 driver supports up to 16 virtual network interfaces which are associated with
329 .Xr tap 4
330 devices on the host.
331 For each
332 .Nm vke
333 device, the per-interface read only
334 .Xr sysctl 3
335 variable
336 .Va hw.vke Ns Em X Ns Va .tap_unit
337 holds the unit number of the associated
338 .Xr tap 4
339 device.
340 .Pp
341 By default, half of the total mbuf clusters available is distributed equally
342 among all the vke devices up to 256.
343 This can be overridden with the tunable
344 .Va hw.vke.max_ringsize .
345 Take into account the number passed will be aligned to the lower power of two.
346 .Sh SIGNALS
347 The virtual kernel only enables
348 .Dv SIGQUIT
349 and
350 .Dv SIGTERM
351 while operating in regular console mode.
352 Sending
353 .Ql \&^\e
354 .Pq Dv SIGQUIT
355 to the virtual kernel causes the virtual kernel to enter its internal
356 .Xr ddb 4
357 debugger and re-enable all other terminal signals.
358 Sending
359 .Dv SIGTERM
360 to the virtual kernel triggers a clean shutdown by passing a
361 .Dv SIGUSR2
362 to the virtual kernel's
363 .Xr init 8
364 process.
365 .Sh DEBUGGING
366 It is possible to directly gdb the virtual kernel's process.
367 It is recommended that you do a
368 .Ql handle SIGSEGV noprint
369 to ignore page faults processed by the virtual kernel itself and
370 .Ql handle SIGUSR1 noprint
371 to ignore signals used for simulating inter-processor interrupts.
372 .Sh PROFILING
373 To compile a vkernel with profiling support, the
374 .Va CONFIGARGS
375 variable needs to be used to pass
376 .Fl p
377 to
378 .Xr config 8 .
379 .Bd -literal
380 cd /usr/src
381 make -DNO_MODULES CONFIGARGS=-p buildkernel KERNCONF=VKERNEL64
382 .Ed
383 .Sh FILES
384 .Bl -tag -width ".It Pa /sys/config/VKERNEL64" -compact
385 .It Pa /dev/vcdX
386 .Nm vcd
387 device nodes
388 .It Pa /dev/vkdX
389 .Nm vkd
390 device nodes
391 .It Pa /sys/config/VKERNEL64
392 .El
393 .Pp
394 .Nm
395 configuration file, for
396 .Xr config 8 .
397 .Sh CONFIGURATION FILES
398 Your virtual kernel is a complete
399 .Dx
400 system, but you might not want to run all the services a normal kernel runs.
401 Here is what a typical virtual kernel's
402 .Pa /etc/rc.conf
403 file looks like, with some additional possibilities commented out.
404 .Bd -literal
405 hostname="vkernel"
406 network_interfaces="lo0 vke0"
407 ifconfig_vke0="DHCP"
408 sendmail_enable="NO"
409 #syslog_enable="NO"
410 blanktime="NO"
411 .Ed
412 .Sh BOOT DRIVE SELECTION
413 You can override the default boot drive selection and filesystem
414 using a kernel environment variable.  Note that the filesystem
415 selected must be compiled into the vkernel and not loaded as
416 a module.  You need to escape some quotes around the variable data
417 to avoid mis-interpretation of the colon in the
418 .Fl e
419 option.  For example:
420 .Pp
421 .Fl e
422 vfs.root.mountfrom=\\"hammer:vkd0s1d\\"
423 .Sh DISKLESS OPERATION
424 To boot a
425 .Nm
426 from a NFS root, a number of tunables need to be set:
427 .Bl -tag -width indent
428 .It Va boot.netif.ip
429 IP address to be set in the vkernel interface.
430 .It Va boot.netif.netmask
431 Netmask for the IP to be set.
432 .It Va boot.netif.name
433 Network interface name inside the vkernel.
434 .It Va boot.nfsroot.server
435 Host running
436 .Xr nfsd 8 .
437 .It Va boot.nfsroot.path
438 Host path where a world and distribution
439 targets are properly installed.
440 .El
441 .Pp
442 See an example on how to boot a diskless
443 .Nm
444 in the
445 .Sx EXAMPLES
446 section.
447 .Sh EXAMPLES
448 A couple of steps are necessary in order to prepare the system to build and
449 run a virtual kernel.
450 .Ss Setting up the filesystem
451 The
452 .Nm
453 architecture needs a number of files which reside in
454 .Pa /var/vkernel .
455 Since these files tend to get rather big and the
456 .Pa /var
457 partition is usually of limited size, we recommend the directory to be
458 created in the
459 .Pa /home
460 partition with a link to it in
461 .Pa /var :
462 .Bd -literal
463 mkdir -p /home/var.vkernel/boot
464 ln -s /home/var.vkernel /var/vkernel
465 .Ed
466 .Pp
467 Next, a filesystem image to be used by the virtual kernel has to be
468 created and populated (assuming world has been built previously).
469 If the image is created on a UFS filesystem you might want to pre-zero it.
470 On a HAMMER filesystem you should just truncate-extend to the image size
471 as HAMMER does not re-use data blocks already present in the file.
472 .Bd -literal
473 vnconfig -c -S 2g -T vn0 /var/vkernel/rootimg.01
474 disklabel -r -w vn0s0 auto
475 disklabel -e vn0s0      # add `a' partition with fstype `4.2BSD'
476 newfs /dev/vn0s0a
477 mount /dev/vn0s0a /mnt
478 cd /usr/src
479 make installworld DESTDIR=/mnt
480 cd etc
481 make distribution DESTDIR=/mnt
482 echo '/dev/vkd0s0a      /       ufs     rw      1  1' >/mnt/etc/fstab
483 echo 'proc              /proc   procfs  rw      0  0' >>/mnt/etc/fstab
484 .Ed
485 .Pp
486 Edit
487 .Pa /mnt/etc/ttys
488 and replace the
489 .Li console
490 entry with the following line and turn off all other gettys.
491 .Bd -literal
492 console "/usr/libexec/getty Pc"         cons25  on  secure
493 .Ed
494 .Pp
495 Replace
496 .Li \&Pc
497 with
498 .Li al.Pc
499 if you would like to automatically log in as root.
500 .Pp
501 Then, unmount the disk.
502 .Bd -literal
503 umount /mnt
504 vnconfig -u vn0
505 .Ed
506 .Ss Compiling the virtual kernel
507 In order to compile a virtual kernel use the
508 .Li VKERNEL64
509 kernel configuration file residing in
510 .Pa /sys/config
511 (or a configuration file derived thereof):
512 .Bd -literal
513 cd /usr/src
514 make -DNO_MODULES buildkernel KERNCONF=VKERNEL64
515 make -DNO_MODULES installkernel KERNCONF=VKERNEL64 DESTDIR=/var/vkernel
516 .Ed
517 .Ss Enabling virtual kernel operation
518 A special
519 .Xr sysctl 8 ,
520 .Va vm.vkernel_enable ,
521 must be set to enable
522 .Nm
523 operation:
524 .Bd -literal
525 sysctl vm.vkernel_enable=1
526 .Ed
527 .Ss Configuring the network on the host system
528 In order to access a network interface of the host system from the
529 .Nm ,
530 you must add the interface to a
531 .Xr bridge 4
532 device which will then be passed to the
533 .Fl I
534 option:
535 .Bd -literal
536 kldload if_bridge.ko
537 kldload if_tap.ko
538 ifconfig bridge0 create
539 ifconfig bridge0 addm re0       # assuming re0 is the host's interface
540 ifconfig bridge0 up
541 .Ed
542 .Ss Running the kernel
543 Finally, the virtual kernel can be run:
544 .Bd -literal
545 cd /var/vkernel
546 \&./boot/kernel/kernel -m 1g -r rootimg.01 -I auto:bridge0
547 .Ed
548 .Pp
549 You can issue the
550 .Xr reboot 8 ,
551 .Xr halt 8 ,
552 or
553 .Xr shutdown 8
554 commands from inside a virtual kernel.
555 After doing a clean shutdown the
556 .Xr reboot 8
557 command will re-exec the virtual kernel binary while the other two will
558 cause the virtual kernel to exit.
559 .Ss Diskless operation (vkernel as a NFS client)
560 Booting a
561 .Nm
562 with a
563 .Xr vknetd 8
564 network configuration.  The line continuation backslashes have been
565 omitted.  For convenience and to reduce confusion I recommend mounting
566 the server's remote vkernel root onto the host running the vkernel binary
567 using the same path as the NFS mount.  It is assumed that a full system
568 install has been made to /var/vkernel/root using a kernel KERNCONF=VKERNEL64
569 for the kernel build.
570 .Bd -literal
571 \&/var/vkernel/root/boot/kernel/kernel
572         -m 1g -n 4 -I /var/run/vknet
573         -e boot.netif.ip=10.100.0.2
574         -e boot.netif.netmask=255.255.0.0
575         -e boot.netif.gateway=10.100.0.1
576         -e boot.netif.name=vke0
577         -e boot.nfsroot.server=10.0.0.55
578         -e boot.nfsroot.path=/var/vkernel/root
579 .Ed
580 .Pp
581 In this example vknetd is assumed to have been started as shown below, before
582 running the vkernel, using an unbridged TAP configuration routed through
583 the host.
584 IP forwarding must be turned on, and in this example the server resides
585 on a different network accessible to the host executing the vkernel but not
586 directly on the vkernel's subnet.
587 .Bd -literal
588 kldload if_tap
589 sysctl net.inet.ip.forwarding=1
590 vknetd -t tap0 10.100.0.1/16
591 .Ed
592 .Pp
593 You can run multiple vkernels trivially with the same NFS root as long as
594 you assign each one a different IP on the subnet (2, 3, 4, etc).  You
595 should also be careful with certain directories, particularly /var/run
596 and possibly also /var/db depending on what your vkernels are going to be
597 doing.
598 This can complicate matters with /var/db/pkg.
599 .Sh BUILDING THE WORLD UNDER A VKERNEL
600 The virtual kernel platform does not have all the header files expected
601 by a world build, so the easiest thing to do right now is to specify a
602 pc64 (in a 64 bit vkernel) target when building the world under a virtual
603 kernel, like this:
604 .Bd -literal
605 vkernel# make MACHINE_PLATFORM=pc64 buildworld
606 vkernel# make MACHINE_PLATFORM=pc64 installworld
607 .Ed
608 .Sh SEE ALSO
609 .Xr vknet 1 ,
610 .Xr bridge 4 ,
611 .Xr ifmedia 4 ,
612 .Xr tap 4 ,
613 .Xr vn 4 ,
614 .Xr sysctl.conf 5 ,
615 .Xr build 7 ,
616 .Xr config 8 ,
617 .Xr disklabel 8 ,
618 .Xr ifconfig 8 ,
619 .Xr vknetd 8 ,
620 .Xr vnconfig 8
621 .Rs
622 .%A Aggelos Economopoulos
623 .%D March 2007
624 .%T "A Peek at the DragonFly Virtual Kernel"
625 .Re
626 .Sh HISTORY
627 Virtual kernels were introduced in
628 .Dx 1.7 .
629 .Sh AUTHORS
630 .An -nosplit
631 .An Matt Dillon
632 thought up and implemented the
633 .Nm
634 architecture and wrote the
635 .Nm vkd
636 device driver.
637 .An Sepherosa Ziehau
638 wrote the
639 .Nm vke
640 device driver.
641 This manual page was written by
642 .An Sascha Wildner .