Merge branch 'vendor/LIBEDIT'
[dragonfly.git] / sys / kern / kern_fork.c
1 /*
2  * Copyright (c) 1982, 1986, 1989, 1991, 1993
3  *      The Regents of the University of California.  All rights reserved.
4  * (c) UNIX System Laboratories, Inc.
5  * All or some portions of this file are derived from material licensed
6  * to the University of California by American Telephone and Telegraph
7  * Co. or Unix System Laboratories, Inc. and are reproduced herein with
8  * the permission of UNIX System Laboratories, Inc.
9  *
10  * Redistribution and use in source and binary forms, with or without
11  * modification, are permitted provided that the following conditions
12  * are met:
13  * 1. Redistributions of source code must retain the above copyright
14  *    notice, this list of conditions and the following disclaimer.
15  * 2. Redistributions in binary form must reproduce the above copyright
16  *    notice, this list of conditions and the following disclaimer in the
17  *    documentation and/or other materials provided with the distribution.
18  * 3. All advertising materials mentioning features or use of this software
19  *    must display the following acknowledgement:
20  *      This product includes software developed by the University of
21  *      California, Berkeley and its contributors.
22  * 4. Neither the name of the University nor the names of its contributors
23  *    may be used to endorse or promote products derived from this software
24  *    without specific prior written permission.
25  *
26  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
27  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
28  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
29  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
30  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
31  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
32  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
33  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
34  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
35  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
36  * SUCH DAMAGE.
37  *
38  *      @(#)kern_fork.c 8.6 (Berkeley) 4/8/94
39  * $FreeBSD: src/sys/kern/kern_fork.c,v 1.72.2.14 2003/06/26 04:15:10 silby Exp $
40  * $DragonFly: src/sys/kern/kern_fork.c,v 1.77 2008/05/18 20:02:02 nth Exp $
41  */
42
43 #include "opt_ktrace.h"
44
45 #include <sys/param.h>
46 #include <sys/systm.h>
47 #include <sys/sysproto.h>
48 #include <sys/filedesc.h>
49 #include <sys/kernel.h>
50 #include <sys/sysctl.h>
51 #include <sys/malloc.h>
52 #include <sys/proc.h>
53 #include <sys/resourcevar.h>
54 #include <sys/vnode.h>
55 #include <sys/acct.h>
56 #include <sys/ktrace.h>
57 #include <sys/unistd.h>
58 #include <sys/jail.h>
59 #include <sys/caps.h>
60
61 #include <vm/vm.h>
62 #include <sys/lock.h>
63 #include <vm/pmap.h>
64 #include <vm/vm_map.h>
65 #include <vm/vm_extern.h>
66
67 #include <sys/vmmeter.h>
68 #include <sys/refcount.h>
69 #include <sys/thread2.h>
70 #include <sys/signal2.h>
71 #include <sys/spinlock2.h>
72
73 #include <sys/dsched.h>
74
75 static MALLOC_DEFINE(M_ATFORK, "atfork", "atfork callback");
76
77 /*
78  * These are the stuctures used to create a callout list for things to do
79  * when forking a process
80  */
81 struct forklist {
82         forklist_fn function;
83         TAILQ_ENTRY(forklist) next;
84 };
85
86 TAILQ_HEAD(forklist_head, forklist);
87 static struct forklist_head fork_list = TAILQ_HEAD_INITIALIZER(fork_list);
88
89 static struct lwp *lwp_fork(struct lwp *, struct proc *, int flags);
90
91 int forksleep; /* Place for fork1() to sleep on. */
92
93 /*
94  * Red-Black tree support for LWPs
95  */
96
97 static int
98 rb_lwp_compare(struct lwp *lp1, struct lwp *lp2)
99 {
100         if (lp1->lwp_tid < lp2->lwp_tid)
101                 return(-1);
102         if (lp1->lwp_tid > lp2->lwp_tid)
103                 return(1);
104         return(0);
105 }
106
107 RB_GENERATE2(lwp_rb_tree, lwp, u.lwp_rbnode, rb_lwp_compare, lwpid_t, lwp_tid);
108
109 /*
110  * Fork system call
111  *
112  * MPALMOSTSAFE
113  */
114 int
115 sys_fork(struct fork_args *uap)
116 {
117         struct lwp *lp = curthread->td_lwp;
118         struct proc *p2;
119         int error;
120
121         error = fork1(lp, RFFDG | RFPROC | RFPGLOCK, &p2);
122         if (error == 0) {
123                 PHOLD(p2);
124                 start_forked_proc(lp, p2);
125                 uap->sysmsg_fds[0] = p2->p_pid;
126                 uap->sysmsg_fds[1] = 0;
127                 PRELE(p2);
128         }
129         return error;
130 }
131
132 /*
133  * MPALMOSTSAFE
134  */
135 int
136 sys_vfork(struct vfork_args *uap)
137 {
138         struct lwp *lp = curthread->td_lwp;
139         struct proc *p2;
140         int error;
141
142         error = fork1(lp, RFFDG | RFPROC | RFPPWAIT | RFMEM | RFPGLOCK, &p2);
143         if (error == 0) {
144                 PHOLD(p2);
145                 start_forked_proc(lp, p2);
146                 uap->sysmsg_fds[0] = p2->p_pid;
147                 uap->sysmsg_fds[1] = 0;
148                 PRELE(p2);
149         }
150         return error;
151 }
152
153 /*
154  * Handle rforks.  An rfork may (1) operate on the current process without
155  * creating a new, (2) create a new process that shared the current process's
156  * vmspace, signals, and/or descriptors, or (3) create a new process that does
157  * not share these things (normal fork).
158  *
159  * Note that we only call start_forked_proc() if a new process is actually
160  * created.
161  *
162  * rfork { int flags }
163  *
164  * MPALMOSTSAFE
165  */
166 int
167 sys_rfork(struct rfork_args *uap)
168 {
169         struct lwp *lp = curthread->td_lwp;
170         struct proc *p2;
171         int error;
172
173         if ((uap->flags & RFKERNELONLY) != 0)
174                 return (EINVAL);
175
176         error = fork1(lp, uap->flags | RFPGLOCK, &p2);
177         if (error == 0) {
178                 if (p2) {
179                         PHOLD(p2);
180                         start_forked_proc(lp, p2);
181                         uap->sysmsg_fds[0] = p2->p_pid;
182                         uap->sysmsg_fds[1] = 0;
183                         PRELE(p2);
184                 } else {
185                         uap->sysmsg_fds[0] = 0;
186                         uap->sysmsg_fds[1] = 0;
187                 }
188         }
189         return error;
190 }
191
192 /*
193  * MPALMOSTSAFE
194  */
195 int
196 sys_lwp_create(struct lwp_create_args *uap)
197 {
198         struct proc *p = curproc;
199         struct lwp *lp;
200         struct lwp_params params;
201         int error;
202
203         error = copyin(uap->params, &params, sizeof(params));
204         if (error)
205                 goto fail2;
206
207         lwkt_gettoken(&p->p_token);
208         plimit_lwp_fork(p);     /* force exclusive access */
209         lp = lwp_fork(curthread->td_lwp, p, RFPROC);
210         error = cpu_prepare_lwp(lp, &params);
211         if (error)
212                 goto fail;
213         if (params.tid1 != NULL &&
214             (error = copyout(&lp->lwp_tid, params.tid1, sizeof(lp->lwp_tid))))
215                 goto fail;
216         if (params.tid2 != NULL &&
217             (error = copyout(&lp->lwp_tid, params.tid2, sizeof(lp->lwp_tid))))
218                 goto fail;
219
220         /*
221          * Now schedule the new lwp. 
222          */
223         p->p_usched->resetpriority(lp);
224         crit_enter();
225         lp->lwp_stat = LSRUN;
226         p->p_usched->setrunqueue(lp);
227         crit_exit();
228         lwkt_reltoken(&p->p_token);
229
230         return (0);
231
232 fail:
233         lwp_rb_tree_RB_REMOVE(&p->p_lwp_tree, lp);
234         --p->p_nthreads;
235         /* lwp_dispose expects an exited lwp, and a held proc */
236         atomic_set_int(&lp->lwp_mpflags, LWP_MP_WEXIT);
237         lp->lwp_thread->td_flags |= TDF_EXITING;
238         lwkt_remove_tdallq(lp->lwp_thread);
239         PHOLD(p);
240         biosched_done(lp->lwp_thread);
241         dsched_exit_thread(lp->lwp_thread);
242         lwp_dispose(lp);
243         lwkt_reltoken(&p->p_token);
244 fail2:
245         return (error);
246 }
247
248 int     nprocs = 1;             /* process 0 */
249
250 int
251 fork1(struct lwp *lp1, int flags, struct proc **procp)
252 {
253         struct proc *p1 = lp1->lwp_proc;
254         struct proc *p2;
255         struct proc *pptr;
256         struct pgrp *p1grp;
257         struct pgrp *plkgrp;
258         uid_t uid;
259         int ok, error;
260         static int curfail = 0;
261         static struct timeval lastfail;
262         struct forklist *ep;
263         struct filedesc_to_leader *fdtol;
264
265         if ((flags & (RFFDG|RFCFDG)) == (RFFDG|RFCFDG))
266                 return (EINVAL);
267
268         lwkt_gettoken(&p1->p_token);
269         plkgrp = NULL;
270         p2 = NULL;
271
272         /*
273          * Here we don't create a new process, but we divorce
274          * certain parts of a process from itself.
275          */
276         if ((flags & RFPROC) == 0) {
277                 /*
278                  * This kind of stunt does not work anymore if
279                  * there are native threads (lwps) running
280                  */
281                 if (p1->p_nthreads != 1) {
282                         error = EINVAL;
283                         goto done;
284                 }
285
286                 vm_fork(p1, 0, flags);
287
288                 /*
289                  * Close all file descriptors.
290                  */
291                 if (flags & RFCFDG) {
292                         struct filedesc *fdtmp;
293                         fdtmp = fdinit(p1);
294                         fdfree(p1, fdtmp);
295                 }
296
297                 /*
298                  * Unshare file descriptors (from parent.)
299                  */
300                 if (flags & RFFDG) {
301                         if (p1->p_fd->fd_refcnt > 1) {
302                                 struct filedesc *newfd;
303                                 error = fdcopy(p1, &newfd);
304                                 if (error != 0) {
305                                         error = ENOMEM;
306                                         goto done;
307                                 }
308                                 fdfree(p1, newfd);
309                         }
310                 }
311                 *procp = NULL;
312                 error = 0;
313                 goto done;
314         }
315
316         /*
317          * Interlock against process group signal delivery.  If signals
318          * are pending after the interlock is obtained we have to restart
319          * the system call to process the signals.  If we don't the child
320          * can miss a pgsignal (such as ^C) sent during the fork.
321          *
322          * We can't use CURSIG() here because it will process any STOPs
323          * and cause the process group lock to be held indefinitely.  If
324          * a STOP occurs, the fork will be restarted after the CONT.
325          */
326         p1grp = p1->p_pgrp;
327         if ((flags & RFPGLOCK) && (plkgrp = p1->p_pgrp) != NULL) {
328                 pgref(plkgrp);
329                 lockmgr(&plkgrp->pg_lock, LK_SHARED);
330                 if (CURSIG_NOBLOCK(lp1)) {
331                         error = ERESTART;
332                         goto done;
333                 }
334         }
335
336         /*
337          * Although process entries are dynamically created, we still keep
338          * a global limit on the maximum number we will create.  Don't allow
339          * a nonprivileged user to use the last ten processes; don't let root
340          * exceed the limit. The variable nprocs is the current number of
341          * processes, maxproc is the limit.
342          */
343         uid = lp1->lwp_thread->td_ucred->cr_ruid;
344         if ((nprocs >= maxproc - 10 && uid != 0) || nprocs >= maxproc) {
345                 if (ppsratecheck(&lastfail, &curfail, 1))
346                         kprintf("maxproc limit exceeded by uid %d, please "
347                                "see tuning(7) and login.conf(5).\n", uid);
348                 tsleep(&forksleep, 0, "fork", hz / 2);
349                 error = EAGAIN;
350                 goto done;
351         }
352
353         /*
354          * Increment the nprocs resource before blocking can occur.  There
355          * are hard-limits as to the number of processes that can run.
356          */
357         atomic_add_int(&nprocs, 1);
358
359         /*
360          * Increment the count of procs running with this uid. Don't allow
361          * a nonprivileged user to exceed their current limit.
362          */
363         ok = chgproccnt(lp1->lwp_thread->td_ucred->cr_ruidinfo, 1,
364                 (uid != 0) ? p1->p_rlimit[RLIMIT_NPROC].rlim_cur : 0);
365         if (!ok) {
366                 /*
367                  * Back out the process count
368                  */
369                 atomic_add_int(&nprocs, -1);
370                 if (ppsratecheck(&lastfail, &curfail, 1))
371                         kprintf("maxproc limit exceeded by uid %d, please "
372                                "see tuning(7) and login.conf(5).\n", uid);
373                 tsleep(&forksleep, 0, "fork", hz / 2);
374                 error = EAGAIN;
375                 goto done;
376         }
377
378         /*
379          * Allocate a new process, don't get fancy: zero the structure.
380          */
381         p2 = kmalloc(sizeof(struct proc), M_PROC, M_WAITOK|M_ZERO);
382
383         /*
384          * Core initialization.  SIDL is a safety state that protects the
385          * partially initialized process once it starts getting hooked
386          * into system structures and becomes addressable.
387          *
388          * We must be sure to acquire p2->p_token as well, we must hold it
389          * once the process is on the allproc list to avoid things such
390          * as competing modifications to p_flags.
391          */
392         p2->p_lasttid = -1;     /* first tid will be 0 */
393         p2->p_stat = SIDL;
394
395         RB_INIT(&p2->p_lwp_tree);
396         spin_init(&p2->p_spin);
397         lwkt_token_init(&p2->p_token, "proc");
398         lwkt_gettoken(&p2->p_token);
399
400         /*
401          * Setup linkage for kernel based threading XXX lwp.  Also add the
402          * process to the allproclist.
403          *
404          * The process structure is addressable after this point.
405          */
406         if (flags & RFTHREAD) {
407                 p2->p_peers = p1->p_peers;
408                 p1->p_peers = p2;
409                 p2->p_leader = p1->p_leader;
410         } else {
411                 p2->p_leader = p2;
412         }
413         proc_add_allproc(p2);
414
415         /*
416          * Initialize the section which is copied verbatim from the parent.
417          */
418         bcopy(&p1->p_startcopy, &p2->p_startcopy,
419               ((caddr_t)&p2->p_endcopy - (caddr_t)&p2->p_startcopy));
420
421         /*
422          * Duplicate sub-structures as needed.  Increase reference counts
423          * on shared objects.
424          *
425          * NOTE: because we are now on the allproc list it is possible for
426          *       other consumers to gain temporary references to p2
427          *       (p2->p_lock can change).
428          */
429         if (p1->p_flags & P_PROFIL)
430                 startprofclock(p2);
431         p2->p_ucred = crhold(lp1->lwp_thread->td_ucred);
432
433         if (jailed(p2->p_ucred))
434                 p2->p_flags |= P_JAILED;
435
436         if (p2->p_args)
437                 refcount_acquire(&p2->p_args->ar_ref);
438
439         p2->p_usched = p1->p_usched;
440         /* XXX: verify copy of the secondary iosched stuff */
441         dsched_new_proc(p2);
442
443         if (flags & RFSIGSHARE) {
444                 p2->p_sigacts = p1->p_sigacts;
445                 refcount_acquire(&p2->p_sigacts->ps_refcnt);
446         } else {
447                 p2->p_sigacts = kmalloc(sizeof(*p2->p_sigacts),
448                                         M_SUBPROC, M_WAITOK);
449                 bcopy(p1->p_sigacts, p2->p_sigacts, sizeof(*p2->p_sigacts));
450                 refcount_init(&p2->p_sigacts->ps_refcnt, 1);
451         }
452         if (flags & RFLINUXTHPN) 
453                 p2->p_sigparent = SIGUSR1;
454         else
455                 p2->p_sigparent = SIGCHLD;
456
457         /* bump references to the text vnode (for procfs) */
458         p2->p_textvp = p1->p_textvp;
459         if (p2->p_textvp)
460                 vref(p2->p_textvp);
461
462         /* copy namecache handle to the text file */
463         if (p1->p_textnch.mount)
464                 cache_copy(&p1->p_textnch, &p2->p_textnch);
465
466         /*
467          * Handle file descriptors
468          */
469         if (flags & RFCFDG) {
470                 p2->p_fd = fdinit(p1);
471                 fdtol = NULL;
472         } else if (flags & RFFDG) {
473                 error = fdcopy(p1, &p2->p_fd);
474                 if (error != 0) {
475                         error = ENOMEM;
476                         goto done;
477                 }
478                 fdtol = NULL;
479         } else {
480                 p2->p_fd = fdshare(p1);
481                 if (p1->p_fdtol == NULL) {
482                         p1->p_fdtol = filedesc_to_leader_alloc(NULL,
483                                                                p1->p_leader);
484                 }
485                 if ((flags & RFTHREAD) != 0) {
486                         /*
487                          * Shared file descriptor table and
488                          * shared process leaders.
489                          */
490                         fdtol = p1->p_fdtol;
491                         fdtol->fdl_refcount++;
492                 } else {
493                         /* 
494                          * Shared file descriptor table, and
495                          * different process leaders 
496                          */
497                         fdtol = filedesc_to_leader_alloc(p1->p_fdtol, p2);
498                 }
499         }
500         p2->p_fdtol = fdtol;
501         p2->p_limit = plimit_fork(p1);
502
503         /*
504          * Preserve some more flags in subprocess.  P_PROFIL has already
505          * been preserved.
506          */
507         p2->p_flags |= p1->p_flags & P_SUGID;
508         if (p1->p_session->s_ttyvp != NULL && (p1->p_flags & P_CONTROLT))
509                 p2->p_flags |= P_CONTROLT;
510         if (flags & RFPPWAIT)
511                 p2->p_flags |= P_PPWAIT;
512
513         /*
514          * Inherit the virtual kernel structure (allows a virtual kernel
515          * to fork to simulate multiple cpus).
516          */
517         if (p1->p_vkernel)
518                 vkernel_inherit(p1, p2);
519
520         /*
521          * Once we are on a pglist we may receive signals.  XXX we might
522          * race a ^C being sent to the process group by not receiving it
523          * at all prior to this line.
524          */
525         pgref(p1grp);
526         lwkt_gettoken(&p1grp->pg_token);
527         LIST_INSERT_AFTER(p1, p2, p_pglist);
528         lwkt_reltoken(&p1grp->pg_token);
529
530         /*
531          * Attach the new process to its parent.
532          *
533          * If RFNOWAIT is set, the newly created process becomes a child
534          * of init.  This effectively disassociates the child from the
535          * parent.
536          */
537         if (flags & RFNOWAIT)
538                 pptr = initproc;
539         else
540                 pptr = p1;
541         p2->p_pptr = pptr;
542         LIST_INIT(&p2->p_children);
543
544         lwkt_gettoken(&pptr->p_token);
545         LIST_INSERT_HEAD(&pptr->p_children, p2, p_sibling);
546         lwkt_reltoken(&pptr->p_token);
547
548         varsymset_init(&p2->p_varsymset, &p1->p_varsymset);
549         callout_init_mp(&p2->p_ithandle);
550
551 #ifdef KTRACE
552         /*
553          * Copy traceflag and tracefile if enabled.  If not inherited,
554          * these were zeroed above but we still could have a trace race
555          * so make sure p2's p_tracenode is NULL.
556          */
557         if ((p1->p_traceflag & KTRFAC_INHERIT) && p2->p_tracenode == NULL) {
558                 p2->p_traceflag = p1->p_traceflag;
559                 p2->p_tracenode = ktrinherit(p1->p_tracenode);
560         }
561 #endif
562
563         /*
564          * This begins the section where we must prevent the parent
565          * from being swapped.
566          *
567          * Gets PRELE'd in the caller in start_forked_proc().
568          */
569         PHOLD(p1);
570
571         vm_fork(p1, p2, flags);
572
573         /*
574          * Create the first lwp associated with the new proc.
575          * It will return via a different execution path later, directly
576          * into userland, after it was put on the runq by
577          * start_forked_proc().
578          */
579         lwp_fork(lp1, p2, flags);
580
581         if (flags == (RFFDG | RFPROC | RFPGLOCK)) {
582                 mycpu->gd_cnt.v_forks++;
583                 mycpu->gd_cnt.v_forkpages += p2->p_vmspace->vm_dsize +
584                                              p2->p_vmspace->vm_ssize;
585         } else if (flags == (RFFDG | RFPROC | RFPPWAIT | RFMEM | RFPGLOCK)) {
586                 mycpu->gd_cnt.v_vforks++;
587                 mycpu->gd_cnt.v_vforkpages += p2->p_vmspace->vm_dsize +
588                                               p2->p_vmspace->vm_ssize;
589         } else if (p1 == &proc0) {
590                 mycpu->gd_cnt.v_kthreads++;
591                 mycpu->gd_cnt.v_kthreadpages += p2->p_vmspace->vm_dsize +
592                                                 p2->p_vmspace->vm_ssize;
593         } else {
594                 mycpu->gd_cnt.v_rforks++;
595                 mycpu->gd_cnt.v_rforkpages += p2->p_vmspace->vm_dsize +
596                                               p2->p_vmspace->vm_ssize;
597         }
598
599         /*
600          * Both processes are set up, now check if any loadable modules want
601          * to adjust anything.
602          *   What if they have an error? XXX
603          */
604         TAILQ_FOREACH(ep, &fork_list, next) {
605                 (*ep->function)(p1, p2, flags);
606         }
607
608         /*
609          * Set the start time.  Note that the process is not runnable.  The
610          * caller is responsible for making it runnable.
611          */
612         microtime(&p2->p_start);
613         p2->p_acflag = AFORK;
614
615         /*
616          * tell any interested parties about the new process
617          */
618         KNOTE(&p1->p_klist, NOTE_FORK | p2->p_pid);
619
620         /*
621          * Return child proc pointer to parent.
622          */
623         *procp = p2;
624         error = 0;
625 done:
626         if (p2)
627                 lwkt_reltoken(&p2->p_token);
628         lwkt_reltoken(&p1->p_token);
629         if (plkgrp) {
630                 lockmgr(&plkgrp->pg_lock, LK_RELEASE);
631                 pgrel(plkgrp);
632         }
633         return (error);
634 }
635
636 static struct lwp *
637 lwp_fork(struct lwp *origlp, struct proc *destproc, int flags)
638 {
639         globaldata_t gd = mycpu;
640         struct lwp *lp;
641         struct thread *td;
642
643         lp = kmalloc(sizeof(struct lwp), M_LWP, M_WAITOK|M_ZERO);
644
645         lp->lwp_proc = destproc;
646         lp->lwp_vmspace = destproc->p_vmspace;
647         lp->lwp_stat = LSRUN;
648         bcopy(&origlp->lwp_startcopy, &lp->lwp_startcopy,
649             (unsigned) ((caddr_t)&lp->lwp_endcopy -
650                         (caddr_t)&lp->lwp_startcopy));
651         lp->lwp_flags |= origlp->lwp_flags & LWP_ALTSTACK;
652         /*
653          * Set cpbase to the last timeout that occured (not the upcoming
654          * timeout).
655          *
656          * A critical section is required since a timer IPI can update
657          * scheduler specific data.
658          */
659         crit_enter();
660         lp->lwp_cpbase = gd->gd_schedclock.time - gd->gd_schedclock.periodic;
661         destproc->p_usched->heuristic_forking(origlp, lp);
662         crit_exit();
663         lp->lwp_cpumask &= usched_mastermask;
664         lwkt_token_init(&lp->lwp_token, "lwp_token");
665         spin_init(&lp->lwp_spin);
666
667         /*
668          * Assign the thread to the current cpu to begin with so we
669          * can manipulate it.
670          */
671         td = lwkt_alloc_thread(NULL, LWKT_THREAD_STACK, gd->gd_cpuid, 0);
672         lp->lwp_thread = td;
673         td->td_proc = destproc;
674         td->td_lwp = lp;
675         td->td_switch = cpu_heavy_switch;
676         lwkt_setpri(td, TDPRI_KERN_USER);
677         lwkt_set_comm(td, "%s", destproc->p_comm);
678
679         /*
680          * cpu_fork will copy and update the pcb, set up the kernel stack,
681          * and make the child ready to run.
682          */
683         cpu_fork(origlp, lp, flags);
684         caps_fork(origlp->lwp_thread, lp->lwp_thread);
685         kqueue_init(&lp->lwp_kqueue, destproc->p_fd);
686
687         /*
688          * Assign a TID to the lp.  Loop until the insert succeeds (returns
689          * NULL).
690          */
691         lp->lwp_tid = destproc->p_lasttid;
692         do {
693                 if (++lp->lwp_tid < 0)
694                         lp->lwp_tid = 1;
695         } while (lwp_rb_tree_RB_INSERT(&destproc->p_lwp_tree, lp) != NULL);
696         destproc->p_lasttid = lp->lwp_tid;
697         destproc->p_nthreads++;
698
699         return (lp);
700 }
701
702 /*
703  * The next two functionms are general routines to handle adding/deleting
704  * items on the fork callout list.
705  *
706  * at_fork():
707  * Take the arguments given and put them onto the fork callout list,
708  * However first make sure that it's not already there.
709  * Returns 0 on success or a standard error number.
710  */
711 int
712 at_fork(forklist_fn function)
713 {
714         struct forklist *ep;
715
716 #ifdef INVARIANTS
717         /* let the programmer know if he's been stupid */
718         if (rm_at_fork(function)) {
719                 kprintf("WARNING: fork callout entry (%p) already present\n",
720                     function);
721         }
722 #endif
723         ep = kmalloc(sizeof(*ep), M_ATFORK, M_WAITOK|M_ZERO);
724         ep->function = function;
725         TAILQ_INSERT_TAIL(&fork_list, ep, next);
726         return (0);
727 }
728
729 /*
730  * Scan the exit callout list for the given item and remove it..
731  * Returns the number of items removed (0 or 1)
732  */
733 int
734 rm_at_fork(forklist_fn function)
735 {
736         struct forklist *ep;
737
738         TAILQ_FOREACH(ep, &fork_list, next) {
739                 if (ep->function == function) {
740                         TAILQ_REMOVE(&fork_list, ep, next);
741                         kfree(ep, M_ATFORK);
742                         return(1);
743                 }
744         }       
745         return (0);
746 }
747
748 /*
749  * Add a forked process to the run queue after any remaining setup, such
750  * as setting the fork handler, has been completed.
751  *
752  * p2 is held by the caller.
753  */
754 void
755 start_forked_proc(struct lwp *lp1, struct proc *p2)
756 {
757         struct lwp *lp2 = ONLY_LWP_IN_PROC(p2);
758
759         /*
760          * Move from SIDL to RUN queue, and activate the process's thread.
761          * Activation of the thread effectively makes the process "a"
762          * current process, so we do not setrunqueue().
763          *
764          * YYY setrunqueue works here but we should clean up the trampoline
765          * code so we just schedule the LWKT thread and let the trampoline
766          * deal with the userland scheduler on return to userland.
767          */
768         KASSERT(p2->p_stat == SIDL,
769             ("cannot start forked process, bad status: %p", p2));
770         p2->p_usched->resetpriority(lp2);
771         crit_enter();
772         p2->p_stat = SACTIVE;
773         lp2->lwp_stat = LSRUN;
774         p2->p_usched->setrunqueue(lp2);
775         crit_exit();
776
777         /*
778          * Now can be swapped.
779          */
780         PRELE(lp1->lwp_proc);
781
782         /*
783          * Preserve synchronization semantics of vfork.  If waiting for
784          * child to exec or exit, set P_PPWAIT on child, and sleep on our
785          * proc (in case of exec or exit).
786          *
787          * We must hold our p_token to interlock the flag/tsleep
788          */
789         lwkt_gettoken(&p2->p_token);
790         while (p2->p_flags & P_PPWAIT)
791                 tsleep(lp1->lwp_proc, 0, "ppwait", 0);
792         lwkt_reltoken(&p2->p_token);
793 }