Merge commit '93bf91b4012a28610672d2266366dfa0a663b70f' into HEAD
[freebsd.git] / sys / sys / jail.h
1 /*-
2  * SPDX-License-Identifier: BSD-2-Clause-FreeBSD
3  *
4  * Copyright (c) 1999 Poul-Henning Kamp.
5  * Copyright (c) 2009 James Gritton.
6  * All rights reserved.
7  *
8  * Redistribution and use in source and binary forms, with or without
9  * modification, are permitted provided that the following conditions
10  * are met:
11  * 1. Redistributions of source code must retain the above copyright
12  *    notice, this list of conditions and the following disclaimer.
13  * 2. Redistributions in binary form must reproduce the above copyright
14  *    notice, this list of conditions and the following disclaimer in the
15  *    documentation and/or other materials provided with the distribution.
16  *
17  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR AND CONTRIBUTORS ``AS IS'' AND
18  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
19  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
20  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
21  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
22  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
23  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
24  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
25  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
26  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
27  * SUCH DAMAGE.
28  *
29  * $FreeBSD$
30  */
31
32 #ifndef _SYS_JAIL_H_
33 #define _SYS_JAIL_H_
34
35 #ifdef _KERNEL
36 struct jail_v0 {
37         u_int32_t       version;
38         char            *path;
39         char            *hostname;
40         u_int32_t       ip_number;
41 };
42 #endif
43
44 struct jail {
45         uint32_t        version;
46         char            *path;
47         char            *hostname;
48         char            *jailname;
49         uint32_t        ip4s;
50         uint32_t        ip6s;
51         struct in_addr  *ip4;
52         struct in6_addr *ip6;
53 };
54 #define JAIL_API_VERSION        2
55
56 /*
57  * For all xprison structs, always keep the pr_version an int and
58  * the first variable so userspace can easily distinguish them.
59  */
60 #ifndef _KERNEL
61 struct xprison_v1 {
62         int              pr_version;
63         int              pr_id;
64         char             pr_path[MAXPATHLEN];
65         char             pr_host[MAXHOSTNAMELEN];
66         u_int32_t        pr_ip;
67 };
68 #endif
69
70 struct xprison {
71         int              pr_version;
72         int              pr_id;
73         int              pr_state;
74         cpusetid_t       pr_cpusetid;
75         char             pr_path[MAXPATHLEN];
76         char             pr_host[MAXHOSTNAMELEN];
77         char             pr_name[MAXHOSTNAMELEN];
78         uint32_t         pr_ip4s;
79         uint32_t         pr_ip6s;
80 #if 0
81         /*
82          * sizeof(xprison) will be malloced + size needed for all
83          * IPv4 and IPv6 addesses. Offsets are based numbers of addresses.
84          */
85         struct in_addr   pr_ip4[];
86         struct in6_addr  pr_ip6[];
87 #endif
88 };
89 #define XPRISON_VERSION         3
90
91 enum prison_state {
92     PRISON_STATE_INVALID = 0,   /* New prison, not ready to be seen */
93     PRISON_STATE_ALIVE,         /* Current prison, visible to all */
94     PRISON_STATE_DYING          /* Removed but holding resources, */
95 };                              /* optionally visible. */
96
97 /*
98  * Flags for jail_set and jail_get.
99  */
100 #define JAIL_CREATE     0x01    /* Create jail if it doesn't exist */
101 #define JAIL_UPDATE     0x02    /* Update parameters of existing jail */
102 #define JAIL_ATTACH     0x04    /* Attach to jail upon creation */
103 #define JAIL_DYING      0x08    /* Allow getting a dying jail */
104 #define JAIL_SET_MASK   0x0f
105 #define JAIL_GET_MASK   0x08
106
107 #define JAIL_SYS_DISABLE        0
108 #define JAIL_SYS_NEW            1
109 #define JAIL_SYS_INHERIT        2
110
111 #ifndef _KERNEL
112
113 struct iovec;
114
115 __BEGIN_DECLS
116 int jail(struct jail *);
117 int jail_set(struct iovec *, unsigned int, int);
118 int jail_get(struct iovec *, unsigned int, int);
119 int jail_attach(int);
120 int jail_remove(int);
121 __END_DECLS
122
123 #else /* _KERNEL */
124
125 #include <sys/queue.h>
126 #include <sys/sysctl.h>
127 #include <sys/lock.h>
128 #include <sys/mutex.h>
129 #include <sys/_task.h>
130
131 #define JAIL_MAX        999999
132
133 #ifdef MALLOC_DECLARE
134 MALLOC_DECLARE(M_PRISON);
135 #endif
136 #endif /* _KERNEL */
137
138 #if defined(_KERNEL) || defined(_WANT_PRISON)
139
140 #include <sys/osd.h>
141
142 #define HOSTUUIDLEN     64
143 #define DEFAULT_HOSTUUID        "00000000-0000-0000-0000-000000000000"
144 #define OSRELEASELEN    32
145
146 struct racct;
147 struct prison_racct;
148
149 typedef enum {
150         PR_INET         = 0,
151         PR_INET6        = 1,
152         PR_FAMILY_MAX   = 2,
153 } pr_family_t;
154
155 /*
156  * This structure describes a prison.  It is pointed to by all struct
157  * ucreds's of the inmates.  pr_ref keeps track of them and is used to
158  * delete the structure when the last inmate is dead.
159  *
160  * Lock key:
161  *   (a) allprison_lock
162  *   (A) allproc_lock
163  *   (c) set only during creation before the structure is shared, no mutex
164  *       required to read
165  *   (m) locked by pr_mtx
166  *   (p) locked by pr_mtx, and also at least shared allprison_lock required
167  *       to update
168  *   (q) locked by both pr_mtx and allprison_lock
169  *   (r) atomic via refcount(9), pr_mtx and allprison_lock required to
170  *       decrement to zero
171  *   (n) read access granted with the network epoch
172  */
173 struct prison {
174         TAILQ_ENTRY(prison) pr_list;                    /* (a) all prisons */
175         int              pr_id;                         /* (c) prison id */
176         volatile u_int   pr_ref;                        /* (r) refcount */
177         volatile u_int   pr_uref;                       /* (r) user (alive) refcount */
178         unsigned         pr_flags;                      /* (p) PR_* flags */
179         LIST_HEAD(, prison) pr_children;                /* (a) list of child jails */
180         LIST_HEAD(, proc) pr_proclist;                  /* (A) list of jailed processes */
181         LIST_ENTRY(prison) pr_sibling;                  /* (a) next in parent's list */
182         struct prison   *pr_parent;                     /* (c) containing jail */
183         struct mtx       pr_mtx;
184         struct task      pr_task;                       /* (c) destroy task */
185         struct osd       pr_osd;                        /* (p) additional data */
186         struct cpuset   *pr_cpuset;                     /* (p) cpuset */
187         struct vnet     *pr_vnet;                       /* (c) network stack */
188         struct vnode    *pr_root;                       /* (c) vnode to rdir */
189         struct prison_ip  *pr_addrs[PR_FAMILY_MAX];     /* (p,n) IPs of jail */
190         struct prison_racct *pr_prison_racct;           /* (c) racct jail proxy */
191         void            *pr_sparep[3];
192         int              pr_childcount;                 /* (a) number of child jails */
193         int              pr_childmax;                   /* (p) maximum child jails */
194         unsigned         pr_allow;                      /* (p) PR_ALLOW_* flags */
195         int              pr_securelevel;                /* (p) securelevel */
196         int              pr_enforce_statfs;             /* (p) statfs permission */
197         int              pr_devfs_rsnum;                /* (p) devfs ruleset */
198         enum prison_state pr_state;                     /* (q) state in life cycle */
199         int              pr_spare[2];
200         int              pr_osreldate;                  /* (c) kern.osreldate value */
201         unsigned long    pr_hostid;                     /* (p) jail hostid */
202         char             pr_name[MAXHOSTNAMELEN];       /* (p) admin jail name */
203         char             pr_path[MAXPATHLEN];           /* (c) chroot path */
204         char             pr_hostname[MAXHOSTNAMELEN];   /* (p) jail hostname */
205         char             pr_domainname[MAXHOSTNAMELEN]; /* (p) jail domainname */
206         char             pr_hostuuid[HOSTUUIDLEN];      /* (p) jail hostuuid */
207         char             pr_osrelease[OSRELEASELEN];    /* (c) kern.osrelease value */
208 };
209
210 struct prison_racct {
211         LIST_ENTRY(prison_racct) prr_next;
212         char            prr_name[MAXHOSTNAMELEN];
213         u_int           prr_refcount;
214         struct racct    *prr_racct;
215 };
216 #endif /* _KERNEL || _WANT_PRISON */
217
218 #ifdef _KERNEL
219 /* Flag bits set via options */
220 #define PR_PERSIST      0x00000001      /* Can exist without processes */
221 #define PR_HOST         0x00000002      /* Virtualize hostname et al */
222 #define PR_IP4_USER     0x00000004      /* Restrict IPv4 addresses */
223 #define PR_IP6_USER     0x00000008      /* Restrict IPv6 addresses */
224 #define PR_VNET         0x00000010      /* Virtual network stack */
225 #define PR_IP4_SADDRSEL 0x00000080      /* Do IPv4 src addr sel. or use the */
226                                         /* primary jail address. */
227 #define PR_IP6_SADDRSEL 0x00000100      /* Do IPv6 src addr sel. or use the */
228                                         /* primary jail address. */
229
230 /* Internal flag bits */
231 #define PR_REMOVE       0x01000000      /* In process of being removed */
232 #define PR_IP4          0x02000000      /* IPv4 restricted or disabled */
233                                         /* by this jail or an ancestor */
234 #define PR_IP6          0x04000000      /* IPv6 restricted or disabled */
235                                         /* by this jail or an ancestor */
236 #define PR_COMPLETE_PROC 0x08000000     /* prison_complete called from */
237                                         /* prison_proc_free, releases uref */
238
239 /*
240  * Flags for pr_allow
241  * Bits not noted here may be used for dynamic allow.mount.xxxfs.
242  */
243 #define PR_ALLOW_SET_HOSTNAME           0x00000001
244 #define PR_ALLOW_SYSVIPC                0x00000002
245 #define PR_ALLOW_RAW_SOCKETS            0x00000004
246 #define PR_ALLOW_CHFLAGS                0x00000008
247 #define PR_ALLOW_MOUNT                  0x00000010
248 #define PR_ALLOW_QUOTAS                 0x00000020
249 #define PR_ALLOW_SOCKET_AF              0x00000040
250 #define PR_ALLOW_MLOCK                  0x00000080
251 #define PR_ALLOW_READ_MSGBUF            0x00000100
252 #define PR_ALLOW_UNPRIV_DEBUG           0x00000200
253 #define PR_ALLOW_SUSER                  0x00000400
254 #define PR_ALLOW_RESERVED_PORTS         0x00008000
255 #define PR_ALLOW_KMEM_ACCESS            0x00010000      /* reserved, not used yet */
256 #define PR_ALLOW_ALL_STATIC             0x000187ff
257
258 /*
259  * PR_ALLOW_DIFFERENCES determines which flags are able to be
260  * different between the parent and child jail upon creation.
261  */
262 #define PR_ALLOW_DIFFERENCES            (PR_ALLOW_UNPRIV_DEBUG)
263
264 /*
265  * OSD methods
266  */
267 #define PR_METHOD_CREATE        0
268 #define PR_METHOD_GET           1
269 #define PR_METHOD_SET           2
270 #define PR_METHOD_CHECK         3
271 #define PR_METHOD_ATTACH        4
272 #define PR_METHOD_REMOVE        5
273 #define PR_MAXMETHOD            6
274
275 /*
276  * Lock/unlock a prison.
277  * XXX These exist not so much for general convenience, but to be useable in
278  *     the FOREACH_PRISON_DESCENDANT_LOCKED macro which can't handle them in
279  *     non-function form as currently defined.
280  */
281 static __inline void
282 prison_lock(struct prison *pr)
283 {
284
285         mtx_lock(&pr->pr_mtx);
286 }
287
288 static __inline void
289 prison_unlock(struct prison *pr)
290 {
291
292         mtx_unlock(&pr->pr_mtx);
293 }
294
295 /* Traverse a prison's immediate children. */
296 #define FOREACH_PRISON_CHILD(ppr, cpr)                                  \
297         LIST_FOREACH(cpr, &(ppr)->pr_children, pr_sibling)
298
299 /*
300  * Preorder traversal of all of a prison's descendants.
301  * This ugly loop allows the macro to be followed by a single block
302  * as expected in a looping primitive.
303  */
304 #define FOREACH_PRISON_DESCENDANT(ppr, cpr, descend)                    \
305         for ((cpr) = (ppr), (descend) = 1;                              \
306             ((cpr) = (((descend) && !LIST_EMPTY(&(cpr)->pr_children))   \
307               ? LIST_FIRST(&(cpr)->pr_children)                         \
308               : ((cpr) == (ppr)                                         \
309                  ? NULL                                                 \
310                  : (((descend) = LIST_NEXT(cpr, pr_sibling) != NULL)    \
311                     ? LIST_NEXT(cpr, pr_sibling)                        \
312                     : (cpr)->pr_parent))));)                            \
313                 if (!(descend))                                         \
314                         ;                                               \
315                 else
316
317 /*
318  * As above, but lock descendants on the way down and unlock on the way up.
319  */
320 #define FOREACH_PRISON_DESCENDANT_LOCKED(ppr, cpr, descend)             \
321         for ((cpr) = (ppr), (descend) = 1;                              \
322             ((cpr) = (((descend) && !LIST_EMPTY(&(cpr)->pr_children))   \
323               ? LIST_FIRST(&(cpr)->pr_children)                         \
324               : ((cpr) == (ppr)                                         \
325                  ? NULL                                                 \
326                  : ((prison_unlock(cpr),                                \
327                     (descend) = LIST_NEXT(cpr, pr_sibling) != NULL)     \
328                     ? LIST_NEXT(cpr, pr_sibling)                        \
329                     : (cpr)->pr_parent))));)                            \
330                 if ((descend) ? (prison_lock(cpr), 0) : 1)              \
331                         ;                                               \
332                 else
333
334 /*
335  * As above, but also keep track of the level descended to.
336  */
337 #define FOREACH_PRISON_DESCENDANT_LOCKED_LEVEL(ppr, cpr, descend, level)\
338         for ((cpr) = (ppr), (descend) = 1, (level) = 0;                 \
339             ((cpr) = (((descend) && !LIST_EMPTY(&(cpr)->pr_children))   \
340               ? (level++, LIST_FIRST(&(cpr)->pr_children))              \
341               : ((cpr) == (ppr)                                         \
342                  ? NULL                                                 \
343                  : ((prison_unlock(cpr),                                \
344                     (descend) = LIST_NEXT(cpr, pr_sibling) != NULL)     \
345                     ? LIST_NEXT(cpr, pr_sibling)                        \
346                     : (level--, (cpr)->pr_parent)))));)                 \
347                 if ((descend) ? (prison_lock(cpr), 0) : 1)              \
348                         ;                                               \
349                 else
350
351 /*
352  * Traverse a prison's descendants, visiting both preorder and postorder.
353  */
354 #define FOREACH_PRISON_DESCENDANT_PRE_POST(ppr, cpr, descend)           \
355         for ((cpr) = (ppr), (descend) = 1;                              \
356              ((cpr) = (descend)                                         \
357               ? ((descend) = !LIST_EMPTY(&(cpr)->pr_children))          \
358                 ? LIST_FIRST(&(cpr)->pr_children)                       \
359                 : (cpr)                                                 \
360               : ((descend) = LIST_NEXT(cpr, pr_sibling) != NULL)        \
361                 ? LIST_NEXT(cpr, pr_sibling)                            \
362                 : cpr->pr_parent) != (ppr);)
363
364 /*
365  * Attributes of the physical system, and the root of the jail tree.
366  */
367 extern struct   prison prison0;
368
369 TAILQ_HEAD(prisonlist, prison);
370 extern struct   prisonlist allprison;
371 extern struct   sx allprison_lock;
372
373 /*
374  * Sysctls to describe jail parameters.
375  */
376 SYSCTL_DECL(_security_jail_param);
377
378 #define SYSCTL_JAIL_PARAM(module, param, type, fmt, descr)              \
379     SYSCTL_PROC(_security_jail_param ## module, OID_AUTO, param,        \
380         (type) | CTLFLAG_MPSAFE, NULL, 0, sysctl_jail_param, fmt, descr)
381 #define SYSCTL_JAIL_PARAM_STRING(module, param, access, len, descr)     \
382     SYSCTL_PROC(_security_jail_param ## module, OID_AUTO, param,        \
383         CTLTYPE_STRING | CTLFLAG_MPSAFE | (access), NULL, len,          \
384         sysctl_jail_param, "A", descr)
385 #define SYSCTL_JAIL_PARAM_STRUCT(module, param, access, len, fmt, descr)\
386     SYSCTL_PROC(_security_jail_param ## module, OID_AUTO, param,        \
387         CTLTYPE_STRUCT | CTLFLAG_MPSAFE | (access), NULL, len,          \
388         sysctl_jail_param, fmt, descr)
389 #define SYSCTL_JAIL_PARAM_NODE(module, descr)                           \
390     SYSCTL_NODE(_security_jail_param, OID_AUTO, module, CTLFLAG_MPSAFE, \
391         0, descr)
392 #define SYSCTL_JAIL_PARAM_SUBNODE(parent, module, descr)                \
393     SYSCTL_NODE(_security_jail_param_##parent, OID_AUTO, module,        \
394         CTLFLAG_MPSAFE, 0, descr)
395 #define SYSCTL_JAIL_PARAM_SYS_NODE(module, access, descr)               \
396     SYSCTL_JAIL_PARAM_NODE(module, descr);                              \
397     SYSCTL_JAIL_PARAM(_##module, , CTLTYPE_INT | (access), "E,jailsys", \
398         descr)
399
400 /*
401  * Kernel support functions for jail().
402  */
403 struct ucred;
404 struct mount;
405 struct sockaddr;
406 struct statfs;
407 struct vfsconf;
408
409 /*
410  * Return 1 if the passed credential is in a jail, otherwise 0.
411  */
412 #define jailed(cred)    (cred->cr_prison != &prison0)
413
414 int jailed_without_vnet(struct ucred *);
415 void getcredhostname(struct ucred *, char *, size_t);
416 void getcreddomainname(struct ucred *, char *, size_t);
417 void getcredhostuuid(struct ucred *, char *, size_t);
418 void getcredhostid(struct ucred *, unsigned long *);
419 void getjailname(struct ucred *cred, char *name, size_t len);
420 void prison0_init(void);
421 int prison_allow(struct ucred *, unsigned);
422 int prison_check(struct ucred *cred1, struct ucred *cred2);
423 int prison_owns_vnet(struct ucred *);
424 int prison_canseemount(struct ucred *cred, struct mount *mp);
425 void prison_enforce_statfs(struct ucred *cred, struct mount *mp,
426     struct statfs *sp);
427 struct prison *prison_find(int prid);
428 struct prison *prison_find_child(struct prison *, int);
429 struct prison *prison_find_name(struct prison *, const char *);
430 int prison_flag(struct ucred *, unsigned);
431 void prison_free(struct prison *pr);
432 void prison_free_locked(struct prison *pr);
433 void prison_hold(struct prison *pr);
434 void prison_hold_locked(struct prison *pr);
435 void prison_proc_hold(struct prison *);
436 void prison_proc_free(struct prison *);
437 void prison_proc_link(struct prison *, struct proc *);
438 void prison_proc_unlink(struct prison *, struct proc *);
439 void prison_proc_iterate(struct prison *, void (*)(struct proc *, void *), void *);
440 void prison_set_allow(struct ucred *cred, unsigned flag, int enable);
441 int prison_ischild(struct prison *, struct prison *);
442 bool prison_isalive(const struct prison *);
443 bool prison_isvalid(struct prison *);
444 #if defined(INET) || defined(INET6)
445 int prison_ip_check(const struct prison *, const pr_family_t, const void *);
446 const void *prison_ip_get0(const struct prison *, const pr_family_t);
447 u_int prison_ip_cnt(const struct prison *, const pr_family_t);
448 #endif
449 #ifdef INET
450 int prison_equal_ip4(struct prison *, struct prison *);
451 int prison_get_ip4(struct ucred *cred, struct in_addr *ia);
452 int prison_local_ip4(struct ucred *cred, struct in_addr *ia);
453 int prison_remote_ip4(struct ucred *cred, struct in_addr *ia);
454 int prison_check_ip4(const struct ucred *, const struct in_addr *);
455 int prison_check_ip4_locked(const struct prison *, const struct in_addr *);
456 int prison_saddrsel_ip4(struct ucred *, struct in_addr *);
457 int prison_qcmp_v4(const void *, const void *);
458 bool prison_valid_v4(const void *);
459 #endif
460 #ifdef INET6
461 int prison_equal_ip6(struct prison *, struct prison *);
462 int prison_get_ip6(struct ucred *, struct in6_addr *);
463 int prison_local_ip6(struct ucred *, struct in6_addr *, int);
464 int prison_remote_ip6(struct ucred *, struct in6_addr *);
465 int prison_check_ip6(const struct ucred *, const struct in6_addr *);
466 int prison_check_ip6_locked(const struct prison *, const struct in6_addr *);
467 int prison_saddrsel_ip6(struct ucred *, struct in6_addr *);
468 int prison_qcmp_v6(const void *, const void *);
469 bool prison_valid_v6(const void *);
470 #endif
471 int prison_check_af(struct ucred *cred, int af);
472 int prison_if(struct ucred *cred, const struct sockaddr *sa);
473 char *prison_name(struct prison *, struct prison *);
474 int prison_priv_check(struct ucred *cred, int priv);
475 int sysctl_jail_param(SYSCTL_HANDLER_ARGS);
476 unsigned prison_add_allow(const char *prefix, const char *name,
477     const char *prefix_descr, const char *descr);
478 void prison_add_vfs(struct vfsconf *vfsp);
479 void prison_racct_foreach(void (*callback)(struct racct *racct,
480     void *arg2, void *arg3), void (*pre)(void), void (*post)(void),
481     void *arg2, void *arg3);
482 struct prison_racct *prison_racct_find(const char *name);
483 void prison_racct_hold(struct prison_racct *prr);
484 void prison_racct_free(struct prison_racct *prr);
485
486 #endif /* _KERNEL */
487 #endif /* !_SYS_JAIL_H_ */