kernel - pmap (i386) - Reduce kmem use for foreign pmap mapping
[dragonfly.git] / sys / emulation / linux / i386 / imgact_linux.c
1 /*-
2  * Copyright (c) 1994-1996 Søren Schmidt
3  * All rights reserved.
4  *
5  * Based heavily on /sys/kern/imgact_aout.c which is:
6  * Copyright (c) 1993, David Greenman
7  *
8  * Redistribution and use in source and binary forms, with or without
9  * modification, are permitted provided that the following conditions
10  * are met:
11  * 1. Redistributions of source code must retain the above copyright
12  *    notice, this list of conditions and the following disclaimer 
13  *    in this position and unchanged.
14  * 2. Redistributions in binary form must reproduce the above copyright
15  *    notice, this list of conditions and the following disclaimer in the
16  *    documentation and/or other materials provided with the distribution.
17  * 3. The name of the author may not be used to endorse or promote products
18  *    derived from this software withough specific prior written permission
19  *
20  * THIS SOFTWARE IS PROVIDED BY THE AUTHOR ``AS IS'' AND ANY EXPRESS OR
21  * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
22  * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED.
23  * IN NO EVENT SHALL THE AUTHOR BE LIABLE FOR ANY DIRECT, INDIRECT,
24  * INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT
25  * NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
26  * DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
27  * THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
28  * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF
29  * THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
30  *
31  * $FreeBSD: src/sys/i386/linux/imgact_linux.c,v 1.35.2.2 2001/11/03 01:41:08 ps Exp $
32  * $DragonFly: src/sys/emulation/linux/i386/imgact_linux.c,v 1.10 2006/12/28 21:24:02 dillon Exp $
33  */
34
35 #include <sys/param.h>
36 #include <sys/systm.h>
37 #include <sys/resourcevar.h>
38 #include <sys/exec.h>
39 #include <sys/mman.h>
40 #include <sys/imgact.h>
41 #include <sys/imgact_aout.h>
42 #include <sys/kernel.h>
43 #include <sys/lock.h>
44 #include <sys/proc.h>
45 #include <sys/vnode.h>
46
47 #include <vm/vm.h>
48 #include <vm/vm_kern.h>
49 #include <vm/vm_param.h>
50 #include <vm/pmap.h>
51 #include <vm/vm_map.h>
52 #include <vm/vm_extern.h>
53
54 #include "linux.h"
55
56 static int      exec_linux_imgact (struct image_params *iparams);
57
58 static int
59 exec_linux_imgact(struct image_params *imgp)
60 {
61     const struct exec *a_out = (const struct exec *) imgp->image_header;
62     struct vmspace *vmspace;
63     vm_offset_t vmaddr;
64     unsigned long virtual_offset, file_offset;
65     vm_offset_t buffer;
66     unsigned long bss_size;
67     int error;
68
69     if (((a_out->a_magic >> 16) & 0xff) != 0x64)
70         return -1;
71
72     /*
73      * Set file/virtual offset based on a.out variant.
74      */
75     switch ((int)(a_out->a_magic & 0xffff)) {
76     case 0413:
77         virtual_offset = 0;
78         file_offset = 1024;
79         break;
80     case 0314:
81         virtual_offset = 4096;
82         file_offset = 0;
83         break;
84     default:
85         return (-1);
86     }
87     bss_size = round_page(a_out->a_bss);
88 #ifdef DEBUG
89     kprintf("imgact: text: %08lx, data: %08lx, bss: %08lx\n",
90         (u_long)a_out->a_text, (u_long)a_out->a_data, bss_size);
91 #endif
92
93     /*
94      * Check various fields in header for validity/bounds.
95      */
96     if (a_out->a_entry < virtual_offset ||
97         a_out->a_entry >= virtual_offset + a_out->a_text ||
98         a_out->a_text & PAGE_MASK || a_out->a_data & PAGE_MASK)
99         return (-1);
100
101     /* text + data can't exceed file size */
102     if (a_out->a_data + a_out->a_text > imgp->attr->va_size)
103         return (EFAULT);
104     /*
105      * text/data/bss must not exceed limits
106      */
107     if (a_out->a_text > maxtsiz ||
108         a_out->a_data + bss_size > imgp->proc->p_rlimit[RLIMIT_DATA].rlim_cur)
109         return (ENOMEM);
110
111     /*
112      * Destroy old process VM and create a new one (with a new stack)
113      */
114     exec_new_vmspace(imgp, NULL);
115     vmspace = imgp->proc->p_vmspace;
116
117     /*
118      * Check if file_offset page aligned,.
119      * Currently we cannot handle misalinged file offsets,
120      * and so we read in the entire image (what a waste).
121      */
122     if (file_offset & PAGE_MASK) {
123 #ifdef DEBUG
124         kprintf("imgact: Non page aligned binary %lu\n", file_offset);
125 #endif
126         /*
127          * Map text+data+bss read/write/execute
128          */
129         vmaddr = virtual_offset;
130         error = vm_map_find(&vmspace->vm_map, NULL, 0, &vmaddr,
131                             a_out->a_text + a_out->a_data + bss_size,
132                             PAGE_SIZE,
133                             FALSE, VM_MAPTYPE_NORMAL,
134                             VM_PROT_ALL, VM_PROT_ALL, 0);
135         if (error)
136             return error;
137
138         error = vm_mmap(&kernel_map, &buffer,
139                         round_page(a_out->a_text + a_out->a_data + file_offset),
140                         VM_PROT_READ, VM_PROT_READ, 0,
141                         (caddr_t) imgp->vp, trunc_page(file_offset));
142         if (error)
143             return error;
144
145         error = copyout((caddr_t)(void *)(uintptr_t)(buffer + file_offset),
146                         (caddr_t)vmaddr, a_out->a_text + a_out->a_data);
147
148         vm_map_remove(&kernel_map, buffer,
149                       buffer + round_page(a_out->a_text + a_out->a_data + file_offset));
150
151         if (error)
152             return error;
153
154         /*
155          * remove write enable on the 'text' part
156          */
157         error = vm_map_protect(&vmspace->vm_map,
158                                vmaddr,
159                                vmaddr + a_out->a_text,
160                                VM_PROT_EXECUTE|VM_PROT_READ,
161                                TRUE);
162         if (error)
163             return error;
164     }
165     else {
166 #ifdef DEBUG
167         kprintf("imgact: Page aligned binary %lu\n", file_offset);
168 #endif
169         /*
170          * Map text+data read/execute
171          */
172         vmaddr = virtual_offset;
173         error = vm_mmap(&vmspace->vm_map, &vmaddr,
174                         a_out->a_text + a_out->a_data,
175                         VM_PROT_READ | VM_PROT_EXECUTE,
176                         VM_PROT_ALL,
177                         MAP_PRIVATE | MAP_FIXED,
178                         (caddr_t)imgp->vp, file_offset);
179         if (error)
180             return (error);
181     
182 #ifdef DEBUG
183         kprintf("imgact: startaddr=%08lx, length=%08lx\n",
184             (u_long)vmaddr, a_out->a_text + a_out->a_data);
185 #endif
186         /*
187          * allow read/write of data
188          */
189         error = vm_map_protect(&vmspace->vm_map,
190                                vmaddr + a_out->a_text,
191                                vmaddr + a_out->a_text + a_out->a_data,
192                                VM_PROT_ALL,
193                                FALSE);
194         if (error)
195             return (error);
196     
197         /*
198          * Allocate anon demand-zeroed area for uninitialized data
199          */
200         if (bss_size != 0) {
201             vmaddr = virtual_offset + a_out->a_text + a_out->a_data;
202             error = vm_map_find(&vmspace->vm_map, NULL, 0, &vmaddr, 
203                                 bss_size, PAGE_SIZE,
204                                 FALSE, VM_MAPTYPE_NORMAL,
205                                 VM_PROT_ALL, VM_PROT_ALL,
206                                 0);
207             if (error)
208                 return (error);
209 #ifdef DEBUG
210             kprintf("imgact: bssaddr=%08lx, length=%08lx\n",
211                 (u_long)vmaddr, bss_size);
212 #endif
213
214         }
215         /* Indicate that this file should not be modified */
216         imgp->vp->v_flag |= VTEXT;
217     }
218     /* Fill in process VM information */
219     vmspace->vm_tsize = round_page(a_out->a_text) >> PAGE_SHIFT;
220     vmspace->vm_dsize = round_page(a_out->a_data + bss_size) >> PAGE_SHIFT;
221     vmspace->vm_taddr = (caddr_t)(void *)(uintptr_t)virtual_offset;
222     vmspace->vm_daddr = (caddr_t)(void *)(uintptr_t)
223         (virtual_offset + a_out->a_text);
224
225     /* Fill in image_params */
226     imgp->interpreted = 0;
227     imgp->entry_addr = a_out->a_entry;
228     
229     imgp->proc->p_sysent = &linux_sysvec;
230     return (0);
231 }
232
233 /*
234  * Tell kern_execve.c about it, with a little help from the linker.
235  */
236 static struct execsw linux_execsw = { exec_linux_imgact, "linux a.out" };
237 EXEC_SET(linuxaout, linux_execsw);