36c3955ee26ddae22dca0a587b0da82b109cd773
[dragonfly.git] / sys / kern / vfs_vm.c
1 /*
2  * Copyright (c) 2010 The DragonFly Project.  All rights reserved.
3  *
4  * This code is derived from software contributed to The DragonFly Project
5  * by Matthew Dillon <dillon@backplane.com>
6  *
7  * Redistribution and use in source and binary forms, with or without
8  * modification, are permitted provided that the following conditions
9  * are met:
10  *
11  * 1. Redistributions of source code must retain the above copyright
12  *    notice, this list of conditions and the following disclaimer.
13  * 2. Redistributions in binary form must reproduce the above copyright
14  *    notice, this list of conditions and the following disclaimer in
15  *    the documentation and/or other materials provided with the
16  *    distribution.
17  * 3. Neither the name of The DragonFly Project nor the names of its
18  *    contributors may be used to endorse or promote products derived
19  *    from this software without specific, prior written permission.
20  *
21  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
22  * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
23  * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
24  * FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE
25  * COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
26  * INCIDENTAL, SPECIAL, EXEMPLARY OR CONSEQUENTIAL DAMAGES (INCLUDING,
27  * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
28  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
29  * AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
30  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
31  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
32  * SUCH DAMAGE.
33  */
34
35 /*
36  * Implements new VFS/VM coherency functions.  For conforming VFSs
37  * we treat the backing VM object slightly differently.  Instead of
38  * maintaining a number of pages to exactly fit the size of the file
39  * we instead maintain pages to fit the entire contents of the last
40  * buffer cache buffer used by the file.
41  *
42  * For VFSs like NFS and HAMMER which use (generally speaking) fixed
43  * sized buffers this greatly reduces the complexity of VFS/VM interactions.
44  *
45  * Truncations no longer invalidate pages covered by the buffer cache
46  * beyond the file EOF which still fit within the file's last buffer.
47  * We simply unmap them and do not allow userland to fault them in.
48  *
49  * The VFS is no longer responsible for zero-filling buffers during a
50  * truncation, the last buffer will be automatically zero-filled by
51  * nvtruncbuf().
52  *
53  * This code is intended to (eventually) replace vtruncbuf() and
54  * vnode_pager_setsize().
55  */
56
57 #include <sys/param.h>
58 #include <sys/systm.h>
59 #include <sys/buf.h>
60 #include <sys/conf.h>
61 #include <sys/fcntl.h>
62 #include <sys/file.h>
63 #include <sys/kernel.h>
64 #include <sys/malloc.h>
65 #include <sys/mount.h>
66 #include <sys/proc.h>
67 #include <sys/socket.h>
68 #include <sys/stat.h>
69 #include <sys/sysctl.h>
70 #include <sys/unistd.h>
71 #include <sys/vmmeter.h>
72 #include <sys/vnode.h>
73
74 #include <machine/limits.h>
75
76 #include <vm/vm.h>
77 #include <vm/vm_object.h>
78 #include <vm/vm_extern.h>
79 #include <vm/vm_kern.h>
80 #include <vm/pmap.h>
81 #include <vm/vm_map.h>
82 #include <vm/vm_page.h>
83 #include <vm/vm_pager.h>
84 #include <vm/vnode_pager.h>
85 #include <vm/vm_zone.h>
86
87 #include <sys/buf2.h>
88 #include <sys/thread2.h>
89 #include <sys/sysref2.h>
90 #include <sys/mplock2.h>
91
92 static int nvtruncbuf_bp_trunc_cmp(struct buf *bp, void *data);
93 static int nvtruncbuf_bp_trunc(struct buf *bp, void *data);
94 static int nvtruncbuf_bp_metasync_cmp(struct buf *bp, void *data);
95 static int nvtruncbuf_bp_metasync(struct buf *bp, void *data);
96
97 /*
98  * Truncate a file's buffer and pages to a specified length. The
99  * byte-granular length of the file is specified along with the block
100  * size of the buffer containing that offset.
101  *
102  * If the last buffer straddles the length its contents will be zero-filled
103  * as appropriate.  All buffers and pages after the last buffer will be
104  * destroyed.  The last buffer itself will be destroyed only if the length
105  * is exactly aligned with it.
106  *
107  * UFS typically passes the old block size prior to the actual truncation,
108  * then later resizes the block based on the new file size.  NFS uses a
109  * fixed block size and doesn't care.  HAMMER uses a block size based on
110  * the offset which is fixed for any particular offset.
111  *
112  * When zero-filling we must bdwrite() to avoid a window of opportunity
113  * where the kernel might throw away a clean buffer and the filesystem
114  * then attempts to bread() it again before completing (or as part of)
115  * the extension.  The filesystem is still responsible for zero-filling
116  * any remainder when writing to the media in the strategy function when
117  * it is able to do so without the page being mapped.  The page may still
118  * be mapped by userland here.
119  *
120  * When modifying a buffer we must clear any cached raw disk offset.
121  * bdwrite() will call BMAP on it again.  Some filesystems, like HAMMER,
122  * never overwrite existing data blocks.
123  */
124 int
125 nvtruncbuf(struct vnode *vp, off_t length, int blksize, int boff)
126 {
127         off_t truncloffset;
128         off_t truncboffset;
129         const char *filename;
130         lwkt_tokref vlock;
131         struct buf *bp;
132         int count;
133         int error;
134
135         /*
136          * Round up to the *next* block, then destroy the buffers in question.
137          * Since we are only removing some of the buffers we must rely on the
138          * scan count to determine whether a loop is necessary.
139          *
140          * Destroy any pages beyond the last buffer.
141          */
142         if (boff < 0)
143                 boff = (int)(length % blksize);
144         if (boff)
145                 truncloffset = length + (blksize - boff);
146         else
147                 truncloffset = length;
148
149         lwkt_gettoken(&vlock, &vp->v_token);
150         do {
151                 count = RB_SCAN(buf_rb_tree, &vp->v_rbclean_tree,
152                                 nvtruncbuf_bp_trunc_cmp,
153                                 nvtruncbuf_bp_trunc, &truncloffset);
154                 count += RB_SCAN(buf_rb_tree, &vp->v_rbdirty_tree,
155                                 nvtruncbuf_bp_trunc_cmp,
156                                 nvtruncbuf_bp_trunc, &truncloffset);
157         } while(count);
158
159         nvnode_pager_setsize(vp, length, blksize, boff);
160
161         /*
162          * Zero-fill the area beyond the file EOF that still fits within
163          * the last buffer.  We must mark the buffer as dirty even though
164          * the modified area is beyond EOF to avoid races where the kernel
165          * might flush the buffer before the filesystem is able to reallocate
166          * the block.
167          *
168          * The VFS is responsible for dealing with the actual truncation.
169          */
170         if (boff) {
171                 truncboffset = length - boff;
172                 error = bread(vp, truncboffset, blksize, &bp);
173                 if (error == 0) {
174                         bzero(bp->b_data + boff, blksize - boff);
175                         if (bp->b_flags & B_DELWRI) {
176                                 if (bp->b_dirtyoff > boff)
177                                         bp->b_dirtyoff = boff;
178                                 if (bp->b_dirtyend > boff)
179                                         bp->b_dirtyend = boff;
180                         }
181                         bp->b_bio2.bio_offset = NOOFFSET;
182                         bdwrite(bp);
183                 }
184         } else {
185                 error = 0;
186         }
187
188         /*
189          * For safety, fsync any remaining metadata if the file is not being
190          * truncated to 0.  Since the metadata does not represent the entire
191          * dirty list we have to rely on the hit count to ensure that we get
192          * all of it.
193          *
194          * This is typically applicable only to UFS.  NFS and HAMMER do
195          * not store indirect blocks in the per-vnode buffer cache.
196          */
197         if (length > 0) {
198                 do {
199                         count = RB_SCAN(buf_rb_tree, &vp->v_rbdirty_tree,
200                                         nvtruncbuf_bp_metasync_cmp,
201                                         nvtruncbuf_bp_metasync, vp);
202                 } while (count);
203         }
204
205         /*
206          * It is possible to have in-progress I/O from buffers that were
207          * not part of the truncation.  This should not happen if we
208          * are truncating to 0-length.
209          */
210         bio_track_wait(&vp->v_track_write, 0, 0);
211
212         /*
213          * Debugging only
214          */
215         spin_lock_wr(&vp->v_spinlock);
216         filename = TAILQ_FIRST(&vp->v_namecache) ?
217                    TAILQ_FIRST(&vp->v_namecache)->nc_name : "?";
218         spin_unlock_wr(&vp->v_spinlock);
219
220         /*
221          * Make sure no buffers were instantiated while we were trying
222          * to clean out the remaining VM pages.  This could occur due
223          * to busy dirty VM pages being flushed out to disk.
224          */
225         do {
226                 count = RB_SCAN(buf_rb_tree, &vp->v_rbclean_tree,
227                                 nvtruncbuf_bp_trunc_cmp,
228                                 nvtruncbuf_bp_trunc, &truncloffset);
229                 count += RB_SCAN(buf_rb_tree, &vp->v_rbdirty_tree,
230                                 nvtruncbuf_bp_trunc_cmp,
231                                 nvtruncbuf_bp_trunc, &truncloffset);
232                 if (count) {
233                         kprintf("Warning: vtruncbuf():  Had to re-clean %d "
234                                "left over buffers in %s\n", count, filename);
235                 }
236         } while(count);
237
238         lwkt_reltoken(&vlock);
239
240         return (error);
241 }
242
243 /*
244  * The callback buffer is beyond the new file EOF and must be destroyed.
245  * Note that the compare function must conform to the RB_SCAN's requirements.
246  */
247 static
248 int
249 nvtruncbuf_bp_trunc_cmp(struct buf *bp, void *data)
250 {
251         if (bp->b_loffset >= *(off_t *)data)
252                 return(0);
253         return(-1);
254 }
255
256 static
257 int
258 nvtruncbuf_bp_trunc(struct buf *bp, void *data)
259 {
260         /*
261          * Do not try to use a buffer we cannot immediately lock, but sleep
262          * anyway to prevent a livelock.  The code will loop until all buffers
263          * can be acted upon.
264          */
265         if (BUF_LOCK(bp, LK_EXCLUSIVE | LK_NOWAIT)) {
266                 if (BUF_LOCK(bp, LK_EXCLUSIVE|LK_SLEEPFAIL) == 0)
267                         BUF_UNLOCK(bp);
268         } else {
269                 bremfree(bp);
270                 bp->b_flags |= (B_INVAL | B_RELBUF | B_NOCACHE);
271                 brelse(bp);
272         }
273         return(1);
274 }
275
276 /*
277  * Fsync all meta-data after truncating a file to be non-zero.  Only metadata
278  * blocks (with a negative loffset) are scanned.
279  * Note that the compare function must conform to the RB_SCAN's requirements.
280  */
281 static int
282 nvtruncbuf_bp_metasync_cmp(struct buf *bp, void *data)
283 {
284         if (bp->b_loffset < 0)
285                 return(0);
286         return(1);
287 }
288
289 static int
290 nvtruncbuf_bp_metasync(struct buf *bp, void *data)
291 {
292         struct vnode *vp = data;
293
294         if (bp->b_flags & B_DELWRI) {
295                 /*
296                  * Do not try to use a buffer we cannot immediately lock,
297                  * but sleep anyway to prevent a livelock.  The code will
298                  * loop until all buffers can be acted upon.
299                  */
300                 if (BUF_LOCK(bp, LK_EXCLUSIVE | LK_NOWAIT)) {
301                         if (BUF_LOCK(bp, LK_EXCLUSIVE|LK_SLEEPFAIL) == 0)
302                                 BUF_UNLOCK(bp);
303                 } else {
304                         bremfree(bp);
305                         if (bp->b_vp == vp)
306                                 bawrite(bp);
307                         else
308                                 bwrite(bp);
309                 }
310                 return(1);
311         } else {
312                 return(0);
313         }
314 }
315
316 /*
317  * Extend a file's buffer and pages to a new, larger size.  The block size
318  * at both the old and new length must be passed, but buffer cache operations
319  * will only be performed on the old block.  The new nlength/nblksize will
320  * be used to properly set the VM object size.
321  *
322  * To make this explicit we require the old length to passed even though
323  * we can acquire it from vp->v_filesize, which also avoids potential
324  * corruption if the filesystem and vp get desynchronized somehow.
325  *
326  * If the caller intends to immediately write into the newly extended
327  * space pass trivial == 1.  If trivial is 0 the original buffer will be
328  * zero-filled as necessary to clean out any junk in the extended space.
329  *
330  * When zero-filling we must bdwrite() to avoid a window of opportunity
331  * where the kernel might throw away a clean buffer and the filesystem
332  * then attempts to bread() it again before completing (or as part of)
333  * the extension.  The filesystem is still responsible for zero-filling
334  * any remainder when writing to the media in the strategy function when
335  * it is able to do so without the page being mapped.  The page may still
336  * be mapped by userland here.
337  *
338  * When modifying a buffer we must clear any cached raw disk offset.
339  * bdwrite() will call BMAP on it again.  Some filesystems, like HAMMER,
340  * never overwrite existing data blocks.
341  */
342 int
343 nvextendbuf(struct vnode *vp, off_t olength, off_t nlength,
344             int oblksize, int nblksize, int oboff, int nboff, int trivial)
345 {
346         off_t truncboffset;
347         struct buf *bp;
348         int error;
349
350         error = 0;
351         nvnode_pager_setsize(vp, nlength, nblksize, nboff);
352         if (trivial == 0) {
353                 if (oboff < 0)
354                         oboff = (int)(olength % oblksize);
355                 truncboffset = olength - oboff;
356
357                 if (oboff) {
358                         error = bread(vp, truncboffset, oblksize, &bp);
359                         if (error == 0) {
360                                 bzero(bp->b_data + oboff, oblksize - oboff);
361                                 bp->b_bio2.bio_offset = NOOFFSET;
362                                 bdwrite(bp);
363                         }
364                 }
365         }
366         return (error);
367 }
368
369 /*
370  * Set vp->v_filesize and vp->v_object->size, destroy pages beyond
371  * the last buffer when truncating.
372  *
373  * This function does not do any zeroing or invalidating of partially
374  * overlapping pages.  Zeroing is the responsibility of nvtruncbuf().
375  * However, it does unmap VM pages from the user address space on a
376  * page-granular (verses buffer cache granular) basis.
377  *
378  * If boff is passed as -1 the base offset of the buffer cache buffer is
379  * calculated from length and blksize.  Filesystems such as UFS which deal
380  * with fragments have to specify a boff >= 0 since the base offset cannot
381  * be calculated from length and blksize.
382  *
383  * For UFS blksize is the 'new' blocksize, used only to determine how large
384  * the VM object must become.
385  */
386 void
387 nvnode_pager_setsize(struct vnode *vp, off_t length, int blksize, int boff)
388 {
389         vm_pindex_t nobjsize;
390         vm_pindex_t oobjsize;
391         vm_pindex_t pi;
392         vm_object_t object;
393         vm_page_t m;
394         off_t truncboffset;
395
396         /*
397          * Degenerate conditions
398          */
399         if ((object = vp->v_object) == NULL)
400                 return;
401         if (length == vp->v_filesize)
402                 return;
403
404         /*
405          * Calculate the size of the VM object, coverage includes
406          * the buffer straddling EOF.  If EOF is buffer-aligned
407          * we don't bother.
408          *
409          * Buffers do not have to be page-aligned.  Make sure
410          * nobjsize is beyond the last page of the buffer.
411          */
412         if (boff < 0)
413                 boff = (int)(length % blksize);
414         truncboffset = length - boff;
415         oobjsize = object->size;
416         if (boff)
417                 nobjsize = OFF_TO_IDX(truncboffset + blksize + PAGE_MASK);
418         else
419                 nobjsize = OFF_TO_IDX(truncboffset + PAGE_MASK);
420         object->size = nobjsize;
421
422         if (length < vp->v_filesize) {
423                 /*
424                  * File has shrunk, toss any cached pages beyond
425                  * the end of the buffer (blksize aligned) for the
426                  * new EOF.
427                  */
428                 vp->v_filesize = length;
429                 if (nobjsize < oobjsize) {
430                         vm_object_page_remove(object, nobjsize, oobjsize,
431                                               FALSE);
432                 }
433
434                 /*
435                  * Unmap any pages (page aligned) beyond the new EOF.
436                  * The pages remain part of the (last) buffer and are not
437                  * invalidated.
438                  */
439                 pi = OFF_TO_IDX(length + PAGE_MASK);
440                 while (pi < nobjsize) {
441                         do {
442                                 m = vm_page_lookup(object, pi);
443                         } while (m && vm_page_sleep_busy(m, TRUE, "vsetsz"));
444                         if (m) {
445                                 vm_page_busy(m);
446                                 vm_page_protect(m, VM_PROT_NONE);
447                                 vm_page_wakeup(m);
448                         }
449                         ++pi;
450                 }
451         } else {
452                 /*
453                  * File has expanded.
454                  */
455                 vp->v_filesize = length;
456         }
457 }