HAMMER 56A/Many: Performance tuning - MEDIA STRUCTURES CHANGED!
[dragonfly.git] / sys / vfs / gnu / ext2fs / ext2_inode.c
1 /*
2  *  modified for Lites 1.1
3  *
4  *  Aug 1995, Godmar Back (gback@cs.utah.edu)
5  *  University of Utah, Department of Computer Science
6  */
7 /*
8  * Copyright (c) 1982, 1986, 1989, 1993
9  *      The Regents of the University of California.  All rights reserved.
10  *
11  * Redistribution and use in source and binary forms, with or without
12  * modification, are permitted provided that the following conditions
13  * are met:
14  * 1. Redistributions of source code must retain the above copyright
15  *    notice, this list of conditions and the following disclaimer.
16  * 2. Redistributions in binary form must reproduce the above copyright
17  *    notice, this list of conditions and the following disclaimer in the
18  *    documentation and/or other materials provided with the distribution.
19  * 3. All advertising materials mentioning features or use of this software
20  *    must display the following acknowledgement:
21  *      This product includes software developed by the University of
22  *      California, Berkeley and its contributors.
23  * 4. Neither the name of the University nor the names of its contributors
24  *    may be used to endorse or promote products derived from this software
25  *    without specific prior written permission.
26  *
27  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
28  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
29  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
30  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
31  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
32  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
33  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
34  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
35  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
36  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
37  * SUCH DAMAGE.
38  *
39  *      @(#)ext2_inode.c        8.5 (Berkeley) 12/30/93
40  * $FreeBSD: src/sys/gnu/ext2fs/ext2_inode.c,v 1.24.2.1 2000/08/03 00:52:57 peter Exp $
41  * $DragonFly: src/sys/vfs/gnu/ext2fs/ext2_inode.c,v 1.21 2007/05/06 19:23:33 dillon Exp $
42  */
43
44 #include "opt_quota.h"
45
46 #include <sys/param.h>
47 #include <sys/systm.h>
48 #include <sys/mount.h>
49 #include <sys/buf.h>
50 #include <sys/vnode.h>
51 #include <sys/malloc.h>
52
53 #include <vm/vm.h>
54 #include <vm/vm_extern.h>
55
56 #include "quota.h"
57 #include "inode.h"
58 #include "ext2mount.h"
59
60 #include "ext2_fs.h"
61 #include "ext2_fs_sb.h"
62 #include "fs.h"
63 #include "ext2_extern.h"
64
65 static int ext2_indirtrunc (struct inode *, daddr_t, off_t, daddr_t,
66                             int, long *);
67
68 /*
69  * Update the access, modified, and inode change times as specified by the
70  * IN_ACCESS, IN_UPDATE, and IN_CHANGE flags respectively.  Write the inode
71  * to disk if the IN_MODIFIED flag is set (it may be set initially, or by
72  * the timestamp update).  The IN_LAZYMOD flag is set to force a write
73  * later if not now.  If we write now, then clear both IN_MODIFIED and
74  * IN_LAZYMOD to reflect the presumably successful write, and if waitfor is
75  * set, then wait for the write to complete.
76  */
77 int
78 ext2_update(struct vnode *vp, int waitfor)
79 {
80         struct ext2_sb_info *fs;
81         struct buf *bp;
82         struct inode *ip;
83         int error;
84
85         ext2_itimes(vp);
86         ip = VTOI(vp);
87         if ((ip->i_flag & IN_MODIFIED) == 0)
88                 return (0);
89         ip->i_flag &= ~(IN_LAZYMOD | IN_MODIFIED);
90         if (vp->v_mount->mnt_flag & MNT_RDONLY)
91                 return (0);
92         fs = ip->i_e2fs;
93         error = bread(ip->i_devvp,
94                       fsbtodoff(fs, ino_to_fsba(fs, ip->i_number)),
95                       (int)fs->s_blocksize, &bp);
96         if (error) {
97                 brelse(bp);
98                 return (error);
99         }
100         ext2_di2ei( &ip->i_din, (struct ext2_inode *) ((char *)bp->b_data + EXT2_INODE_SIZE *
101             ino_to_fsbo(fs, ip->i_number)));
102 /*
103         if (waitfor && (vp->v_mount->mnt_flag & MNT_ASYNC) == 0)
104                 return (bwrite(bp));
105         else {
106 */
107                 bdwrite(bp);
108                 return (0);
109 /*
110         }
111 */
112 }
113
114 #define SINGLE  0       /* index of single indirect block */
115 #define DOUBLE  1       /* index of double indirect block */
116 #define TRIPLE  2       /* index of triple indirect block */
117 /*
118  * Truncate the inode oip to at most length size, freeing the
119  * disk blocks.
120  */
121 int
122 ext2_truncate(struct vnode *vp, off_t length, int flags, struct ucred *cred)
123 {
124         struct vnode *ovp = vp;
125         daddr_t lastblock;
126         struct inode *oip;
127         daddr_t bn, lbn, lastiblock[NIADDR], indir_lbn[NIADDR];
128         daddr_t oldblks[NDADDR + NIADDR], newblks[NDADDR + NIADDR];
129         struct ext2_sb_info *fs;
130         struct buf *bp;
131         int offset, size, level;
132         long count, nblocks, blocksreleased = 0;
133         int i;
134         int aflags, error, allerror;
135         off_t osize;
136 /*
137 kprintf("ext2_truncate called %d to %d\n", VTOI(ovp)->i_number, length);
138 */      /* 
139          * negative file sizes will totally break the code below and
140          * are not meaningful anyways.
141          */
142         if (length < 0)
143             return EFBIG;
144
145         oip = VTOI(ovp);
146         if (ovp->v_type == VLNK &&
147             oip->i_size < ovp->v_mount->mnt_maxsymlinklen) {
148 #if DIAGNOSTIC
149                 if (length != 0)
150                         panic("ext2_truncate: partial truncate of symlink");
151 #endif
152                 bzero((char *)&oip->i_shortlink, (u_int)oip->i_size);
153                 oip->i_size = 0;
154                 oip->i_flag |= IN_CHANGE | IN_UPDATE;
155                 return (EXT2_UPDATE(ovp, 1));
156         }
157         if (oip->i_size == length) {
158                 oip->i_flag |= IN_CHANGE | IN_UPDATE;
159                 return (EXT2_UPDATE(ovp, 0));
160         }
161 #if QUOTA
162         if ((error = ext2_getinoquota(oip)) != 0)
163                 return (error);
164 #endif
165         fs = oip->i_e2fs;
166         osize = oip->i_size;
167         ext2_discard_prealloc(oip);
168         /*
169          * Lengthen the size of the file. We must ensure that the
170          * last byte of the file is allocated. Since the smallest
171          * value of oszie is 0, length will be at least 1.
172          */
173         if (osize < length) {
174                 offset = blkoff(fs, length - 1);
175                 lbn = lblkno(fs, length - 1);
176                 aflags = B_CLRBUF;
177                 if (flags & IO_SYNC)
178                         aflags |= B_SYNC;
179                 vnode_pager_setsize(ovp, length);
180                 if ((error = ext2_balloc(oip, lbn, offset + 1, cred, &bp,
181                     aflags)) != 0)
182                         return (error);
183                 oip->i_size = length;
184                 if (aflags & IO_SYNC)
185                         bwrite(bp);
186                 else
187                         bawrite(bp);
188                 oip->i_flag |= IN_CHANGE | IN_UPDATE;
189                 return (EXT2_UPDATE(ovp, 1));
190         }
191         /*
192          * Shorten the size of the file. If the file is not being
193          * truncated to a block boundry, the contents of the
194          * partial block following the end of the file must be
195          * zero'ed in case it ever become accessable again because
196          * of subsequent file growth.
197          */
198         /* I don't understand the comment above */
199         offset = blkoff(fs, length);
200         if (offset == 0) {
201                 oip->i_size = length;
202         } else {
203                 lbn = lblkno(fs, length);
204                 aflags = B_CLRBUF;
205                 if (flags & IO_SYNC)
206                         aflags |= B_SYNC;
207                 if ((error = ext2_balloc(oip, lbn, offset, cred, &bp,
208                     aflags)) != 0)
209                         return (error);
210                 oip->i_size = length;
211                 size = blksize(fs, oip, lbn);
212                 bzero((char *)bp->b_data + offset, (u_int)(size - offset));
213                 allocbuf(bp, size);
214                 if (aflags & IO_SYNC)
215                         bwrite(bp);
216                 else
217                         bawrite(bp);
218         }
219         /*
220          * Calculate index into inode's block list of
221          * last direct and indirect blocks (if any)
222          * which we want to keep.  Lastblock is -1 when
223          * the file is truncated to 0.
224          */
225         lastblock = lblkno(fs, length + fs->s_blocksize - 1) - 1;
226         lastiblock[SINGLE] = lastblock - NDADDR;
227         lastiblock[DOUBLE] = lastiblock[SINGLE] - NINDIR(fs);
228         lastiblock[TRIPLE] = lastiblock[DOUBLE] - NINDIR(fs) * NINDIR(fs);
229         nblocks = btodb(fs->s_blocksize);
230         /*
231          * Update file and block pointers on disk before we start freeing
232          * blocks.  If we crash before free'ing blocks below, the blocks
233          * will be returned to the free list.  lastiblock values are also
234          * normalized to -1 for calls to ext2_indirtrunc below.
235          */
236         bcopy((caddr_t)&oip->i_db[0], (caddr_t)oldblks, sizeof oldblks);
237         for (level = TRIPLE; level >= SINGLE; level--)
238                 if (lastiblock[level] < 0) {
239                         oip->i_ib[level] = 0;
240                         lastiblock[level] = -1;
241                 }
242         for (i = NDADDR - 1; i > lastblock; i--)
243                 oip->i_db[i] = 0;
244         oip->i_flag |= IN_CHANGE | IN_UPDATE;
245         allerror = EXT2_UPDATE(ovp, 1);
246
247         /*
248          * Having written the new inode to disk, save its new configuration
249          * and put back the old block pointers long enough to process them.
250          * Note that we save the new block configuration so we can check it
251          * when we are done.
252          */
253         bcopy((caddr_t)&oip->i_db[0], (caddr_t)newblks, sizeof newblks);
254         bcopy((caddr_t)oldblks, (caddr_t)&oip->i_db[0], sizeof oldblks);
255         oip->i_size = osize;
256         error = vtruncbuf(ovp, length, (int)fs->s_blocksize);
257         if (error && (allerror == 0))
258                 allerror = error;
259
260         /*
261          * Indirect blocks first.
262          */
263         indir_lbn[SINGLE] = -NDADDR;
264         indir_lbn[DOUBLE] = indir_lbn[SINGLE] - NINDIR(fs) - 1;
265         indir_lbn[TRIPLE] = indir_lbn[DOUBLE] - NINDIR(fs) * NINDIR(fs) - 1;
266         for (level = TRIPLE; level >= SINGLE; level--) {
267                 bn = oip->i_ib[level];
268                 if (bn != 0) {
269                         error = ext2_indirtrunc(oip, indir_lbn[level],
270                             fsbtodoff(fs, bn), lastiblock[level], level, &count);
271                         if (error)
272                                 allerror = error;
273                         blocksreleased += count;
274                         if (lastiblock[level] < 0) {
275                                 oip->i_ib[level] = 0;
276                                 ext2_blkfree(oip, bn, fs->s_frag_size);
277                                 blocksreleased += nblocks;
278                         }
279                 }
280                 if (lastiblock[level] >= 0)
281                         goto done;
282         }
283
284         /*
285          * All whole direct blocks or frags.
286          */
287         for (i = NDADDR - 1; i > lastblock; i--) {
288                 long bsize;
289
290                 bn = oip->i_db[i];
291                 if (bn == 0)
292                         continue;
293                 oip->i_db[i] = 0;
294                 bsize = blksize(fs, oip, i);
295                 ext2_blkfree(oip, bn, bsize);
296                 blocksreleased += btodb(bsize);
297         }
298         if (lastblock < 0)
299                 goto done;
300
301         /*
302          * Finally, look for a change in size of the
303          * last direct block; release any frags.
304          */
305         bn = oip->i_db[lastblock];
306         if (bn != 0) {
307                 long oldspace, newspace;
308
309                 /*
310                  * Calculate amount of space we're giving
311                  * back as old block size minus new block size.
312                  */
313                 oldspace = blksize(fs, oip, lastblock);
314                 oip->i_size = length;
315                 newspace = blksize(fs, oip, lastblock);
316                 if (newspace == 0)
317                         panic("itrunc: newspace");
318                 if (oldspace - newspace > 0) {
319                         /*
320                          * Block number of space to be free'd is
321                          * the old block # plus the number of frags
322                          * required for the storage we're keeping.
323                          */
324                         bn += numfrags(fs, newspace);
325                         ext2_blkfree(oip, bn, oldspace - newspace);
326                         blocksreleased += btodb(oldspace - newspace);
327                 }
328         }
329 done:
330 #if DIAGNOSTIC
331         for (level = SINGLE; level <= TRIPLE; level++)
332                 if (newblks[NDADDR + level] != oip->i_ib[level])
333                         panic("itrunc1");
334         for (i = 0; i < NDADDR; i++)
335                 if (newblks[i] != oip->i_db[i])
336                         panic("itrunc2");
337         if (length == 0 && (!RB_EMPTY(&ovp->v_rbdirty_tree) ||
338                             !RB_EMPTY(&ovp->v_rbclean_tree)))
339                 panic("itrunc3");
340 #endif /* DIAGNOSTIC */
341         /*
342          * Put back the real size.
343          */
344         oip->i_size = length;
345         oip->i_blocks -= blocksreleased;
346         if (oip->i_blocks < 0)                  /* sanity */
347                 oip->i_blocks = 0;
348         oip->i_flag |= IN_CHANGE;
349         vnode_pager_setsize(ovp, length);
350 #if QUOTA
351         ext2_chkdq(oip, -blocksreleased, NOCRED, 0);
352 #endif
353         return (allerror);
354 }
355
356 /*
357  * Release blocks associated with the inode ip and stored in the indirect
358  * block bn.  Blocks are free'd in LIFO order up to (but not including)
359  * lastbn.  If level is greater than SINGLE, the block is an indirect block
360  * and recursive calls to indirtrunc must be used to cleanse other indirect
361  * blocks.
362  *
363  * NB: triple indirect blocks are untested.
364  */
365
366 static int
367 ext2_indirtrunc(struct inode *ip, daddr_t lbn, off_t doffset, daddr_t lastbn,
368                 int level, long *countp)
369 {
370         int i;
371         struct buf *bp;
372         struct ext2_sb_info *fs = ip->i_e2fs;
373         daddr_t *bap;
374         struct vnode *vp;
375         daddr_t *copy, nb, nlbn, last;
376         long blkcount, factor;
377         int nblocks, blocksreleased = 0;
378         int error = 0, allerror = 0;
379
380         /*
381          * Calculate index in current block of last
382          * block to be kept.  -1 indicates the entire
383          * block so we need not calculate the index.
384          */
385         factor = 1;
386         for (i = SINGLE; i < level; i++)
387                 factor *= NINDIR(fs);
388         last = lastbn;
389         if (lastbn > 0)
390                 last /= factor;
391         nblocks = btodb(fs->s_blocksize);
392         /*
393          * Get buffer of block pointers, zero those entries corresponding
394          * to blocks to be free'd, and update on disk copy first.  Since
395          * double(triple) indirect before single(double) indirect, calls
396          * to bmap on these blocks will fail.  However, we already have
397          * the on disk address, so we have to set the bio_offset field
398          * explicitly instead of letting bread do everything for us.
399          */
400         vp = ITOV(ip);
401         bp = getblk(vp, lblktodoff(fs, lbn), (int)fs->s_blocksize, 0, 0);
402         if ((bp->b_flags & B_CACHE) == 0) {
403                 bp->b_flags &= ~(B_ERROR | B_INVAL);
404                 bp->b_cmd = BUF_CMD_READ;
405                 if (bp->b_bcount > bp->b_bufsize)
406                         panic("ext2_indirtrunc: bad buffer size");
407                 bp->b_bio2.bio_offset = doffset;
408                 vfs_busy_pages(bp->b_vp, bp);
409                 vn_strategy(vp, &bp->b_bio1);
410                 error = biowait(bp);
411         }
412         if (error) {
413                 brelse(bp);
414                 *countp = 0;
415                 return (error);
416         }
417
418         bap = (daddr_t *)bp->b_data;
419         MALLOC(copy, daddr_t *, fs->s_blocksize, M_TEMP, M_WAITOK);
420         bcopy((caddr_t)bap, (caddr_t)copy, (u_int)fs->s_blocksize);
421         bzero((caddr_t)&bap[last + 1],
422           (u_int)(NINDIR(fs) - (last + 1)) * sizeof (daddr_t));
423         if (last == -1)
424                 bp->b_flags |= B_INVAL;
425         error = bwrite(bp);
426         if (error)
427                 allerror = error;
428         bap = copy;
429
430         /*
431          * Recursively free totally unused blocks.
432          */
433         for (i = NINDIR(fs) - 1, nlbn = lbn + 1 - i * factor; i > last;
434             i--, nlbn += factor) {
435                 nb = bap[i];
436                 if (nb == 0)
437                         continue;
438                 if (level > SINGLE) {
439                         if ((error = ext2_indirtrunc(ip, nlbn,
440                             fsbtodoff(fs, nb), (daddr_t)-1, level - 1, &blkcount)) != 0)
441                                 allerror = error;
442                         blocksreleased += blkcount;
443                 }
444                 ext2_blkfree(ip, nb, fs->s_blocksize);
445                 blocksreleased += nblocks;
446         }
447
448         /*
449          * Recursively free last partial block.
450          */
451         if (level > SINGLE && lastbn >= 0) {
452                 last = lastbn % factor;
453                 nb = bap[i];
454                 if (nb != 0) {
455                         error = ext2_indirtrunc(ip, nlbn, fsbtodoff(fs, nb),
456                                                 last, level - 1, &blkcount);
457                         if (error)
458                                 allerror = error;
459                         blocksreleased += blkcount;
460                 }
461         }
462         FREE(copy, M_TEMP);
463         *countp = blocksreleased;
464         return (allerror);
465 }
466
467 /*
468  * Last reference to an inode.  If necessary, write or delete it.
469  *
470  * ext2_inactive(struct vnode *a_vp)
471  */
472 int
473 ext2_inactive(struct vop_inactive_args *ap)
474 {
475         struct vnode *vp = ap->a_vp;
476         struct inode *ip = VTOI(vp);
477         int mode, error = 0;
478
479         ext2_discard_prealloc(ip);
480         if (prtactive && vp->v_sysref.refcnt > 1)
481                 vprint("ext2_inactive: pushing active", vp);
482
483         /*
484          * Ignore inodes related to stale file handles.
485          */
486         if (ip == NULL || ip->i_mode == 0)
487                 goto out;
488         if (ip->i_nlink <= 0 && (vp->v_mount->mnt_flag & MNT_RDONLY) == 0) {
489 #ifdef QUOTA
490                 if (!ext2_getinoquota(ip))
491                         (void)ext2_chkiq(ip, -1, NOCRED, FORCE);
492 #endif
493                 error = EXT2_TRUNCATE(vp, (off_t)0, 0, NOCRED);
494                 ip->i_rdev = 0;
495                 mode = ip->i_mode;
496                 ip->i_mode = 0;
497                 ip->i_flag |= IN_CHANGE | IN_UPDATE;
498                 EXT2_VFREE(vp, ip->i_number, mode);
499         }
500         if (ip->i_flag & (IN_ACCESS | IN_CHANGE | IN_MODIFIED | IN_UPDATE))
501                 EXT2_UPDATE(vp, 0);
502 out:
503         /*
504          * If we are done with the inode, reclaim it
505          * so that it can be reused immediately.
506          */
507         if (ip == NULL || ip->i_mode == 0)
508                 vrecycle(vp);
509         return (error);
510 }
511
512 /*
513  * Reclaim an inode so that it can be used for other purposes.
514  *
515  * ext2_reclaim(struct vnode *a_vp)
516  */
517 int
518 ext2_reclaim(struct vop_reclaim_args *ap)
519 {
520         struct inode *ip;
521         struct vnode *vp = ap->a_vp;
522 #ifdef QUOTA
523         int i;
524 #endif
525
526         if (prtactive && vp->v_sysref.refcnt > 1)
527                 vprint("ext2_reclaim: pushing active", vp);
528         ip = VTOI(vp);
529
530         /*
531          * Lazy updates.
532          */
533         if (ip) {
534                 if (ip->i_flag & IN_LAZYMOD) {
535                         ip->i_flag |= IN_MODIFIED;
536                         EXT2_UPDATE(vp, 0);
537                 }
538         }
539 #ifdef INVARIANTS
540         if (ip && (ip->i_flag & (IN_ACCESS | IN_CHANGE | IN_MODIFIED | IN_UPDATE))) {
541                 kprintf("WARNING: INODE %ld flags %08x: modified inode being released!\n", (long)ip->i_number, (int)ip->i_flag);
542                 ip->i_flag |= IN_MODIFIED;
543                 EXT2_UPDATE(vp, 0);
544         }
545 #endif
546         /*
547          * Remove the inode from its hash chain and purge namecache
548          * data associated with the vnode.
549          */
550         vp->v_data = NULL;
551         if (ip) {
552                 ext2_ihashrem(ip);
553                 if (ip->i_devvp) {
554                         vrele(ip->i_devvp);
555                         ip->i_devvp = 0;
556                 }
557 #ifdef QUOTA
558                 for (i = 0; i < MAXQUOTAS; i++) {
559                         if (ip->i_dquot[i] != NODQUOT) {
560                                 ext2_dqrele(vp, ip->i_dquot[i]);
561                                 ip->i_dquot[i] = NODQUOT;
562                         }
563                 }
564 #endif
565 #ifdef UFS_DIRHASH
566                 if (ip->i_dirhash != NULL)
567                         ext2dirhash_free(ip);
568 #endif
569                 kfree(ip, VFSTOEXT2(vp->v_mount)->um_malloctype);
570         }
571         return (0);
572 }