HAMMER 7/many - deletions, overwrites, B-Tree work.
[dragonfly.git] / sys / vfs / hammer / hammer_inode.c
1 /*
2  * Copyright (c) 2007 The DragonFly Project.  All rights reserved.
3  * 
4  * This code is derived from software contributed to The DragonFly Project
5  * by Matthew Dillon <dillon@backplane.com>
6  * 
7  * Redistribution and use in source and binary forms, with or without
8  * modification, are permitted provided that the following conditions
9  * are met:
10  * 
11  * 1. Redistributions of source code must retain the above copyright
12  *    notice, this list of conditions and the following disclaimer.
13  * 2. Redistributions in binary form must reproduce the above copyright
14  *    notice, this list of conditions and the following disclaimer in
15  *    the documentation and/or other materials provided with the
16  *    distribution.
17  * 3. Neither the name of The DragonFly Project nor the names of its
18  *    contributors may be used to endorse or promote products derived
19  *    from this software without specific, prior written permission.
20  * 
21  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
22  * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
23  * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
24  * FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE
25  * COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
26  * INCIDENTAL, SPECIAL, EXEMPLARY OR CONSEQUENTIAL DAMAGES (INCLUDING,
27  * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
28  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
29  * AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
30  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
31  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
32  * SUCH DAMAGE.
33  * 
34  * $DragonFly: src/sys/vfs/hammer/hammer_inode.c,v 1.8 2007/11/26 21:38:37 dillon Exp $
35  */
36
37 #include "hammer.h"
38 #include <sys/buf.h>
39 #include <sys/buf2.h>
40
41 int
42 hammer_vop_inactive(struct vop_inactive_args *ap)
43 {
44         struct hammer_inode *ip = VTOI(ap->a_vp);
45
46         /*
47          * Degenerate case
48          */
49         if (ip == NULL) {
50                 vrecycle(ap->a_vp);
51                 return(0);
52         }
53
54         /*
55          * If the inode no longer has any references we recover its
56          * in-memory resources immediately.
57          */
58         if (ip->ino_rec.ino_nlinks == 0 &&
59             (ip->hmp->mp->mnt_flag & MNT_RDONLY) == 0) {
60                 hammer_sync_inode(ip, MNT_NOWAIT, 1);
61         }
62         return(0);
63 }
64
65 int
66 hammer_vop_reclaim(struct vop_reclaim_args *ap)
67 {
68         struct hammer_inode *ip;
69         struct vnode *vp;
70
71         vp = ap->a_vp;
72
73         /*
74          * Release the vnode association and ask that the inode be flushed.
75          */
76         if ((ip = vp->v_data) != NULL) {
77                 vp->v_data = NULL;
78                 ip->vp = NULL;
79                 hammer_rel_inode(ip, 1);
80         }
81         return(0);
82 }
83
84 /*
85  * Obtain a vnode for the specified inode number.  An exclusively locked
86  * vnode is returned.
87  */
88 int
89 hammer_vfs_vget(struct mount *mp, ino_t ino, struct vnode **vpp)
90 {
91         struct hammer_mount *hmp = (void *)mp->mnt_data;
92         struct hammer_inode *ip;
93         int error;
94
95         /*
96          * Get/allocate the hammer_inode structure.  The structure must be
97          * unlocked while we manipulate the related vnode to avoid a
98          * deadlock.
99          */
100         ip = hammer_get_inode(hmp, ino, &error);
101         if (ip == NULL) {
102                 *vpp = NULL;
103                 return(error);
104         }
105         error = hammer_get_vnode(ip, LK_EXCLUSIVE, vpp);
106         hammer_rel_inode(ip, 0);
107         return (error);
108 }
109
110 /*
111  * Return a locked vnode for the specified inode.  The inode must be
112  * referenced but NOT LOCKED on entry and will remain referenced on
113  * return.
114  */
115 int
116 hammer_get_vnode(struct hammer_inode *ip, int lktype, struct vnode **vpp)
117 {
118         struct vnode *vp;
119         int error = 0;
120
121         for (;;) {
122                 if ((vp = ip->vp) == NULL) {
123                         error = getnewvnode(VT_HAMMER, ip->hmp->mp, vpp, 0, 0);
124                         if (error)
125                                 break;
126                         hammer_lock_ex(&ip->lock);
127                         if (ip->vp != NULL) {
128                                 hammer_unlock(&ip->lock);
129                                 vp->v_type = VBAD;
130                                 vx_put(vp);
131                                 continue;
132                         }
133                         hammer_ref(&ip->lock);
134                         vp = *vpp;
135                         ip->vp = vp;
136                         vp->v_type = hammer_get_vnode_type(
137                                             ip->ino_rec.base.base.obj_type);
138                         vp->v_data = (void *)ip;
139                         /* vnode locked by getnewvnode() */
140                         /* make related vnode dirty if inode dirty? */
141                         hammer_unlock(&ip->lock);
142                         if (vp->v_type == VREG)
143                                 vinitvmio(vp, ip->ino_rec.ino_size);
144                         break;
145                 }
146
147                 /*
148                  * loop if the vget fails (aka races), or if the vp
149                  * no longer matches ip->vp.
150                  */
151                 if (vget(vp, LK_EXCLUSIVE) == 0) {
152                         if (vp == ip->vp)
153                                 break;
154                         vput(vp);
155                 }
156         }
157         *vpp = vp;
158         return(error);
159 }
160
161 /*
162  * Acquire a HAMMER inode.  The returned inode is not locked.  These functions
163  * do not attach or detach the related vnode (use hammer_get_vnode() for
164  * that).
165  */
166 struct hammer_inode *
167 hammer_get_inode(struct hammer_mount *hmp, u_int64_t obj_id, int *errorp)
168 {
169         struct hammer_inode_info iinfo;
170         struct hammer_cursor cursor;
171         struct hammer_inode *ip;
172
173         /*
174          * Determine if we already have an inode cached.  If we do then
175          * we are golden.
176          */
177         iinfo.obj_id = obj_id;
178         iinfo.obj_asof = HAMMER_MAX_TID;        /* XXX */
179 loop:
180         ip = hammer_ino_rb_tree_RB_LOOKUP_INFO(&hmp->rb_inos_root, &iinfo);
181         if (ip) {
182                 hammer_ref(&ip->lock);
183                 *errorp = 0;
184                 return(ip);
185         }
186
187         ip = kmalloc(sizeof(*ip), M_HAMMER, M_WAITOK|M_ZERO);
188         ip->obj_id = obj_id;
189         ip->obj_asof = iinfo.obj_asof;
190         ip->hmp = hmp;
191         RB_INIT(&ip->rec_tree);
192
193         /*
194          * Locate the on-disk inode.
195          * If we do not have an inode cached search the HAMMER on-disk B-Tree
196          * for it.
197          */
198
199         hammer_init_cursor_hmp(&cursor, hmp);
200         cursor.key_beg.obj_id = ip->obj_id;
201         cursor.key_beg.key = 0;
202         cursor.key_beg.create_tid = iinfo.obj_asof;
203         cursor.key_beg.delete_tid = 0;
204         cursor.key_beg.rec_type = HAMMER_RECTYPE_INODE;
205         cursor.key_beg.obj_type = 0;
206         cursor.flags = HAMMER_CURSOR_GET_RECORD | HAMMER_CURSOR_GET_DATA;
207
208         *errorp = hammer_btree_lookup(&cursor);
209
210         /*
211          * On success the B-Tree lookup will hold the appropriate
212          * buffer cache buffers and provide a pointer to the requested
213          * information.  Copy the information to the in-memory inode.
214          */
215         if (*errorp == 0) {
216                 ip->ino_rec = cursor.record->inode;
217                 ip->ino_data = cursor.data->inode;
218         }
219         hammer_cache_node(cursor.node, &ip->cache);
220         hammer_done_cursor(&cursor);
221
222         /*
223          * On success load the inode's record and data and insert the
224          * inode into the B-Tree.  It is possible to race another lookup
225          * insertion of the same inode so deal with that condition too.
226          */
227         if (*errorp == 0) {
228                 hammer_ref(&ip->lock);
229                 if (RB_INSERT(hammer_ino_rb_tree, &hmp->rb_inos_root, ip)) {
230                         hammer_uncache_node(&ip->cache);
231                         hammer_unref(&ip->lock);
232                         kfree(ip, M_HAMMER);
233                         goto loop;
234                 }
235                 ip->flags |= HAMMER_INODE_ONDISK;
236         } else {
237                 kfree(ip, M_HAMMER);
238                 ip = NULL;
239         }
240         return (ip);
241 }
242
243 /*
244  * Create a new filesystem object, returning the inode in *ipp.  The
245  * returned inode will be referenced but not locked.
246  *
247  * The inode is created in-memory and will be delay-synchronized to the
248  * disk.
249  */
250 int
251 hammer_create_inode(hammer_transaction_t trans, struct vattr *vap,
252                     struct ucred *cred, hammer_inode_t dip,
253                     struct hammer_inode **ipp)
254 {
255         hammer_mount_t hmp;
256         hammer_inode_t ip;
257         uid_t xuid;
258
259         hmp = trans->hmp;
260         ip = kmalloc(sizeof(*ip), M_HAMMER, M_WAITOK|M_ZERO);
261         ip->obj_id = hammer_alloc_tid(trans);
262         KKASSERT(ip->obj_id != 0);
263         ip->obj_asof = HAMMER_MAX_TID;  /* XXX */
264         ip->hmp = hmp;
265         ip->flags = HAMMER_INODE_DDIRTY | HAMMER_INODE_RDIRTY |
266                     HAMMER_INODE_ITIMES;
267         ip->last_tid = trans->tid;
268
269         RB_INIT(&ip->rec_tree);
270
271         ip->ino_rec.ino_atime = trans->tid;
272         ip->ino_rec.ino_mtime = trans->tid;
273         ip->ino_rec.ino_size = 0;
274         ip->ino_rec.ino_nlinks = 0;
275         /* XXX */
276         kprintf("rootvol %p ondisk %p\n", hmp->rootvol, hmp->rootvol->ondisk);
277         ip->ino_rec.base.rec_id = hammer_alloc_recid(trans);
278         KKASSERT(ip->ino_rec.base.rec_id != 0);
279         ip->ino_rec.base.base.obj_id = ip->obj_id;
280         ip->ino_rec.base.base.key = 0;
281         ip->ino_rec.base.base.create_tid = trans->tid;
282         ip->ino_rec.base.base.delete_tid = 0;
283         ip->ino_rec.base.base.rec_type = HAMMER_RECTYPE_INODE;
284         ip->ino_rec.base.base.obj_type = hammer_get_obj_type(vap->va_type);
285
286         ip->ino_data.version = HAMMER_INODE_DATA_VERSION;
287         ip->ino_data.mode = vap->va_mode;
288         ip->ino_data.ctime = trans->tid;
289         ip->ino_data.parent_obj_id = (dip) ? dip->ino_rec.base.base.obj_id : 0;
290
291         /*
292          * Calculate default uid/gid and overwrite with information from
293          * the vap.
294          */
295         xuid = hammer_to_unix_xid(&dip->ino_data.uid);
296         ip->ino_data.gid = dip->ino_data.gid;
297         xuid = vop_helper_create_uid(hmp->mp, dip->ino_data.mode, xuid, cred,
298                                      &vap->va_mode);
299         ip->ino_data.mode = vap->va_mode;
300
301         if (vap->va_vaflags & VA_UID_UUID_VALID)
302                 ip->ino_data.uid = vap->va_uid_uuid;
303         else if (vap->va_uid != (uid_t)VNOVAL)
304                 hammer_guid_to_uuid(&ip->ino_data.uid, xuid);
305         if (vap->va_vaflags & VA_GID_UUID_VALID)
306                 ip->ino_data.gid = vap->va_gid_uuid;
307         else if (vap->va_gid != (gid_t)VNOVAL)
308                 hammer_guid_to_uuid(&ip->ino_data.gid, vap->va_gid);
309
310         hammer_ref(&ip->lock);
311         if (RB_INSERT(hammer_ino_rb_tree, &hmp->rb_inos_root, ip)) {
312                 hammer_unref(&ip->lock);
313                 panic("hammer_create_inode: duplicate obj_id %llx", ip->obj_id);
314         }
315         *ipp = ip;
316         return(0);
317 }
318
319 int
320 hammer_update_inode(hammer_transaction_t trans, hammer_inode_t ip)
321 {
322         struct hammer_cursor cursor;
323         hammer_record_t record;
324         int error;
325
326         /*
327          * Locate the record on-disk and mark it as deleted.  Both the B-Tree
328          * node and the record must be marked deleted.  Adjusting delete_tid
329          * does not effect the element position in the B-Tree.
330          *
331          * If the inode is already deleted on-disk we have nothing to do.
332          *
333          * XXX Update the inode record and data in-place if the retention
334          * policy allows it.
335          */
336         error = 0;
337
338         if ((ip->flags & (HAMMER_INODE_ONDISK|HAMMER_INODE_DELONDISK)) ==
339             HAMMER_INODE_ONDISK) {
340                 hammer_init_cursor_ip(&cursor, ip);
341                 cursor.key_beg.obj_id = ip->obj_id;
342                 cursor.key_beg.key = 0;
343                 cursor.key_beg.create_tid = ip->obj_asof;
344                 cursor.key_beg.delete_tid = 0;
345                 cursor.key_beg.rec_type = HAMMER_RECTYPE_INODE;
346                 cursor.key_beg.obj_type = 0;
347                 cursor.flags = HAMMER_CURSOR_GET_RECORD;
348
349                 error = hammer_btree_lookup(&cursor);
350
351                 if (error == 0) {
352                         cursor.record->base.base.delete_tid = trans->tid;
353                         cursor.node->ondisk->elms[cursor.index].leaf.base.delete_tid = trans->tid;
354                         hammer_modify_buffer(cursor.record_buffer);
355                         hammer_modify_node(cursor.node);
356                         ip->flags |= HAMMER_INODE_DELONDISK;
357                 }
358                 hammer_cache_node(cursor.node, &ip->cache);
359                 hammer_done_cursor(&cursor);
360         }
361
362         /*
363          * Write out a new record if the in-memory inode is not marked
364          * as having been deleted.
365          *
366          * If the inode has been deleted permanently, HAMMER_INODE_DELONDISK
367          * will remain set and prevent further updates.
368          */
369         if (error == 0 && (ip->flags & HAMMER_INODE_DELETED) == 0) { 
370                 record = hammer_alloc_mem_record(trans, ip);
371                 record->rec.inode = ip->ino_rec;
372                 record->rec.inode.base.base.create_tid = trans->tid;
373                 record->rec.inode.base.data_len = sizeof(ip->ino_data);
374                 record->data = (void *)&ip->ino_data;
375                 error = hammer_ip_sync_record(record);
376                 hammer_free_mem_record(record);
377                 ip->flags &= ~(HAMMER_INODE_RDIRTY|HAMMER_INODE_DDIRTY|
378                                HAMMER_INODE_DELONDISK);
379                 ip->flags |= HAMMER_INODE_ONDISK;
380         }
381         return(error);
382 }
383
384 /*
385  * Release a reference on an inode and unload it if told to flush.
386  */
387 void
388 hammer_rel_inode(struct hammer_inode *ip, int flush)
389 {
390         hammer_unref(&ip->lock);
391         if (flush || ip->ino_rec.ino_nlinks == 0)
392                 ip->flags |= HAMMER_INODE_FLUSH;
393         if (ip->lock.refs == 0 && (ip->flags & HAMMER_INODE_FLUSH))
394                 hammer_unload_inode(ip, NULL);
395 }
396
397 /*
398  * Unload and destroy the specified inode.
399  *
400  * (called via RB_SCAN)
401  */
402 int
403 hammer_unload_inode(struct hammer_inode *ip, void *data __unused)
404 {
405         int error;
406
407         KASSERT(ip->lock.refs == 0,
408                 ("hammer_unload_inode: %d refs\n", ip->lock.refs));
409         KKASSERT(ip->vp == NULL);
410         hammer_ref(&ip->lock);
411
412         error = hammer_sync_inode(ip, MNT_WAIT, 1);
413         if (error)
414                 kprintf("hammer_sync_inode failed error %d\n", error);
415
416         RB_REMOVE(hammer_ino_rb_tree, &ip->hmp->rb_inos_root, ip);
417
418         hammer_uncache_node(&ip->cache);
419         kfree(ip, M_HAMMER);
420         return(0);
421 }
422
423 /*
424  * A transaction has modified an inode, requiring a new record and possibly
425  * also data to be written out.
426  */
427 void
428 hammer_modify_inode(struct hammer_transaction *trans,
429                     struct hammer_inode *ip, int flags)
430 {
431         ip->flags |= flags;
432         if (flags & HAMMER_INODE_TID)
433                 ip->last_tid = trans->tid;
434 }
435
436 /*
437  * Sync any dirty buffers and records associated with an inode.  The
438  * inode's last_tid field is used as the transaction id for the sync,
439  * overriding any intermediate TIDs that were used for records.  Note
440  * that the dirty buffer cache buffers do not have any knowledge of
441  * the transaction id they were modified under.
442  */
443 static int
444 hammer_sync_inode_callback(hammer_record_t rec, void *data __unused)
445 {
446         int error;
447
448         error = 0;
449         if ((rec->flags & HAMMER_RECF_DELETED) == 0)
450                 error = hammer_ip_sync_record(rec);
451
452         if (error) {
453                 kprintf("hammer_sync_inode_callback: sync failed rec %p\n",
454                         rec);
455                 return(-1);
456         }
457         hammer_free_mem_record(rec);
458         return(0);
459 }
460
461 /*
462  * XXX error handling
463  */
464 int
465 hammer_sync_inode(hammer_inode_t ip, int waitfor, int handle_delete)
466 {
467         struct hammer_transaction trans;
468         int error;
469         int r;
470
471         hammer_lock_ex(&ip->lock);
472         hammer_start_transaction(&trans, ip->hmp);
473
474         /*
475          * If the inode has been deleted (nlinks == 0), and the OS no longer
476          * has any references to it (handle_delete != 0), clean up in-memory
477          * data.
478          *
479          * NOTE: We do not set the RDIRTY flag when updating the delete_tid,
480          * setting HAMMER_INODE_DELETED takes care of it.
481          */
482         if (ip->ino_rec.ino_nlinks == 0 && handle_delete) {
483                 if (ip->vp)
484                         vtruncbuf(ip->vp, 0, HAMMER_BUFSIZE);
485                 error = hammer_ip_delete_range(&trans, ip,
486                                                HAMMER_MIN_KEY, HAMMER_MAX_KEY);
487                 KKASSERT(RB_EMPTY(&ip->rec_tree));
488                 ip->ino_rec.base.base.delete_tid = trans.tid;
489                 hammer_modify_inode(&trans, ip,
490                                     HAMMER_INODE_DELETED | HAMMER_INODE_TID);
491         }
492
493         /*
494          * Sync the buffer cache
495          */
496         if (ip->vp != NULL)
497                 error = vfsync(ip->vp, waitfor, 1, NULL, NULL);
498         else
499                 error = 0;
500
501         /*
502          * Now sync related records
503          */
504         if (error == 0) {
505                 r = RB_SCAN(hammer_rec_rb_tree, &ip->rec_tree, NULL,
506                             hammer_sync_inode_callback, NULL);
507                 if (r < 0)
508                         error = EIO;
509         }
510
511         /*
512          * Now update the inode's on-disk inode-data and/or on-disk record.
513          */
514         switch(ip->flags & (HAMMER_INODE_DELETED|HAMMER_INODE_ONDISK)) {
515         case HAMMER_INODE_DELETED|HAMMER_INODE_ONDISK:
516                 /*
517                  * If deleted and on-disk, don't set any additional flags.
518                  * the delete flag takes care of things.
519                  */
520                 break;
521         case HAMMER_INODE_DELETED:
522                 /*
523                  * Take care of the case where a deleted inode was never
524                  * flushed to the disk in the first place.
525                  */
526                 ip->flags &= ~(HAMMER_INODE_RDIRTY|HAMMER_INODE_DDIRTY);
527                 while (RB_ROOT(&ip->rec_tree))
528                         hammer_free_mem_record(RB_ROOT(&ip->rec_tree));
529                 break;
530         case HAMMER_INODE_ONDISK:
531                 /*
532                  * If already on-disk, do not set any additional flags.
533                  */
534                 break;
535         default:
536                 /*
537                  * If not on-disk and not deleted, set both dirty flags
538                  * to force an initial record to be written.
539                  */
540                 ip->flags |= HAMMER_INODE_RDIRTY | HAMMER_INODE_DDIRTY;
541                 break;
542         }
543
544         /*
545          * If RDIRTY or DDIRTY is set, write out a new record.  If the
546          * inode is already on-disk, the old record is marked as deleted.
547          */
548         if (ip->flags & (HAMMER_INODE_RDIRTY | HAMMER_INODE_DDIRTY |
549                          HAMMER_INODE_DELETED)) {
550                 error = hammer_update_inode(&trans, ip);
551         }
552         hammer_commit_transaction(&trans);
553         hammer_unlock(&ip->lock);
554         return(error);
555 }
556
557 /*
558  * Access the filesystem buffer containing the cluster-relative byte
559  * offset, validate the buffer type, load *bufferp and return a
560  * pointer to the requested data.  The buffer is reference and locked on
561  * return.
562  *
563  * If buf_type is 0 the buffer is assumed to be a pure-data buffer and
564  * no type or crc check is performed.
565  *
566  * If *bufferp is not NULL on entry it is assumed to contain a locked
567  * and referenced buffer which will then be replaced.
568  *
569  * If the caller is holding another unrelated buffer locked it must be
570  * passed in reorderbuf so we can properly order buffer locks.
571  *
572  * XXX add a flag for the buffer type and check the CRC here XXX
573  */
574 void *
575 hammer_bread(hammer_cluster_t cluster, int32_t cloff,
576              u_int64_t buf_type, int *errorp,
577              struct hammer_buffer **bufferp)
578 {
579         hammer_buffer_t buffer;
580         int32_t buf_no;
581         int32_t buf_off;
582
583         /*
584          * Load the correct filesystem buffer, replacing *bufferp.
585          */
586         buf_no = cloff / HAMMER_BUFSIZE;
587         buffer = *bufferp;
588         if (buffer == NULL || buffer->cluster != cluster ||
589             buffer->buf_no != buf_no) {
590                 if (buffer) {
591                         /*hammer_unlock(&buffer->io.lock);*/
592                         hammer_rel_buffer(buffer, 0);
593                 }
594                 buffer = hammer_get_buffer(cluster, buf_no, 0, errorp);
595                 *bufferp = buffer;
596                 if (buffer == NULL)
597                         return(NULL);
598                 /*hammer_lock_ex(&buffer->io.lock);*/
599         }
600
601         /*
602          * Validate the buffer type
603          */
604         buf_off = cloff & HAMMER_BUFMASK;
605         if (buf_type) {
606                 if (buf_type != buffer->ondisk->head.buf_type) {
607                         kprintf("BUFFER HEAD TYPE MISMATCH %llx %llx\n",
608                                 buf_type, buffer->ondisk->head.buf_type);
609                         *errorp = EIO;
610                         return(NULL);
611                 }
612                 if (buf_off < sizeof(buffer->ondisk->head)) {
613                         kprintf("BUFFER OFFSET TOO LOW %d\n", buf_off);
614                         *errorp = EIO;
615                         return(NULL);
616                 }
617         }
618
619         /*
620          * Return a pointer to the buffer data.
621          */
622         *errorp = 0;
623         return((char *)buffer->ondisk + buf_off);
624 }
625