hammer2 - Implement variable-sized indirect blocks, clustered reads
[dragonfly.git] / sys / vfs / hammer2 / hammer2_inode.c
1 /*
2  * Copyright (c) 2011-2012 The DragonFly Project.  All rights reserved.
3  *
4  * This code is derived from software contributed to The DragonFly Project
5  * by Matthew Dillon <dillon@dragonflybsd.org>
6  * by Venkatesh Srinivas <vsrinivas@dragonflybsd.org>
7  *
8  * Redistribution and use in source and binary forms, with or without
9  * modification, are permitted provided that the following conditions
10  * are met:
11  *
12  * 1. Redistributions of source code must retain the above copyright
13  *    notice, this list of conditions and the following disclaimer.
14  * 2. Redistributions in binary form must reproduce the above copyright
15  *    notice, this list of conditions and the following disclaimer in
16  *    the documentation and/or other materials provided with the
17  *    distribution.
18  * 3. Neither the name of The DragonFly Project nor the names of its
19  *    contributors may be used to endorse or promote products derived
20  *    from this software without specific, prior written permission.
21  *
22  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
23  * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
24  * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
25  * FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE
26  * COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
27  * INCIDENTAL, SPECIAL, EXEMPLARY OR CONSEQUENTIAL DAMAGES (INCLUDING,
28  * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
29  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
30  * AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
31  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
32  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
33  * SUCH DAMAGE.
34  */
35 #include <sys/cdefs.h>
36 #include <sys/cdefs.h>
37 #include <sys/param.h>
38 #include <sys/systm.h>
39 #include <sys/types.h>
40 #include <sys/lock.h>
41 #include <sys/uuid.h>
42
43 #include "hammer2.h"
44
45 /*
46  * Adding a ref to an inode is only legal if the inode already has at least
47  * one ref.
48  */
49 void
50 hammer2_inode_ref(hammer2_inode_t *ip)
51 {
52         hammer2_chain_ref(ip->hmp, &ip->chain);
53 }
54
55 /*
56  * Drop an inode reference, freeing the inode when the last reference goes
57  * away.
58  */
59 void
60 hammer2_inode_drop(hammer2_inode_t *ip)
61 {
62         hammer2_chain_drop(ip->hmp, &ip->chain);
63 }
64
65 /*
66  * Get the vnode associated with the given inode, allocating the vnode if
67  * necessary.
68  *
69  * Great care must be taken to avoid deadlocks and vnode acquisition/reclaim
70  * races.
71  *
72  * The vnode will be returned exclusively locked and referenced.  The
73  * reference on the vnode prevents it from being reclaimed.
74  *
75  * The inode (ip) must be referenced by the caller and not locked to avoid
76  * it getting ripped out from under us or deadlocked.
77  */
78 struct vnode *
79 hammer2_igetv(hammer2_inode_t *ip, int *errorp)
80 {
81         struct vnode *vp;
82         hammer2_mount_t *hmp;
83
84         hmp = ip->hmp;
85         *errorp = 0;
86
87         for (;;) {
88                 /*
89                  * Attempt to reuse an existing vnode assignment.  It is
90                  * possible to race a reclaim so the vget() may fail.  The
91                  * inode must be unlocked during the vget() to avoid a
92                  * deadlock against a reclaim.
93                  */
94                 vp = ip->vp;
95                 if (vp) {
96                         /*
97                          * Lock the inode and check for a reclaim race
98                          */
99                         hammer2_inode_lock_ex(ip);
100                         if (ip->vp != vp) {
101                                 hammer2_inode_unlock_ex(ip);
102                                 continue;
103                         }
104
105                         /*
106                          * Inode must be unlocked during the vget() to avoid
107                          * possible deadlocks, vnode is held to prevent
108                          * destruction during the vget().  The vget() can
109                          * still fail if we lost a reclaim race on the vnode.
110                          */
111                         vhold_interlocked(vp);
112                         hammer2_inode_unlock_ex(ip);
113                         if (vget(vp, LK_EXCLUSIVE)) {
114                                 vdrop(vp);
115                                 continue;
116                         }
117                         vdrop(vp);
118                         /* vp still locked and ref from vget */
119                         *errorp = 0;
120                         break;
121                 }
122
123                 /*
124                  * No vnode exists, allocate a new vnode.  Beware of
125                  * allocation races.  This function will return an
126                  * exclusively locked and referenced vnode.
127                  */
128                 *errorp = getnewvnode(VT_HAMMER2, H2TOMP(hmp), &vp, 0, 0);
129                 if (*errorp) {
130                         vp = NULL;
131                         break;
132                 }
133
134                 /*
135                  * Lock the inode and check for an allocation race.
136                  */
137                 hammer2_inode_lock_ex(ip);
138                 if (ip->vp != NULL) {
139                         vp->v_type = VBAD;
140                         vx_put(vp);
141                         hammer2_inode_unlock_ex(ip);
142                         continue;
143                 }
144
145                 switch (ip->ip_data.type) {
146                 case HAMMER2_OBJTYPE_DIRECTORY:
147                         vp->v_type = VDIR;
148                         break;
149                 case HAMMER2_OBJTYPE_REGFILE:
150                         vp->v_type = VREG;
151                         vinitvmio(vp, ip->ip_data.size,
152                                   HAMMER2_LBUFSIZE,
153                                   (int)ip->ip_data.size & HAMMER2_LBUFMASK);
154                         break;
155                 case HAMMER2_OBJTYPE_SOFTLINK:
156                         /*
157                          * XXX for now we are using the generic file_read
158                          * and file_write code so we need a buffer cache
159                          * association.
160                          */
161                         vp->v_type = VLNK;
162                         vinitvmio(vp, ip->ip_data.size,
163                                   HAMMER2_LBUFSIZE,
164                                   (int)ip->ip_data.size & HAMMER2_LBUFMASK);
165                         break;
166                 /* XXX FIFO */
167                 default:
168                         panic("hammer2: unhandled objtype %d",
169                               ip->ip_data.type);
170                         break;
171                 }
172
173                 if (ip == hmp->iroot)
174                         vsetflags(vp, VROOT);
175
176                 vp->v_data = ip;
177                 ip->vp = vp;
178                 hammer2_chain_ref(hmp, &ip->chain);     /* vp association */
179                 hammer2_inode_unlock_ex(ip);
180                 break;
181         }
182
183         /*
184          * Return non-NULL vp and *errorp == 0, or NULL vp and *errorp != 0.
185          */
186         if (hammer2_debug & 0x0002) {
187                 kprintf("igetv vp %p refs %d aux %d\n",
188                         vp, vp->v_sysref.refcnt, vp->v_auxrefs);
189         }
190         return (vp);
191 }
192
193 /*
194  * Create a new inode in the specified directory using the vattr to
195  * figure out the type of inode.
196  *
197  * If no error occurs the new inode with its chain locked is returned in
198  * *nipp, otherwise an error is returned and *nipp is set to NULL.
199  */
200 int
201 hammer2_inode_create(hammer2_mount_t *hmp,
202                      struct vattr *vap, struct ucred *cred,
203                      hammer2_inode_t *dip,
204                      const uint8_t *name, size_t name_len,
205                      hammer2_inode_t **nipp)
206 {
207         hammer2_chain_t *chain;
208         hammer2_chain_t *parent;
209         hammer2_inode_t *nip;
210         hammer2_key_t lhc;
211         int error;
212
213         lhc = hammer2_dirhash(name, name_len);
214
215         /*
216          * Locate the inode or indirect block to create the new
217          * entry in.  At the same time check for key collisions
218          * and iterate until we don't get one.
219          */
220         parent = &dip->chain;
221         hammer2_chain_ref(hmp, parent);
222         hammer2_chain_lock(hmp, parent);
223
224         error = 0;
225         while (error == 0) {
226                 chain = hammer2_chain_lookup(hmp, &parent, lhc, lhc, 0);
227                 if (chain == NULL)
228                         break;
229                 if ((lhc & HAMMER2_DIRHASH_LOMASK) == HAMMER2_DIRHASH_LOMASK)
230                         error = ENOSPC;
231                 hammer2_chain_put(hmp, chain);
232                 chain = NULL;
233                 ++lhc;
234         }
235         if (error == 0) {
236                 chain = hammer2_chain_create(hmp, parent, NULL, lhc, 0,
237                                              HAMMER2_BREF_TYPE_INODE,
238                                              HAMMER2_INODE_BYTES);
239                 if (chain == NULL)
240                         error = EIO;
241         }
242         hammer2_chain_put(hmp, parent);
243
244         /*
245          * Handle the error case
246          */
247         if (error) {
248                 KKASSERT(chain == NULL);
249                 *nipp = NULL;
250                 return (error);
251         }
252
253         /*
254          * Set up the new inode
255          */
256         nip = chain->u.ip;
257         *nipp = nip;
258
259         nip->ip_data.type = hammer2_get_obj_type(vap->va_type);
260         nip->ip_data.inum = hmp->voldata.alloc_tid++;   /* XXX modify/lock */
261         nip->ip_data.version = HAMMER2_INODE_VERSION_ONE;
262         nip->ip_data.ctime = 0;
263         nip->ip_data.mtime = 0;
264         nip->ip_data.mode = vap->va_mode;
265         nip->ip_data.nlinks = 1;
266         /* uid, gid, etc */
267
268         /*
269          * Regular files and softlinks allow a small amount of data to be
270          * directly embedded in the inode.  This flag will be cleared if
271          * the size is extended past the embedded limit.
272          */
273         if (nip->ip_data.type == HAMMER2_OBJTYPE_REGFILE ||
274             nip->ip_data.type == HAMMER2_OBJTYPE_SOFTLINK) {
275                 nip->ip_data.op_flags |= HAMMER2_OPFLAG_DIRECTDATA;
276         }
277
278         KKASSERT(name_len < HAMMER2_INODE_MAXNAME);
279         bcopy(name, nip->ip_data.filename, name_len);
280         nip->ip_data.name_key = lhc;
281         nip->ip_data.name_len = name_len;
282
283         return (0);
284 }
285
286 /*
287  * Connect inode (ip) to the specified directory using the specified name.
288  * (ip) must be locked.
289  */
290 int
291 hammer2_inode_connect(hammer2_inode_t *dip, hammer2_inode_t *ip,
292                       const uint8_t *name, size_t name_len)
293 {
294         hammer2_mount_t *hmp = dip->hmp;
295         hammer2_chain_t *chain;
296         hammer2_chain_t *parent;
297         hammer2_key_t lhc;
298         int error;
299
300         lhc = hammer2_dirhash(name, name_len);
301
302         /*
303          * Locate the inode or indirect block to create the new
304          * entry in.  At the same time check for key collisions
305          * and iterate until we don't get one.
306          */
307         parent = &dip->chain;
308         hammer2_chain_ref(hmp, parent);
309         hammer2_chain_lock(hmp, parent);
310
311         error = 0;
312         while (error == 0) {
313                 chain = hammer2_chain_lookup(hmp, &parent, lhc, lhc, 0);
314                 if (chain == NULL)
315                         break;
316                 if ((lhc & HAMMER2_DIRHASH_LOMASK) == HAMMER2_DIRHASH_LOMASK)
317                         error = ENOSPC;
318                 hammer2_chain_put(hmp, chain);
319                 chain = NULL;
320                 ++lhc;
321         }
322
323         /*
324          * Passing a non-NULL chain to hammer2_chain_create() reconnects the
325          * existing chain instead of creating a new one.  The chain's bref
326          * will be properly updated.
327          */
328         if (error == 0) {
329                 chain = hammer2_chain_create(hmp, parent, &ip->chain, lhc, 0,
330                                              HAMMER2_BREF_TYPE_INODE /* n/a */,
331                                              HAMMER2_INODE_BYTES);   /* n/a */
332                 if (chain == NULL)
333                         error = EIO;
334         }
335         hammer2_chain_put(hmp, parent);
336
337         /*
338          * Handle the error case
339          */
340         if (error) {
341                 KKASSERT(chain == NULL);
342                 return (error);
343         }
344
345         /*
346          * Directory entries are inodes so if the name has changed we have
347          * to update the inode.
348          */
349         if (ip->ip_data.name_len != name_len ||
350             bcmp(ip->ip_data.filename, name, name_len) != 0) {
351                 hammer2_chain_modify(hmp, chain);
352                 KKASSERT(name_len < HAMMER2_INODE_MAXNAME);
353                 bcopy(name, ip->ip_data.filename, name_len);
354                 ip->ip_data.name_key = lhc;
355                 ip->ip_data.name_len = name_len;
356         }
357         /*nip->ip_data.nlinks = 1;*/
358
359         return (0);
360 }
361
362 /*
363  * Create a hardlink forwarding entry (dip, name) to the specified (ip).
364  *
365  * This is one of the more complex implementations in HAMMER2.  The
366  * filesystem strictly updates its chains bottom-up in a copy-on-write
367  * fashion.  This makes hardlinks difficult to implement but we've come up
368  * with a dandy solution.
369  *
370  * When a file has more than one link the actual inode is created as a
371  * hidden directory entry (indexed by inode number) in a common parent of
372  * all hardlinks which reference the file.  The hardlinks in each directory
373  * are merely forwarding entries to the hidden inode.
374  *
375  * Implementation:
376  *
377  *      Most VOPs can be blissfully unaware of the forwarding entries.
378  *      nresolve, nlink, and remove code have to be forwarding-aware
379  *      in order to return the (ip/vp) for the actual file (and otherwise do
380  *      the right thing).
381  *
382  *      (1) If the ip we are linking to is a normal embedded inode (nlinks==1)
383  *          we have to replace the directory entry with a forwarding inode
384  *          and move the normal ip/vp to a hidden entry indexed by the inode
385  *          number in a common parent directory.
386  *
387  *      (2) If the ip we are linking to is already a hidden entry but is not
388  *          a common parent we have to move its entry to a common parent by
389  *          moving the entry upward.
390  *
391  *      (3) The trivial case is the entry is already hidden and already a
392  *          common parent.  We adjust nlinks for the entry and are done.
393  *          (this is the fall-through case).
394  */
395 int
396 hammer2_hardlink_create(hammer2_inode_t *ip, hammer2_inode_t *dip,
397                         const uint8_t *name, size_t name_len)
398 {
399         return ENOTSUP;
400 #if 0
401         hammer2_inode_t *nip;
402         hammer2_inode_t *xip;
403
404
405        hammer2_inode_t *nip;   /* hardlink forwarding inode */
406         error = hammer2_inode_create(hmp, NULL, ap->a_cred,
407                                      dip, name, name_len, &nip);
408         if (error) {
409                 KKASSERT(nip == NULL);
410                 return error;
411         }
412         KKASSERT(nip->ip_data.type == HAMMER2_OBJTYPE_HARDLINK);
413         hammer2_chain_modify(&nip->chain);
414         nip->ip_data.inum = ip->ip_data.inum;
415         hammer2_chain_put(hmp, &nip->chain);
416         /
417 #endif
418 }
419
420 int
421 hammer2_inode_calc_alloc(hammer2_key_t filesize)
422 {
423         int frag = (int)filesize & HAMMER2_PBUFMASK;
424         int radix;
425
426         if (frag == 0)
427                 return(0);
428         for (radix = HAMMER2_MINIORADIX; frag > (1 << radix); ++radix)
429                 ;
430         return (radix);
431 }