HAMMER - Try to improve backend stalls due to heavy write activity.
[dragonfly.git] / sys / vfs / hammer / hammer_transaction.c
1 /*
2  * Copyright (c) 2007-2008 The DragonFly Project.  All rights reserved.
3  * 
4  * This code is derived from software contributed to The DragonFly Project
5  * by Matthew Dillon <dillon@backplane.com>
6  * 
7  * Redistribution and use in source and binary forms, with or without
8  * modification, are permitted provided that the following conditions
9  * are met:
10  * 
11  * 1. Redistributions of source code must retain the above copyright
12  *    notice, this list of conditions and the following disclaimer.
13  * 2. Redistributions in binary form must reproduce the above copyright
14  *    notice, this list of conditions and the following disclaimer in
15  *    the documentation and/or other materials provided with the
16  *    distribution.
17  * 3. Neither the name of The DragonFly Project nor the names of its
18  *    contributors may be used to endorse or promote products derived
19  *    from this software without specific, prior written permission.
20  * 
21  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
22  * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
23  * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
24  * FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE
25  * COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
26  * INCIDENTAL, SPECIAL, EXEMPLARY OR CONSEQUENTIAL DAMAGES (INCLUDING,
27  * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
28  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
29  * AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
30  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
31  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
32  * SUCH DAMAGE.
33  * 
34  * $DragonFly: src/sys/vfs/hammer/hammer_transaction.c,v 1.25 2008/09/23 21:03:52 dillon Exp $
35  */
36
37 #include "hammer.h"
38
39 static hammer_tid_t hammer_alloc_tid(hammer_mount_t hmp, int count);
40 static u_int32_t ocp_allocbit(hammer_objid_cache_t ocp, u_int32_t n);
41
42
43 /*
44  * Start a standard transaction.
45  */
46 void
47 hammer_start_transaction(struct hammer_transaction *trans,
48                          struct hammer_mount *hmp)
49 {
50         struct timeval tv;
51         int error;
52
53         trans->type = HAMMER_TRANS_STD;
54         trans->hmp = hmp;
55         trans->rootvol = hammer_get_root_volume(hmp, &error);
56         KKASSERT(error == 0);
57         trans->tid = 0;
58         trans->sync_lock_refs = 0;
59         trans->flags = 0;
60
61         getmicrotime(&tv);
62         trans->time = (unsigned long)tv.tv_sec * 1000000ULL + tv.tv_usec;
63         trans->time32 = (u_int32_t)tv.tv_sec;
64 }
65
66 /*
67  * Start a simple read-only transaction.  This will not stall.
68  */
69 void
70 hammer_simple_transaction(struct hammer_transaction *trans,
71                           struct hammer_mount *hmp)
72 {
73         struct timeval tv;
74         int error;
75
76         trans->type = HAMMER_TRANS_RO;
77         trans->hmp = hmp;
78         trans->rootvol = hammer_get_root_volume(hmp, &error);
79         KKASSERT(error == 0);
80         trans->tid = 0;
81         trans->sync_lock_refs = 0;
82         trans->flags = 0;
83
84         getmicrotime(&tv);
85         trans->time = (unsigned long)tv.tv_sec * 1000000ULL + tv.tv_usec;
86         trans->time32 = (u_int32_t)tv.tv_sec;
87 }
88
89 /*
90  * Start a transaction using a particular TID.  Used by the sync code.
91  * This does not stall.
92  *
93  * This routine may only be called from the flusher thread.  We predispose
94  * sync_lock_refs, implying serialization against the synchronization stage
95  * (which the flusher is responsible for).
96  */
97 void
98 hammer_start_transaction_fls(struct hammer_transaction *trans,
99                              struct hammer_mount *hmp)
100 {
101         struct timeval tv;
102         int error;
103
104         bzero(trans, sizeof(*trans));
105
106         trans->type = HAMMER_TRANS_FLS;
107         trans->hmp = hmp;
108         trans->rootvol = hammer_get_root_volume(hmp, &error);
109         KKASSERT(error == 0);
110         trans->tid = hammer_alloc_tid(hmp, 1);
111         trans->sync_lock_refs = 1;
112         trans->flags = 0;
113
114         getmicrotime(&tv);
115         trans->time = (unsigned long)tv.tv_sec * 1000000ULL + tv.tv_usec;
116         trans->time32 = (u_int32_t)tv.tv_sec;
117 }
118
119 void
120 hammer_done_transaction(struct hammer_transaction *trans)
121 {
122         hammer_mount_t hmp = trans->hmp;
123         int expected_lock_refs;
124
125         hammer_rel_volume(trans->rootvol, 0);
126         trans->rootvol = NULL;
127         expected_lock_refs = (trans->type == HAMMER_TRANS_FLS) ? 1 : 0;
128         KKASSERT(trans->sync_lock_refs == expected_lock_refs);
129         trans->sync_lock_refs = 0;
130         if (trans->type != HAMMER_TRANS_FLS) {
131                 if (trans->flags & HAMMER_TRANSF_NEWINODE)
132                         hammer_inode_waitreclaims(hmp);
133                 else if (trans->flags & HAMMER_TRANSF_DIDIO)
134                         hammer_inode_waitreclaims(hmp);
135         }
136 }
137
138 /*
139  * Allocate (count) TIDs.  If running in multi-master mode the returned
140  * base will be aligned to a 16-count plus the master id (0-15).  
141  * Multi-master mode allows non-conflicting to run and new objects to be
142  * created on multiple masters in parallel.  The transaction id identifies
143  * the original master.  The object_id is also subject to this rule in
144  * order to allow objects to be created on multiple masters in parallel.
145  *
146  * Directories may pre-allocate a large number of object ids (100,000).
147  *
148  * NOTE: There is no longer a requirement that successive transaction
149  * ids be 2 apart for separator generation.
150  */
151 static hammer_tid_t
152 hammer_alloc_tid(hammer_mount_t hmp, int count)
153 {
154         hammer_tid_t tid;
155
156         if (hmp->master_id < 0) {
157                 tid = hmp->next_tid + 1;
158                 hmp->next_tid = tid + count;
159         } else {
160                 tid = (hmp->next_tid + HAMMER_MAX_MASTERS) &
161                       ~(hammer_tid_t)(HAMMER_MAX_MASTERS - 1);
162                 hmp->next_tid = tid + count * HAMMER_MAX_MASTERS;
163                 tid |= hmp->master_id;
164         }
165         if (tid >= 0xFFFFFFFFFF000000ULL)
166                 panic("hammer_start_transaction: Ran out of TIDs!");
167         if (hammer_debug_tid)
168                 kprintf("alloc_tid %016llx\n", (long long)tid);
169         return(tid);
170 }
171
172 /*
173  * Allocate an object id.
174  *
175  * We use the upper OBJID_CACHE_BITS bits of the namekey to try to match
176  * the low bits of the objid we allocate.
177  */
178 hammer_tid_t
179 hammer_alloc_objid(hammer_mount_t hmp, hammer_inode_t dip, int64_t namekey)
180 {
181         hammer_objid_cache_t ocp;
182         hammer_tid_t tid;
183         int incluster;
184         u_int32_t n;
185
186         while ((ocp = dip->objid_cache) == NULL) {
187                 if (hmp->objid_cache_count < OBJID_CACHE_SIZE) {
188                         ocp = kmalloc(sizeof(*ocp), hmp->m_misc,
189                                       M_WAITOK|M_ZERO);
190                         ocp->base_tid = hammer_alloc_tid(hmp,
191                                                         OBJID_CACHE_BULK * 2);
192                         ocp->base_tid += OBJID_CACHE_BULK_MASK64;
193                         ocp->base_tid &= ~OBJID_CACHE_BULK_MASK64;
194                         TAILQ_INSERT_HEAD(&hmp->objid_cache_list, ocp, entry);
195                         ++hmp->objid_cache_count;
196                         /* may have blocked, recheck */
197                         if (dip->objid_cache == NULL) {
198                                 dip->objid_cache = ocp;
199                                 ocp->dip = dip;
200                         }
201                 } else {
202                         /*
203                          * Steal one from another directory?
204                          *
205                          * Throw away ocp's that are more then half full, they
206                          * aren't worth stealing.
207                          */
208                         ocp = TAILQ_FIRST(&hmp->objid_cache_list);
209                         if (ocp->dip)
210                                 ocp->dip->objid_cache = NULL;
211                         if (ocp->count >= OBJID_CACHE_BULK / 2) {
212                                 --hmp->objid_cache_count;
213                                 kfree(ocp, hmp->m_misc);
214                         } else {
215                                 dip->objid_cache = ocp;
216                                 ocp->dip = dip;
217                         }
218                 }
219         }
220         TAILQ_REMOVE(&hmp->objid_cache_list, ocp, entry);
221
222         /*
223          * Allocate a bit based on our namekey for the low bits of our
224          * objid.
225          */
226         incluster = (hmp->master_id >= 0);
227         n = (namekey >> (63 - OBJID_CACHE_BULK_BITS)) & OBJID_CACHE_BULK_MASK;
228         n = ocp_allocbit(ocp, n);
229         tid = ocp->base_tid + n;
230
231 #if 0
232         /*
233          * The TID is incremented by 1 or by 16 depending what mode the
234          * mount is operating in.
235          */
236         ocp->next_tid += (hmp->master_id < 0) ? 1 : HAMMER_MAX_MASTERS;
237 #endif
238         if (ocp->count >= OBJID_CACHE_BULK / 2) {
239                 dip->objid_cache = NULL;
240                 --hmp->objid_cache_count;
241                 ocp->dip = NULL;
242                 kfree(ocp, hmp->m_misc);
243         } else {
244                 TAILQ_INSERT_TAIL(&hmp->objid_cache_list, ocp, entry);
245         }
246         return(tid);
247 }
248
249 /*
250  * Allocate a bit starting with bit n.  Wrap if necessary.
251  *
252  * This routine is only ever called if a bit is available somewhere
253  * in the bitmap.
254  */
255 static u_int32_t
256 ocp_allocbit(hammer_objid_cache_t ocp, u_int32_t n)
257 {
258         u_int32_t n0;
259
260         n0 = (n >> 5) & 31;
261         n &= 31;
262
263         while (ocp->bm1[n0] & (1 << n)) {
264                 if (ocp->bm0 & (1 << n0)) {
265                         n0 = (n0 + 1) & 31;
266                         n = 0;
267                 } else if (++n == 32) {
268                         n0 = (n0 + 1) & 31;
269                         n = 0;
270                 }
271         }
272         ++ocp->count;
273         ocp->bm1[n0] |= 1 << n;
274         if (ocp->bm1[n0] == 0xFFFFFFFFU)
275                 ocp->bm0 |= 1 << n0;
276         return((n0 << 5) + n);
277 }
278
279 void
280 hammer_clear_objid(hammer_inode_t dip)
281 {
282         hammer_objid_cache_t ocp;
283
284         if ((ocp = dip->objid_cache) != NULL) {
285                 dip->objid_cache = NULL;
286                 ocp->dip = NULL;
287                 TAILQ_REMOVE(&dip->hmp->objid_cache_list, ocp, entry);
288                 TAILQ_INSERT_HEAD(&dip->hmp->objid_cache_list, ocp, entry);
289         }
290 }
291
292 void
293 hammer_destroy_objid_cache(hammer_mount_t hmp)
294 {
295         hammer_objid_cache_t ocp;
296
297         while ((ocp = TAILQ_FIRST(&hmp->objid_cache_list)) != NULL) {
298                 TAILQ_REMOVE(&hmp->objid_cache_list, ocp, entry);
299                 if (ocp->dip)
300                         ocp->dip->objid_cache = NULL;
301                 kfree(ocp, hmp->m_misc);
302         }
303 }
304