kernel - Update swapcache manual page, document meta-data/inode ratios
[dragonfly.git] / share / man / man8 / swapcache.8
1 .\"
2 .\" swapcache - Cache clean filesystem data & meta-data on SSD-based swap
3 .\"
4 .\" Redistribution and use in source and binary forms, with or without
5 .\" modification, are permitted provided that the following conditions
6 .\" are met:
7 .\" 1. Redistributions of source code must retain the above copyright
8 .\"    notice, this list of conditions and the following disclaimer.
9 .\" 2. Redistributions in binary form must reproduce the above copyright
10 .\"    notice, this list of conditions and the following disclaimer in the
11 .\"    documentation and/or other materials provided with the distribution.
12 .Dd February 7, 2010
13 .Dt SWAPCACHE 8
14 .Os
15 .Sh NAME
16 .Nm swapcache
17 .Nd a
18 mechanism which allows the system to use fast swap to cache filesystem
19 data and meta-data.
20 .Sh SYNOPSIS
21 .Cd sysctl vm.swapcache.accrate=100000
22 .Cd sysctl vm.swapcache.maxfilesize=0
23 .Cd sysctl vm.swapcache.maxburst=2000000000
24 .Cd sysctl vm.swapcache.curburst=4000000000
25 .Cd sysctl vm.swapcache.minburst=10000000
26 .Cd sysctl vm.swapcache.read_enable=0
27 .Cd sysctl vm.swapcache.meta_enable=0
28 .Cd sysctl vm.swapcache.data_enable=0
29 .Cd sysctl vm.swapcache.use_chflags=1
30 .Cd sysctl vm.swapcache.maxlaunder=256
31 .Sh DESCRIPTION
32 .Nm
33 is a system capability which allows a solid state disk (SSD) in a swap
34 space configuration to be used to cache clean filesystem data and meta-data
35 in addition to its normal function of backing anonymous memory.
36 .Pp
37 Sysctls are used to manage operational parameters and can be adjusted at
38 any time.  Typically a large initial burst is desired after system boot,
39 controlled by the initial
40 .Cd vm.swapcache.curburst
41 parameter.
42 This parameter is reduced as data is written to swap by the swapcache
43 and increased at a rate specified by
44 .Cd vm.swapcache.accrate .
45 Once this parameter reaches zero write activity ceases until it has
46 recovered sufficiently for write activity to resume.
47 .Pp
48 .Cd vm.swapcache.meta_enable
49 enables the writing of filesystem meta-data to the swapcache.  Filesystem
50 metadata is any data which the filesystem accesses via the disk device
51 using buffercache.  Meta-data is cached globally regardless of file
52 or directory flags.
53 .Pp
54 .Cd vm.swapcache.data_enable
55 enables the writing of clean filesystem file-data to the swapcache.
56 Filesystem filedata is any data which the filesystem accesses via a
57 regular file.  In technical terms, when the buffer cache is used to access
58 a regular file through its vnode.
59 Please do not blindly turn on this option, see the PERFORMANCE TUNING
60 section for more information.
61 .Pp
62 .Cd vm.swapcache.use_chflags
63 enables the use of the
64 .Cm cache
65 and
66 .Cm noscache
67 .Xr chflags 1
68 flags to control which files will be data-cached.
69 If this sysctl is disabled and data_enable is enabled,
70 the system will ignore file flags and attempt to swapcache all
71 regular files.
72 .Pp
73 .Cd vm.swapcache.read_enable
74 enables reading from the swapcache and should be set to 1 for normal
75 operation.
76 .Pp
77 .Cd vm.swapcache.maxfilesize
78 controls which files are to be cached based on their size.
79 If set to non-zero only files smaller than the specified size
80 will be cached.  Larger files will not be cached.
81 .Sh PERFORMANCE TUNING
82 Best operation is achieved when the active data set fits within the
83 swapcache.
84 .Pp
85 .Bl -tag -width 4n -compact
86 .It Cd vm.swapcache.accrate
87 This specifies the burst accumulation rate in bytes per second and
88 ultimately controls the write bandwidth to swap averaged over a long
89 period of time.
90 This parameter must be carefully chosen to manage the write endurance of
91 the SSD in order to avoid wearing it out too quickly.
92 Even though SSDs have limited write endurance, there is massive
93 cost/performance benefit to using one in a swapcache configuration.
94 .Pp
95 Let's use the Intel X25V 40G MLC SATA SSD as an example.  This device
96 has approximately a
97 40TB (40 terabyte) write endurance, but see later
98 notes on this, it is more a minimum value.
99 Limiting the long term average bandwidth to 100K/sec leads to no more
100 than ~9G/day writing which calculates approximately to a 12 year
101 endurance.
102 Endurance scales linearly with size.  The 80G version of this SSD
103 will have a write endurance of approximately 80TB.
104 .Pp
105 MLC SSDs have a 1000-10000x write endurance, while the lower density
106 higher-cost SLC SSDs have an approximately 10000-100000x write endurance.
107 MLC SSDs can be used for the swapcache (and swap) as long as the system
108 manager is cognizant of its limitations.
109 .Pp
110 .It Cd vm.swapcache.meta_enable
111 Turning on just
112 .Cd meta_enable
113 causes only filesystem meta-data to be cached and will result
114 in very fast directory operations even over millions of inodes
115 and even in the face of other invasive operations being run
116 by other processes.
117 .Pp
118 For HAMMER filesystems meta-data includes the B-Tree, directory entries,
119 and data related to tiny files.  Approximately 6 GB of swapcache is needed
120 for every 14 million or so inodes cached, effectively giving one the
121 ability to cache all the meta-data in a multi-terrabyte filesystem using
122 a fairly small SSD.
123 .Pp
124 .It Cd vm.swapcache.data_enable
125 Turning on
126 .Cd data_enable
127 (with or without other features) allows bulk file data to be
128 cached.
129 This feature is very useful for web server operation when the
130 operational data set fits in swap.
131 The usefulness is somewhat mitigated by the maximum number
132 of vnodes supported by the system via
133 .Cd kern.maxfiles ,
134 because the bulk data in the cache is lost when the related
135 vnode is recycled.  In this case it might be desireable to
136 take the plunge into running a 64-bit kernel which can support
137 far more vnodes.  32-bit kernels have limited kernel virtual
138 memory (KVM) and cannot reliably support more than around
139 100,000 active vnodes.  64-bit kernels can support 300,000+
140 active vnodes.
141 .Pp
142 Data caching is definitely more wasteful of SSD write bandwidth
143 than meta-data caching.  It doesn't hurt performance per se,
144 but may cause the
145 .Nm
146 to exhaust its burst and smack against the long term average
147 bandwidth limit, causing the SSD to wear out at the maximum rate you
148 programmed.  Data caching is far less wasteful and more efficient
149 if (on a 64-bit system only) you provide a sufficiently large SSD and
150 increase
151 .Cd kern.maxvnodes
152 to cover the entire directory topology being served.
153 Each vnode requires about 1K of physical ram.
154 .Pp
155 When data caching is turned on you generally want to use
156 .Xr chflags 1
157 with the
158 .Cm cache
159 flag to enable data caching on a directory.
160 This flag is tracked by the namecache and does not need to be
161 recursively set in the directory tree.
162 Simply setting the flag in a top level directory is sufficient.
163 A typical setup is something like this:
164 .Pp
165 .Dl chflags cache /etc /sbin /bin /usr /home
166 .Dl chflags noscache /usr/obj
167 .Pp
168 Alternatively if you have NFS mounts where chflags does not work you
169 can enable caching in some parent directory, then selectively disable
170 it.
171 .Pp
172 .Dl chflags cache /
173 .Dl chflags noscache /usr/obj /tmp /var/tmp
174 .Pp
175 If that doesn't work you can turn off
176 .Cd vm.swapcache.use_chflags
177 entirely and not bother with any chflagging.
178 .Pp
179 .It Cd vm.swapcache.maxfilesize
180 This may be used to reduce cache thrashing when a focus on a small
181 potentially fragmented filespace is desired, leaving the
182 larger files alone.
183 .Pp
184 .It Cd vm.swapcache.minburst
185 This controls hysteresis and prevents nickel-and-dime write bursting.
186 Once
187 .Cd curburst
188 drops to zero, writing to the swapcache ceases until it has recovered
189 past
190 .Cd minburst .
191 The idea here is to avoid creating a heavily fragmented swapcache where
192 reading data from a file must alternate between the cache and the primary
193 filesystem.  Doing so does not save disk seeks on the primary filesystem
194 so we want to avoid doing small bursts.  This parameter allows us to do
195 larger bursts.
196 The larger bursts also tend to improve SSD performance as the SSD itself
197 can do a better job write-combining and erasing blocks.
198 .Pp
199 .It Cd vm_swapcache.maxswappct
200 This controls the maximum amount of swapspace
201 .Nm
202 may use, in percentage terms.
203 .El
204 .Pp
205 It is important to note that you should always use
206 .Xr disklabel64 8
207 to label your SSD.  Disklabel64 will properly align the base of the
208 partition space relative to the physical drive regardless of how badly
209 aligned the fdisk slice is.
210 This will significantly reduce write amplification and write combining
211 inefficiencies on the SSD.
212 .Pp
213 Finally, interleaved swap (multiple SSDs) may be used to increase
214 performance even further.  A single SATA SSD is typically capable of
215 reading 120-220MB/sec.  Configuring two SSDs for your swap will
216 improve aggregate swapcache read performance by 1.5x to 1.8x.
217 In tests with two Intel 40G SSDs 300MB/sec was easily achieved.
218 .Pp
219 At this point you will be configuring more swap space than a 32 bit
220 .Dx
221 kernel can handle (due to KVM limitations).  By default, 32 bit
222 .Dx
223 systems only support 32G of configured swap and while this limit
224 can be increased somewhat in
225 .Pa /boot/loader.conf
226 you should really be using a 64-bit
227 .Dx
228 kernel instead.  64-bit systems support up to 512G of swap by default
229 and can be boosted to up to 8TB if you are really crazy and have enough ram.
230 Each 1GB of swap requires around 1MB of physical memory to manage it so
231 the practical limit is more around 1TB of swap.
232 .Pp
233 Of course, a 1TB SSD is something on the order of $3000+ as of this writing.
234 Even though a 1TB configuration might not be cost effective, storage levels
235 more in the 100-200G range certainly are.  If the machine has only a 1GigE
236 ethernet (100MB/s) there's no point configuring it for more SSD bandwidth.
237 A single SSD of the desired size would be sufficient.
238 .Sh INITIAL BURSTING & REPEATED BURSTING
239 Even though the average write bandwidth is limited it is desireable
240 to have a large initial burst after boot to load the cache.
241 .Cd curburst
242 is initialized to 4GB by default and you can force rebursting
243 by adjusting it with a sysctl.
244 Remember that
245 .Cd curburst
246 dynamically tracks burst and will go up and down depending.
247 .Pp
248 In addition there will be periods of time where the system is in
249 steady state and not writing to the swapcache.  During these periods
250 .Cd curburst
251 will inch back up but will not exceed
252 .Cd maxburst .
253 Thus the
254 .Cd maxburst
255 value controls how large a repeated burst can be.
256 .Pp
257 A second bursting parameter called
258 .Cd vm.swapcache.minburst
259 controls bursting when the maximum write bandwidth has been reached.
260 When
261 .Cd minburst
262 reaches zero write activity ceases and
263 .Cd curburst
264 is allowed to recover up to
265 .Cd minburst
266 before write activity resumes.  The recommended range for the
267 .Cd minburst
268 parameter is 1MB to 50MB.  This parameter has a relationship to
269 how fragmented the swapcache gets when not in a steady state.
270 Large bursts reduce fragmentation and reduce incidences of
271 excessive seeking on the hard drive.  If set too low the
272 swapcache will become fragmented within a single regular file
273 and the constant back-and-forth between the swapcache and the
274 hard drive will result in excessive seeking on the hard drive.
275 .Sh SWAPCACHE SIZE & MANAGEMENT
276 The swapcache feature will use up to 75% of configured swap space
277 by default.
278 The remaining 25% is reserved for normal paging operation.
279 The system operator should configure at least 4 times the SWAP space
280 versus main memory and no less than 8G of swap space.
281 If a 40G SSD is used the recommendation is to configure 16G to 32G of
282 swap (note: 32-bit is limited to 32G of swap by default, for 64-bit
283 it is 512G of swap), and to leave the remainder unwritten and unused.
284 .Pp
285 The
286 .Cd vm_swapcache.maxswappct
287 sysctl may be used to change the default.
288 You may have to change this default if you also use
289 .Xr tmpfs 5 ,
290 .Xr vn 4 ,
291 or if you have not allocated enough swap for reasonable normal paging
292 activity to occur (in which case you probably shouldn't be using
293 .Nm
294 anyway).
295 .Pp
296 If swapcache reaches the 75% limit it will begin tearing down swap
297 in linear bursts by iterating through available VM objects, until
298 swap space use drops to 70%.  The tear-down is limited by the rate at
299 which new data is written and this rate in turn is often limited
300 by
301 .Cd vm.swapcache.accrate ,
302 resulting in an orderly replacement of cached data and meta-data.
303 The limit is typically only reached when doing full data+meta-data
304 caching with no file size limitations and serving primarily large
305 files, or (on a 64-bit system) bumping kern.maxvnodes up to very
306 high values.
307 .Sh NORMAL SWAP PAGING ACTIVITY WITH SSD SWAP
308 This is not a function of
309 .Nm
310 per se but instead a normal function of the system.  Most systems have
311 sufficient memory that they do not need to page memory to swap.  These
312 types of systems are the ones best suited for MLC SSD configured swap
313 running with a
314 .Nm
315 configuration.
316 Systems which modestly page to swap, in the range of a few hundred
317 megabytes a day worth of writing, are also well suited for MLC SSD
318 configured swap.  Desktops usually fall into this category even if they
319 page out a bit more because swap activity is governed by the actions of
320 a single person.
321 .Pp
322 Systems which page anonymous memory heavily when
323 .Nm
324 would otherwise be turned off are not usually well suited for MLC SSD
325 configured swap.  Heavy paging activity is not governed by
326 .Nm
327 bandwidth control parameters and can lead to excessive uncontrolled
328 writing to the MLC SSD, causing premature wearout.  You would have to
329 use the lower density, more expensive SLC SSD technology (which has 10x
330 the durability).  This isn't to say that
331 .Nm
332 would be ineffective, just that the aggregate write bandwidth required
333 to support the system would be too large for MLC flash technologies.
334 .Pp
335 With this caveat in mind, SSD based paging on systems with insufficient
336 ram can be extremely effective in extending the useful life of the system.
337 For example, a system with a measly 192MB of ram and SSD swap can run
338 a -j 8 parallel build world in a little less than twice the time it
339 would take if the system had 2G of ram, whereas it would take 5x to 10x
340 as long with normal HD based swap.
341 .Sh WARNINGS
342 I am going to repeat and expand a bit on SSD wear.
343 Wear on SSDs is a function of the write durability of the cells,
344 whether the SSD implements static or dynamic wear leveling, and
345 write amplification effects based on the type of write activity.
346 Write amplification occurs due to wasted space when the SSD must
347 erase and rewrite the underlying flash blocks.  e.g. MLC flash uses
348 128KB erase/write blocks.
349 .Pp
350 .Nm
351 parameters should be carefully chosen to avoid early wearout.
352 For example, the Intel X25V 40G SSD has a minimum write durability
353 of 40TB and an actual durability that can be quite a bit higher.
354 Generally speaking, you want to select parameters that will give you
355 at least 10 years of service life.
356 The most important parameter to control this is
357 .Cd vm.swapcache.accrate .
358 .Nm
359 uses a very conservative 100KB/sec default but even a small X25V
360 can probably handle 300KB/sec of continuous writing and still last
361 10 years.
362 .Pp
363 Depending on the wear leveling algorithm the drive uses, durability
364 and performance can sometimes be improved by configuring less
365 space (in a manufacturer-fresh drive) than the drive's probed capacity.
366 For example, by only using 32G of a 40G SSD.
367 SSDs typically implement 10% more storage than advertised and
368 use this storage to improve wear leveling.  As cells begin to fail
369 this overallotment slowly becomes part of the primary storage
370 until it has been exhausted.  After that the SSD has basically failed.
371 Keep in mind that if you use a larger portion of the SSD's advertised
372 storage the SSD will not know if/when you decide to use less unless
373 appropriate TRIM commands are sent (if supported), or a low level
374 factory erase is issued.
375 .Pp
376 The swapcache is designed for use with SSDs configured as swap and
377 will generally not improve performance when a normal hard drive is used
378 for swap.
379 .Pp
380 .Nm smartctl
381 (from pkgsrc's sysutils/smartmontools) may be used to retrieve 
382 the wear indicator from the drive.
383 One usually runs something like 'smartctl -d sat -a /dev/daXX'
384 (for AHCI/SILI/SCSI), or 'smartctl -a /dev/adXX' for NATA.  Some SSDs
385 (particularly the Intels) will brick the SATA port when smart operations
386 are done while the drive is busy with normal activity, so the tool should
387 only be run when the SSD is idle.
388 .Pp
389 ID 232 (0xe8) in the SMART data dump indicates available reserved
390 space and ID 233 (0xe9) is the wear-out meter.  Reserved space
391 typically starts at 100 and decrements to 10, after which the SSD
392 is considered to operate in a degraded mode.  The wear-out meter
393 typically starts at 99 and decrements to 0, after which the SSD
394 has failed.
395 .Pp
396 .Nm
397 tends to use large 64K writes and tends to cluster multiple writes
398 linearly.  The SSD is able to take significant advantage of this
399 and write amplification effects are greatly reduced.  If we
400 take a 40G Intel X25V as an example the vendor specifies a write
401 durability of approximately 40TB, but
402 .Nm
403 should be able to squeeze out upwards of 200TB due the fairly optimal
404 write clustering it does.
405 The theoretical limit for the Intel X25V is 400TB (10,000 erase cycles
406 per MLC cell, 40G drive), but the firmware doesn't do perfect static
407 wear leveling so the actual durability is less.
408 .Pp
409 In contrast, most filesystems directly stored on a SSD have
410 fairly severe write amplification effects and will have durabilities
411 ranging closer to the vendor-specified limit.
412 Power-on hours, power cycles, and read operations do not really affect
413 wear.
414 .Pp
415 SSD's with MLC-based flash technology are high-density, low-cost solutions
416 with limited write durability.  SLC-based flash technology is a low-density,
417 higher-cost solution with 10x the write durability as MLC.  The durability
418 also scales with the amount of flash storage.  SLC based flash is typically
419 twice as expensive per gigabyte.  From a cost perspective, SLC based flash
420 is at least 5x more cost effective in situations where high write
421 bandwidths are required (because it lasts 10x longer).  MLC is at least
422 2x more cost effective in situations where high write bandwidth is not
423 required.
424 When wear calculations are in years, these differences become huge, but
425 often the quantity of storage needed trumps the wear life so we expect most
426 people will be using MLC.
427 .Nm
428 is usable with both technologies.
429 .Sh SEE ALSO
430 .Xr swapon 8 ,
431 .Xr disklabel64 8 ,
432 .Xr fstab 5
433 .Sh HISTORY
434 .Nm
435 first appeared in
436 .Dx 2.5 .
437 .Sh AUTHORS
438 .An Matthew Dillon