Sprinkle in some commas to break out dependent clauses, and spelling fixes.
[dragonfly.git] / share / man / man8 / swapcache.8
1 .\"
2 .\" swapcache - Cache clean filesystem data & meta-data on SSD-based swap
3 .\"
4 .\" Redistribution and use in source and binary forms, with or without
5 .\" modification, are permitted provided that the following conditions
6 .\" are met:
7 .\" 1. Redistributions of source code must retain the above copyright
8 .\"    notice, this list of conditions and the following disclaimer.
9 .\" 2. Redistributions in binary form must reproduce the above copyright
10 .\"    notice, this list of conditions and the following disclaimer in the
11 .\"    documentation and/or other materials provided with the distribution.
12 .Dd February 7, 2010
13 .Dt SWAPCACHE 8
14 .Os
15 .Sh NAME
16 .Nm swapcache
17 .Nd a
18 mechanism which allows the system to use fast swap to cache filesystem
19 data and meta-data.
20 .Sh SYNOPSIS (defaults shown)
21 .Cd sysctl vm.swapcache.accrate=100000
22 .Cd sysctl vm.swapcache.maxfilesize=0
23 .Cd sysctl vm.swapcache.maxburst=2000000000
24 .Cd sysctl vm.swapcache.curburst=4000000000
25 .Cd sysctl vm.swapcache.minburst=10000000
26 .Cd sysctl vm.swapcache.read_enable=0
27 .Cd sysctl vm.swapcache.meta_enable=0
28 .Cd sysctl vm.swapcache.data_enable=0
29 .Cd sysctl vm.swapcache.maxlaunder=256
30 .Sh DESCRIPTION
31 .Nm
32 is a system capability which allows a solid state disk (SSD) in a swap
33 space configuration to be used to cache clean filesystem data and meta-data
34 in addition to its normal function of backing anonymous memory.
35 .Pp
36 Sysctls are used to manage operational parameters and can be adjusted at
37 any time.  Typically a large initial burst is desired after system boot,
38 controlled by the initial
39 .Cd vm.swapcache.curburst
40 parameter.
41 This parameter is reduced as data is written to swap by the swapcache
42 and increased at a rate specified by
43 .Cd vm.swapcache.accrate .
44 Once this parameter reaches zero write activity ceases until it has
45 recovered sufficiently for write activity to resume.
46 .Pp
47 .Cd vm.swapcache.meta_enable
48 enables the writing of filesystem meta-data to the swapcache.  Filesystem
49 metadata is any data which the filesystem accesses via the disk device
50 using buffercache.
51 .Pp
52 .Cd vm.swapcache.data_enable
53 enables the writing of filesystem file-data to the swapcache.  Filesystem
54 filedata is any data which the filesystem accesses via a regular file.
55 In technical terms, when the buffer cache is used to access a regular
56 file through its vnode.  Please do not blindly turn on this option,
57 see the PERFORMANCE TUNING section for more information.
58 .Pp
59 .Cd vm.swapcache.read_enable
60 enables reading from the swapcache and should be set to 1 for normal
61 operation.
62 .Pp
63 .Cd vm.swapcache.maxfilesize
64 controls which files are to be cached based on their size.
65 If set to non-zero only files smaller than the specified size
66 will be cached.  Larger files will not be cached.
67 .Sh PERFORMANCE TUNING
68 Best operation is achieved when the active data set fits within the
69 swapcache.
70 .Pp
71 .Bl -tag -width 4n -compact
72 .It Cd vm.swapcache.accrate
73 This specifies the burst accumulation rate in bytes per second and
74 ultimately controls the write bandwidth to swap averaged over a long
75 period of time.
76 This parameter must be carefully chosen to manage the write endurance of
77 the SSD in order to avoid wearing it out too quickly.
78 Even though SSDs have limited write endurance, there is massive
79 cost/performance benefit to using one in a swapcache configuration.
80 .Pp
81 Let's use the Intel X25V 40G MLC SATA SSD as an example.  This device
82 has approximately a 40TB (40 terabyte) write endurance.
83 Limiting the long term average bandwidth to 100K/sec leads to no more
84 than ~9G/day writing which calculates approximately to a 12 year
85 endurance.
86 Endurance scales linearly with size.  The 80G version of this SSD
87 will have a write endurance of approximately 80TB.
88 .Pp
89 MLC SSDs have approximately a 1000x write endurance, while the
90 lower density higher-cost SLC SSDs have an approximately 10000x
91 write endurance.  MLC SSDs can be used for the swapcache (and swap)
92 as long as the system manager is cognizant of its limitations.
93 .Pp
94 .It Cd vm.swapcache.meta_enable
95 Turning on just
96 .Cd meta_enable
97 causes only filesystem meta-data to be cached and will result
98 in very fast directory operations even over millions of inodes
99 and even in the face of other invasive operations being run
100 by other processes.
101 .Pp
102 .It Cd vm.swapcache.data_enable
103 Turning on
104 .Cd data_enable
105 (with or without other features) allows bulk file data to be
106 cached.
107 This feature is very useful for web server operation when the
108 operational data set fits in swap.
109 The usefulness is somewhat mitigated by the maximum number
110 of vnodes supported by the system via
111 .Cd kern.maxfiles ,
112 because the bulk data in the cache is lost when the related
113 vnode is recycled.  In this case it might be desireable to
114 take the plunge into running a 64-bit kernel which can support
115 far more vnodes.  32-bit kernels have limited kernel virtual
116 memory (KVM) and cannot reliably support more than around
117 100,000 active vnodes.  64-bit kernels can support 300,000+
118 active vnodes.
119 .Pp
120 Data caching is definitely more wasteful of SSD write bandwidth
121 than meta-data caching.  It doesn't hurt performance per se,
122 but may cause the
123 .Nm
124 to exhaust its burst and smack against the long term average
125 bandwidth limit, causing the SSD to wear out at the maximum rate you
126 programmed.  Data caching is far less wasteful and more efficient
127 if (on a 64-bit system only) you provide a sufficiently large SSD and
128 increase
129 .Cd kern.maxvnodes
130 to cover the entire directory topology being served.
131 Each vnode requires about 1K of physical ram.
132 .Pp
133 .It Cd vm.swapcache.maxfilesize
134 This may be used to reduce cache thrashing when a focus on a small
135 potentially fragmented filespace is desired, leaving the
136 larger files alone.
137 .Pp
138 .It Cd vm.swapcache.minburst
139 This controls hysteresis and prevents nickel-and-dime write bursting.
140 Once
141 .Cd curburst
142 drops to zero, writing to the swapcache ceases until it has recovered
143 past
144 .Cd minburst .
145 The idea here is to avoid creating a heavily fragmented swapcache where
146 reading data from a file must alternate between the cache and the primary
147 filesystem.  Doing so does not save disk seeks on the primary filesystem
148 so we want to avoid doing small bursts.  This parameter allows us to do
149 larger bursts.
150 The larger bursts also tend to improve SSD performance as the SSD itself
151 can do a better job write-combining and erasing blocks.
152 .Pp
153 .El
154 .Pp
155 Finally, interleaved swap (multiple SSDs) may be used to increase
156 performance even further.  A single SATA SSD is typically capable of
157 reading 120-220MB/sec.  Configuring two SSDs for your swap will
158 improve aggregate swapcache read performance by 1.5x to 1.8x.
159 In tests with two Intel 40G SSDs 300MB/sec was easily achieved.
160 .Pp
161 At this point you will be configuring more swap space than a 32 bit
162 .Dx
163 kernel can handle (due to KVM limitations).  By default, 32 bit
164 .Dx
165 systems only support 32G of configured swap and while this limit
166 can be increased somewhat in
167 .Pa /boot/loader.conf
168 you should really be using a 64-bit
169 .Dx
170 kernel instead.  64-bit systems support up to 512G of swap by default
171 and can be boosted to up to 8TB if you are really crazy and have enough ram.
172 Each 1GB of swap requires around 1MB of physical memory to manage it so
173 the practical limit is more around 1TB of swap.
174 .Pp
175 Of course, a 1TB SSD is something on the order of $3000+ as of this writing.
176 Even though a 1TB configuration might not be cost effective, storage levels
177 more in the 100-200G range certainly are.  If the machine has only a 1GigE
178 ethernet (100MB/s) there's no point configuring it for more SSD bandwidth.
179 A single SSD of the desired size would be sufficient.
180 .Sh INITIAL BURSTING & REPEATED BURSTING
181 Even though the average write bandwidth is limited it is desireable
182 to have a large initial burst after boot to load the cache.
183 .Cd curburst
184 is initialized to 4GB by default and you can force rebursting
185 by adjusting it with a sysctl.
186 Remember that
187 .Cd curburst
188 dynamically tracks burst and will go up and down depending.
189 .Pp
190 In addition there will be periods of time where the system is in
191 steady state and not writing to the swapcache.  During these periods
192 .Cd curburst
193 will inch back up but will not exceed
194 .Cd maxburst .
195 Thus the
196 .Cd maxburst
197 value controls how large a repeated burst can be.
198 .Pp
199 A second bursting parameter called
200 .Cd vm.swapcache.minburst
201 controls bursting when the maximum write bandwidth has been reached.
202 When
203 .Cd minburst
204 reaches zero write activity ceases and
205 .Cd curburst
206 is allowed to recover up to
207 .Cd minburst
208 before write activity resumes.  The recommended range for the
209 .Cd minburst
210 parameter is 1MB to 50MB.  This parameter has a relationship to
211 how fragmented the swapcache gets when not in a steady state.
212 Large bursts reduce fragmentation and reduce incidences of
213 excessive seeking on the hard drive.  If set too low the
214 swapcache will become fragmented within a single regular file
215 and the constant back-and-forth between the swapcache and the
216 hard drive will result in excessive seeking on the hard drive.
217 .Sh SWAPCACHE SIZE & MANAGEMENT
218 The swapcache feature will use up to 75% of configured swap space.
219 The remaining 25% is reserved for normal paging operation.
220 The system operator should configure at least 4 times the SWAP space
221 versus main memory and no less than 8G of swap space.
222 If a 40G SSD is used the recommendation is to configure 16G to 32G of
223 swap (note: 32-bit is limited to 32G of swap by default, for 64-bit
224 it is 512G of swap).
225 .Pp
226 If swapcache reaches the 75% limit it will begin tearing down swap
227 in linear bursts by iterating through available VM objects, until
228 swap space use drops to 70%.  The tear-down is limited by the rate at
229 which new data is written and this rate in turn is often limited
230 by
231 .Cd vm.swapcache.accrate ,
232 resulting in an orderly replacement of cached data and meta-data.
233 The limit is typically only reached when doing full data+meta-data
234 caching with no file size limitations and serving primarily large
235 files, or (on a 64-bit system) bumping kern.maxvnodes up to very
236 high values.
237 .Sh NORMAL SWAP PAGING ACTIVITY WITH SSD SWAP
238 This is not a function of
239 .Nm
240 per se but instead a normal function of the system.  Most systems have
241 sufficient memory that they do not need to page memory to swap.  These
242 types of systems are the ones best suited for MLC SSD configured swap
243 running with a
244 .Nm
245 configuration.
246 Systems which modestly page to swap, in the range of a few hundred
247 megabytes a day worth of writing, are also well suited for MLC SSD
248 configured swap.  Desktops usually fall into this category even if they
249 page out a bit more because swap activity is governed by the actions of
250 a single person.
251 .Pp
252 Systems which page anonymous memory heavily when
253 .Nm
254 would otherwise be turned off are not usually well suited for MLC SSD
255 configured swap.  Heavy paging activity is not governed by
256 .Nm
257 bandwidth control parameters and can lead to excessive uncontrolled
258 writing to the MLC SSD, causing premature wearout.  You would have to
259 use the lower density, more expensive SLC SSD technology (which has 10x
260 the durability).  This isn't to say that
261 .Nm
262 would be ineffective, just that the aggregate write bandwidth required
263 to support the system would be too large for MLC flash technologies.
264 .Pp
265 With this caveat in mind, SSD based paging on systems with insufficient
266 ram can be extremely effective in extending the useful life of the system.
267 For example, a system with a measly 192MB of ram and SSD swap can run
268 a -j 8 parallel build world in a little less than twice the time it
269 would take if the system had 2G of ram, whereas it would take 5x to 10x
270 as long with normal HD based swap.
271 .Sh WARNINGS
272 SSDs have limited durability and
273 .Nm
274 parameters should be carefully chosen to avoid early wearout.
275 For example, the Intel X25V 40G SSD has a nominal 40TB (terabyte)
276 write durability.
277 Generally speaking, you want to select parameters that will give you
278 at least 5 years of service life.  10 years is a good compromise.
279 .Pp
280 Durability typically scales with size and also depends on the
281 wear-leveling algorithm used by the device.  Durability can often
282 be improved by configuring less space (in a manufacturer-fresh drive)
283 than the drive's capacity.  For example, by only using 32G of a 40G
284 SSD.  SSDs typically implement 10% more storage than advertised and
285 use this storage to improve wear leveling.  As cells begin to fail
286 this overallotment slowly becomes part of the primary storage
287 until it has been exhausted.  After that the SSD has basically failed.
288 Keep in mind that if you use a larger portion of the SSD's advertised
289 storage the SSD will not know if/when you decide to use less unless
290 appropriate TRIM commands are sent (if supported), or a low level
291 factory erase is issued.
292 .Pp
293 The swapcache is designed for use with SSDs configured as swap and
294 will generally not improve performance when a normal hard drive is used
295 for swap.
296 .Pp
297 .Nm smartctl
298 (from pkgsrc's sysutils/smartmontools) may be used to retrieve 
299 the wear indicator from the drive.
300 One usually runs something like 'smartctl -d sat -a /dev/daXX'
301 (for AHCI/SILI/SCSI), or 'smartctl -a /dev/adXX' for NATA.  Many SSDs
302 will brick the SATA port when smart operations are done while the drive
303 is busy with normal activity, so the tool should only be run when the
304 SSD is idle.
305 .Pp
306 ID 232 (0xe8) in the SMART data dump indicates available reserved
307 space and ID 233 (0xe9) is the wear-out meter.  Reserved space
308 typically starts at 100 and decrements to 10, after which the SSD
309 is considered to operate in a degraded mode.  The wear-out meter
310 typically starts at 99 and decrements to 0, after which the SSD
311 has failed.
312 Wear on SSDs is a function only of the write durability which is
313 essentially just the total aggregate sectors written.
314 .Nm
315 tends to use large 64K writes as well as operates in a bursty fashion
316 which the SSD is able to take significant advantage of.
317 Power-on hours, power cycles, and read operations do not really affect wear.
318 .Pp
319 SSD's with MLC-based flash technology are high-density, low-cost solutions
320 with limited write durability.  SLC-based flash technology is a low-density,
321 higher-cost solution with 10x the write durability as MLC.  The durability
322 also scales with the amount of flash storage, with SLC based flash typically
323 twice as expensive per gigabyte.  From a cost perspective, SLC based flash
324 is at least 5x more cost effective in situations where high write
325 bandwidths are required (lasting 10x longer).  MLC is at least 2x more
326 cost effective in situations where high write bandwidth is not required.
327 When wear calculations are in years, these differences become huge.
328 .Nm
329 is usable with both technologies.
330 .Sh SEE ALSO
331 .Xr swapon 8 ,
332 .Xr fstab 5
333 .Sh HISTORY
334 .Nm
335 first appeared in
336 .Dx 2.5 .
337 .Sh AUTHORS
338 .An Matthew Dillon