add41fb0c4b16b22e4de1959c2f9fc3527afeae6
[dragonfly.git] / share / man / man4 / tcp.4
1 .\" Copyright (c) 1983, 1991, 1993
2 .\"     The Regents of the University of California.  All rights reserved.
3 .\"
4 .\" Redistribution and use in source and binary forms, with or without
5 .\" modification, are permitted provided that the following conditions
6 .\" are met:
7 .\" 1. Redistributions of source code must retain the above copyright
8 .\"    notice, this list of conditions and the following disclaimer.
9 .\" 2. Redistributions in binary form must reproduce the above copyright
10 .\"    notice, this list of conditions and the following disclaimer in the
11 .\"    documentation and/or other materials provided with the distribution.
12 .\" 3. All advertising materials mentioning features or use of this software
13 .\"    must display the following acknowledgement:
14 .\"     This product includes software developed by the University of
15 .\"     California, Berkeley and its contributors.
16 .\" 4. Neither the name of the University nor the names of its contributors
17 .\"    may be used to endorse or promote products derived from this software
18 .\"    without specific prior written permission.
19 .\"
20 .\" THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
21 .\" ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
22 .\" IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
23 .\" ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
24 .\" FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
25 .\" DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
26 .\" OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
27 .\" HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
28 .\" LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
29 .\" OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
30 .\" SUCH DAMAGE.
31 .\"
32 .\"     From: @(#)tcp.4 8.1 (Berkeley) 6/5/93
33 .\" $FreeBSD: src/share/man/man4/tcp.4,v 1.11.2.14 2002/12/29 16:35:38 schweikh Exp $
34 .\" $DragonFly: src/share/man/man4/tcp.4,v 1.9 2008/10/17 11:30:24 swildner Exp $
35 .\"
36 .Dd February 14, 1995
37 .Dt TCP 4
38 .Os
39 .Sh NAME
40 .Nm tcp
41 .Nd Internet Transmission Control Protocol
42 .Sh SYNOPSIS
43 .In sys/types.h
44 .In sys/socket.h
45 .In netinet/in.h
46 .Ft int
47 .Fn socket AF_INET SOCK_STREAM 0
48 .Sh DESCRIPTION
49 The
50 .Tn TCP
51 protocol provides reliable, flow-controlled, two-way
52 transmission of data.  It is a byte-stream protocol used to
53 support the
54 .Dv SOCK_STREAM
55 abstraction.  TCP uses the standard
56 Internet address format and, in addition, provides a per-host
57 collection of
58 .Dq port addresses .
59 Thus, each address is composed
60 of an Internet address specifying the host and network, with
61 a specific
62 .Tn TCP
63 port on the host identifying the peer entity.
64 .Pp
65 Sockets utilizing the tcp protocol are either
66 .Dq active
67 or
68 .Dq passive .
69 Active sockets initiate connections to passive
70 sockets.  By default
71 .Tn TCP
72 sockets are created active; to create a
73 passive socket the
74 .Xr listen 2
75 system call must be used
76 after binding the socket with the
77 .Xr bind 2
78 system call.  Only
79 passive sockets may use the
80 .Xr accept 2
81 call to accept incoming connections.  Only active sockets may
82 use the
83 .Xr connect 2
84 call to initiate connections.
85 .Pp
86 Passive sockets may
87 .Dq underspecify
88 their location to match
89 incoming connection requests from multiple networks.  This
90 technique, termed
91 .Dq wildcard addressing ,
92 allows a single
93 server to provide service to clients on multiple networks.
94 To create a socket which listens on all networks, the Internet
95 address
96 .Dv INADDR_ANY
97 must be bound.  The
98 .Tn TCP
99 port may still be specified
100 at this time; if the port is not specified the system will assign one.
101 Once a connection has been established the socket's address is
102 fixed by the peer entity's location.   The address assigned the
103 socket is the address associated with the network interface
104 through which packets are being transmitted and received.  Normally
105 this address corresponds to the peer entity's network.
106 .Pp
107 .Tn TCP
108 supports a number of socket options which can be set with
109 .Xr setsockopt 2
110 and tested with
111 .Xr getsockopt 2 :
112 .Bl -tag -width TCP_NODELAYx
113 .It Dv TCP_NODELAY
114 Under most circumstances,
115 .Tn TCP
116 sends data when it is presented;
117 when outstanding data has not yet been acknowledged, it gathers
118 small amounts of output to be sent in a single packet once
119 an acknowledgement is received.
120 For a small number of clients, such as window systems
121 that send a stream of mouse events which receive no replies,
122 this packetization may cause significant delays.
123 The boolean option
124 .Dv TCP_NODELAY
125 defeats this algorithm.
126 .It Dv TCP_MAXSEG
127 By default, a sender\- and receiver-TCP
128 will negotiate among themselves to determine the maximum segment size
129 to be used for each connection.  The
130 .Dv TCP_MAXSEG
131 option allows the user to determine the result of this negotiation,
132 and to reduce it if desired.
133 .It Dv TCP_NOOPT
134 .Tn TCP
135 usually sends a number of options in each packet, corresponding to
136 various
137 .Tn TCP
138 extensions which are provided in this implementation.  The boolean
139 option
140 .Dv TCP_NOOPT
141 is provided to disable
142 .Tn TCP
143 option use on a per-connection basis.
144 .It Dv TCP_NOPUSH
145 By convention, the sender-TCP
146 will set the
147 .Dq push
148 bit and begin transmission immediately (if permitted) at the end of
149 every user call to
150 .Xr write 2
151 or
152 .Xr writev 2 .
153 The
154 .Dv TCP_NOPUSH
155 option is provided to allow servers to easily make use of Transaction
156 TCP (see
157 .Xr ttcp 4 ) .
158 When the option is set to a non-zero value,
159 .Tn TCP
160 will delay sending any data at all until either the socket is closed,
161 or the internal send buffer is filled.
162 .El
163 .Pp
164 The option level for the
165 .Xr setsockopt 2
166 call is the protocol number for
167 .Tn TCP ,
168 available from
169 .Xr getprotobyname 3 ,
170 or
171 .Dv IPPROTO_TCP .
172 All options are declared in
173 .In netinet/tcp.h .
174 .Pp
175 Options at the
176 .Tn IP
177 transport level may be used with
178 .Tn TCP ;
179 see
180 .Xr ip 4 .
181 Incoming connection requests that are source-routed are noted,
182 and the reverse source route is used in responding.
183 .Sh MIB VARIABLES
184 The
185 .Nm
186 protocol implements a number of variables in the
187 .Li net.inet
188 branch of the
189 .Xr sysctl 3
190 MIB.
191 .Bl -tag -width TCPCTL_DO_RFC1644
192 .It Dv TCPCTL_DO_RFC1323
193 .Pq tcp.rfc1323
194 Implement the window scaling and timestamp options of RFC 1323
195 (default true).
196 .It Dv TCPCTL_MSSDFLT
197 .Pq tcp.mssdflt
198 The default value used for the maximum segment size
199 .Pq Dq MSS
200 when no advice to the contrary is received from MSS negotiation.
201 .It Dv TCPCTL_SENDSPACE
202 .Pq tcp.sendspace
203 Maximum TCP send window.
204 .It Dv TCPCTL_RECVSPACE
205 .Pq tcp.recvspace
206 Maximum TCP receive window.
207 .It tcp.log_in_vain
208 Log any connection attempts to ports where there is not a socket
209 accepting connections.
210 The value of 1 limits the logging to SYN (connection establishment)
211 packets only.
212 That of 2 results in any TCP packets to closed ports being logged.
213 Any value unlisted above disables the logging
214 (default is 0, i.e., the logging is disabled).
215 .It tcp.msl
216 The Maximum Segment Lifetime for a packet.
217 .It tcp.keepinit
218 Timeout for new, non-established TCP connections.
219 .It tcp.keepidle
220 Amount of time the connection should be idle before keepalive
221 probes (if enabled) are sent.
222 .It tcp.keepintvl
223 The interval between keepalive probes sent to remote machines.
224 After
225 .Dv TCPTV_KEEPCNT
226 (default 8) probes are sent, with no response, the connection is dropped.
227 .It tcp.always_keepalive
228 Assume that
229 .Dv SO_KEEPALIVE
230 is set on all
231 .Tn TCP
232 connections, the kernel will
233 periodically send a packet to the remote host to verify the connection
234 is still up.
235 .It tcp.icmp_may_rst
236 Certain
237 .Tn ICMP
238 unreachable messages may abort connections in
239 .Tn SYN-SENT
240 state.
241 .It tcp.do_tcpdrain
242 Flush packets in the
243 .Tn TCP
244 reassembly queue if the system is low on mbufs.
245 .It tcp.blackhole
246 If enabled, disable sending of RST when a connection is attempted
247 to a port where there is not a socket accepting connections.
248 See
249 .Xr blackhole 4 .
250 .It tcp.delayed_ack
251 Delay ACK to try and piggyback it onto a data packet.
252 .It tcp.delacktime
253 Maximum amount of time before a delayed ACK is sent.
254 .It tcp.newreno
255 Enable TCP NewReno Fast Recovery algorithm,
256 as described in RFC 2582.
257 .It tcp.path_mtu_discovery
258 Enables Path MTU Discovery.  PMTU Discovery is helpful for avoiding
259 IP fragmentation when tranferring lots of data to the same client.
260 For web servers, where most of the connections are short and to
261 different clients, PMTU Discovery actually hurts performance due
262 to unnecessary retransmissions.  Turn this on only if most of your
263 TCP connections are long transfers or are repeatedly to the same
264 set of clients.
265 .It tcp.tcbhashsize
266 Size of the
267 .Tn TCP
268 control-block hashtable
269 (read-only).
270 This may be tuned using the kernel option
271 .Dv TCBHASHSIZE
272 or by setting
273 .Va net.inet.tcp.tcbhashsize
274 in the
275 .Xr loader 8 .
276 .It tcp.pcbcount
277 Number of active process control blocks
278 (read-only).
279 .It tcp.syncookies
280 Determines whether or not syn cookies should be generated for
281 outbound syn-ack packets.  Syn cookies are a great help during
282 syn flood attacks, and are enabled by default.
283 .It tcp.isn_reseed_interval
284 The interval (in seconds) specifying how often the secret data used in
285 RFC 1948 initial sequence number calculations should be reseeded.
286 By default, this variable is set to zero, indicating that
287 no reseeding will occur.
288 Reseeding should not be necessary, and will break
289 .Dv TIME_WAIT
290 recycling for a few minutes.
291 .It tcp.inet.tcp.rexmit_{min,slop}
292 Adjust the retransmit timer calculation for TCP.  The slop is
293 typically added to the raw calculation to take into account
294 occasional variances that the SRTT (smoothed round trip time)
295 is unable to accommodate, while the minimum specifies an
296 absolute minimum.  While a number of TCP RFCs suggest a 1
297 second minimum these RFCs tend to focus on streaming behavior
298 and fail to deal with the fact that a 1 second minimum has severe
299 detrimental effects over lossy interactive connections, such
300 as a 802.11b wireless link, and over very fast but lossy
301 connections for those cases not covered by the fast retransmit
302 code.  For this reason we suggest changing the slop to 200ms and
303 setting the minimum to something out of the way, like 20ms,
304 which gives you an effective minimum of 200ms (similar to Linux).
305 .It tcp.inflight_enable
306 Enable
307 .Tn TCP
308 bandwidth delay product limiting.  An attempt will be made to calculate
309 the bandwidth delay product for each individual TCP connection and limit
310 the amount of inflight data being transmitted to avoid building up
311 unnecessary packets in the network.  This option is recommended if you
312 are serving a lot of data over connections with high bandwidth-delay
313 products, such as modems, GigE links, and fast long-haul WANs, and/or
314 you have configured your machine to accommodate large TCP windows.  In such
315 situations, without this option, you may experience high interactive
316 latencies or packet loss due to the overloading of intermediate routers
317 and switches.  Note that bandwidth delay product limiting only affects
318 the transmit side of a TCP connection.
319 .It tcp.inflight_debug
320 Enable debugging for the bandwidth delay product algorithm.  This may
321 default to on (1) so if you enable the algorithm you should probably also
322 disable debugging by setting this variable to 0.
323 .It tcp.inflight_min
324 This puts an lower bound on the bandwidth delay product window, in bytes.
325 A value of 1024 is typically used for debugging.  6000-16000 is more typical
326 in a production installation.  Setting this value too low may result in
327 slow ramp-up times for bursty connections.  Setting this value too high
328 effectively disables the algorithm.
329 .It tcp.inflight_max
330 This puts an upper bound on the bandwidth delay product window, in bytes.
331 This value should not generally be modified but may be used to set a
332 global per-connection limit on queued data, potentially allowing you to
333 intentionally set a less than optimum limit to smooth data flow over a
334 network while still being able to specify huge internal TCP buffers.
335 .It tcp.inflight_stab
336 The bandwidth delay product algorithm requires a slightly larger window
337 than it otherwise calculates for stability.  This parameter determines the
338 extra window in maximal packets / 10.  The default value of 20 represents
339 2 maximal packets.  Reducing this value is not recommended but you may
340 come across a situation with very slow links where the ping time
341 reduction of the default inflight code is not sufficient.  If this case
342 occurs you should first try reducing tcp.inflight_min and, if that does not
343 work, reduce both tcp.inflight_min and tcp.inflight_stab, trying values of
344 15, 10, or 5 for the latter.  Never use a value less than 5.  Reducing
345 tcp.inflight_stab can lead to upwards of a 20% underutilization of the link
346 as well as reducing the algorithm's ability to adapt to changing
347 situations and should only be done as a last resort.
348 .El
349 .Sh ERRORS
350 A socket operation may fail with one of the following errors returned:
351 .Bl -tag -width Er
352 .It Bq Er EISCONN
353 when trying to establish a connection on a socket which
354 already has one;
355 .It Bq Er ENOBUFS
356 when the system runs out of memory for
357 an internal data structure;
358 .It Bq Er ETIMEDOUT
359 when a connection was dropped
360 due to excessive retransmissions;
361 .It Bq Er ECONNRESET
362 when the remote peer
363 forces the connection to be closed;
364 .It Bq Er ECONNREFUSED
365 when the remote
366 peer actively refuses connection establishment (usually because
367 no process is listening to the port);
368 .It Bq Er EADDRINUSE
369 when an attempt
370 is made to create a socket with a port which has already been
371 allocated;
372 .It Bq Er EADDRNOTAVAIL
373 when an attempt is made to create a
374 socket with a network address for which no network interface
375 exists.
376 .It Bq Er EAFNOSUPPORT
377 when an attempt is made to bind or connect a socket to a multicast
378 address.
379 .El
380 .Sh SEE ALSO
381 .Xr getsockopt 2 ,
382 .Xr socket 2 ,
383 .Xr sysctl 3 ,
384 .Xr blackhole 4 ,
385 .Xr inet 4 ,
386 .Xr intro 4 ,
387 .Xr ip 4 ,
388 .Xr ttcp 4
389 .Rs
390 .%A V. Jacobson
391 .%A R. Braden
392 .%A D. Borman
393 .%T "TCP Extensions for High Performance"
394 .%O RFC 1323
395 .Re
396 .Rs
397 .%A R. Braden
398 .%T "T/TCP \- TCP Extensions for Transactions"
399 .%O RFC 1644
400 .Re
401 .Sh HISTORY
402 The
403 .Nm
404 protocol appeared in
405 .Bx 4.2 .
406 The RFC 1323 extensions for window scaling and timestamps were added
407 in
408 .Bx 4.4 .