Merge from vendor branch DIFFUTILS:
[dragonfly.git] / sys / netinet / tcp_var.h
1 /*
2  * Copyright (c) 2003-2004 Jeffrey Hsu.  All rights reserved.
3  * Copyright (c) 1982, 1986, 1993, 1994, 1995
4  *      The Regents of the University of California.  All rights reserved.
5  *
6  * Redistribution and use in source and binary forms, with or without
7  * modification, are permitted provided that the following conditions
8  * are met:
9  * 1. Redistributions of source code must retain the above copyright
10  *    notice, this list of conditions and the following disclaimer.
11  * 2. Redistributions in binary form must reproduce the above copyright
12  *    notice, this list of conditions and the following disclaimer in the
13  *    documentation and/or other materials provided with the distribution.
14  * 3. All advertising materials mentioning features or use of this software
15  *    must display the following acknowledgement:
16  *      This product includes software developed by the University of
17  *      California, Berkeley and its contributors.
18  * 4. Neither the name of the University nor the names of its contributors
19  *    may be used to endorse or promote products derived from this software
20  *    without specific prior written permission.
21  *
22  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
23  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
24  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
25  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
26  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
27  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
28  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
29  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
30  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
31  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
32  * SUCH DAMAGE.
33  *
34  *      @(#)tcp_var.h   8.4 (Berkeley) 5/24/95
35  * $FreeBSD: src/sys/netinet/tcp_var.h,v 1.56.2.13 2003/02/03 02:34:07 hsu Exp $
36  * $DragonFly: src/sys/netinet/tcp_var.h,v 1.17 2004/04/10 00:10:42 hsu Exp $
37  */
38
39 #ifndef _NETINET_TCP_VAR_H_
40 #define _NETINET_TCP_VAR_H_
41
42 #include <netinet/in_pcb.h>             /* needed for in_conninfo, inp_gen_t */
43
44 #ifndef _NETINET_TCP_STATS_H_
45 #include <netinet/tcp_stats.h>
46 #endif
47
48 /*
49  * Kernel variables for tcp.
50  */
51 extern int      tcp_do_rfc1323;
52 extern int      tcp_do_rfc1644;
53
54 /* TCP segment queue entry */
55 struct tseg_qent {
56         LIST_ENTRY(tseg_qent) tqe_q;
57         int     tqe_len;                /* TCP segment data length */
58         struct  tcphdr *tqe_th;         /* a pointer to tcp header */
59         struct  mbuf    *tqe_m;         /* mbuf contains packet */
60 };
61 LIST_HEAD(tsegqe_head, tseg_qent);
62 extern int      tcp_reass_maxseg;
63 extern int      tcp_reass_qsize;
64 #ifdef MALLOC_DECLARE
65 MALLOC_DECLARE(M_TSEGQ);
66 #endif
67
68 struct tcptemp {
69         u_char  tt_ipgen[40]; /* the size must be of max ip header, now IPv6 */
70         struct  tcphdr tt_t;
71 };
72
73 #define tcp6cb          tcpcb  /* for KAME src sync over BSD*'s */
74
75 /*
76  * Tcp control block, one per tcp; fields:
77  * Organized for 16 byte cacheline efficiency.
78  */
79 struct tcpcb {
80         struct  tsegqe_head t_segq;
81         int     t_dupacks;              /* consecutive dup acks recd */
82         struct  tcptemp *unused;        /* unused */
83
84         struct  callout *tt_rexmt;      /* retransmit timer */
85         struct  callout *tt_persist;    /* retransmit persistence */
86         struct  callout *tt_keep;       /* keepalive */
87         struct  callout *tt_2msl;       /* 2*msl TIME_WAIT timer */
88         struct  callout *tt_delack;     /* delayed ACK timer */
89
90         struct  inpcb *t_inpcb;         /* back pointer to internet pcb */
91         int     t_state;                /* state of this connection */
92         u_int   t_flags;
93 #define TF_ACKNOW       0x00000001      /* ack peer immediately */
94 #define TF_DELACK       0x00000002      /* ack, but try to delay it */
95 #define TF_NODELAY      0x00000004      /* don't delay packets to coalesce */
96 #define TF_NOOPT        0x00000008      /* don't use tcp options */
97 #define TF_SENTFIN      0x00000010      /* have sent FIN */
98 #define TF_REQ_SCALE    0x00000020      /* have/will request window scaling */
99 #define TF_RCVD_SCALE   0x00000040      /* other side has requested scaling */
100 #define TF_REQ_TSTMP    0x00000080      /* have/will request timestamps */
101 #define TF_RCVD_TSTMP   0x00000100      /* a timestamp was received in SYN */
102 #define TF_SACK_PERMIT  0x00000200      /* other side said I could SACK */
103 #define TF_NEEDSYN      0x00000400      /* send SYN (implicit state) */
104 #define TF_NEEDFIN      0x00000800      /* send FIN (implicit state) */
105 #define TF_NOPUSH       0x00001000      /* don't push */
106 #define TF_REQ_CC       0x00002000      /* have/will request CC */
107 #define TF_RCVD_CC      0x00004000      /* a CC was received in SYN */
108 #define TF_SENDCCNEW    0x00008000      /* send CCnew instead of CC in SYN */
109 #define TF_MORETOCOME   0x00010000      /* More data to be appended to sock */
110 #define TF_LQ_OVERFLOW  0x00020000      /* listen queue overflow */
111 #define TF_LASTIDLE     0x00040000      /* connection was previously idle */
112 #define TF_RXWIN0SENT   0x00080000      /* sent a receiver win 0 in response */
113 #define TF_FASTRECOVERY 0x00100000      /* in NewReno Fast Recovery */
114 #define TF_WASFRECOVERY 0x00200000      /* was in NewReno Fast Recovery */
115 #define TF_FIRSTACCACK  0x00400000      /* Look for 1st acceptable ACK. */
116 #define TF_FASTREXMT    0x00800000      /* Did Fast Retransmit. */
117 #define TF_EARLYREXMT   0x01000000      /* Did Early (Fast) Retransmit. */
118         int     t_force;                /* 1 if forcing out a byte */
119
120         tcp_seq snd_una;                /* send unacknowledged */
121         tcp_seq snd_max;                /* highest sequence number sent;
122                                          * used to recognize retransmits
123                                          */
124         tcp_seq snd_nxt;                /* send next */
125         tcp_seq snd_up;                 /* send urgent pointer */
126
127         tcp_seq snd_wl1;                /* window update seg seq number */
128         tcp_seq snd_wl2;                /* window update seg ack number */
129         tcp_seq iss;                    /* initial send sequence number */
130         tcp_seq irs;                    /* initial receive sequence number */
131
132         tcp_seq rcv_nxt;                /* receive next */
133         tcp_seq rcv_adv;                /* advertised window */
134         u_long  rcv_wnd;                /* receive window */
135         tcp_seq rcv_up;                 /* receive urgent pointer */
136
137         u_long  snd_wnd;                /* send window */
138         u_long  snd_cwnd;               /* congestion-controlled window */
139         u_long  snd_bwnd;               /* bandwidth-controlled window */
140         u_long  snd_ssthresh;           /* snd_cwnd size threshold for
141                                          * for slow start exponential to
142                                          * linear switch
143                                          */
144         u_long  snd_bandwidth;          /* calculated bandwidth or 0 */
145         tcp_seq snd_recover;            /* for use in NewReno fast recovery */
146
147         u_int   t_maxopd;               /* mss plus options */
148
149         u_long  t_rcvtime;              /* inactivity time */
150         u_long  t_starttime;            /* time connection was established */
151         int     t_rtttime;              /* round trip time */
152         tcp_seq t_rtseq;                /* sequence number being timed */
153
154         int     t_bw_rtttime;           /* used for bandwidth calculation */
155         tcp_seq t_bw_rtseq;             /* used for bandwidth calculation */
156
157         int     t_rxtcur;               /* current retransmit value (ticks) */
158         u_int   t_maxseg;               /* maximum segment size */
159         int     t_srtt;                 /* smoothed round-trip time */
160         int     t_rttvar;               /* variance in round-trip time */
161
162         int     t_rxtshift;             /* log(2) of rexmt exp. backoff */
163         u_int   t_rttmin;               /* minimum rtt allowed */
164         u_int   t_rttbest;              /* best rtt we've seen */
165         u_long  t_rttupdated;           /* number of times rtt sampled */
166         u_long  max_sndwnd;             /* largest window peer has offered */
167
168         int     t_softerror;            /* possible error not yet reported */
169 /* out-of-band data */
170         char    t_oobflags;             /* have some */
171         char    t_iobc;                 /* input character */
172 #define TCPOOB_HAVEDATA 0x01
173 #define TCPOOB_HADDATA  0x02
174 /* RFC 1323 variables */
175         u_char  snd_scale;              /* window scaling for send window */
176         u_char  rcv_scale;              /* window scaling for recv window */
177         u_char  request_r_scale;        /* pending window scaling */
178         u_char  requested_s_scale;
179         u_long  ts_recent;              /* timestamp echo data */
180
181         u_long  ts_recent_age;          /* when last updated */
182         tcp_seq last_ack_sent;
183 /* RFC 1644 variables */
184         tcp_cc  cc_send;                /* send connection count */
185         tcp_cc  cc_recv;                /* receive connection count */
186 /* experimental */
187         u_long  snd_cwnd_prev;          /* cwnd prior to retransmit */
188         u_long  snd_ssthresh_prev;      /* ssthresh prior to retransmit */
189         tcp_seq snd_recover_prev;       /* snd_recover prior to retransmit */
190         u_long  t_badrxtwin;            /* window for retransmit recovery */
191         u_long  t_rexmtTS;              /* timestamp of last retransmit */
192         u_char  snd_limited;            /* segments limited transmitted */
193 };
194
195 #define IN_FASTRECOVERY(tp)     (tp->t_flags & TF_FASTRECOVERY)
196 #define ENTER_FASTRECOVERY(tp)  tp->t_flags |= TF_FASTRECOVERY
197 #define EXIT_FASTRECOVERY(tp)   tp->t_flags &= ~TF_FASTRECOVERY
198
199 /*
200  * Structure to hold TCP options that are only used during segment
201  * processing (in tcp_input), but not held in the tcpcb.
202  * It's basically used to reduce the number of parameters
203  * to tcp_dooptions.
204  */
205 struct tcpopt {
206         u_long          to_flags;       /* which options are present */
207 #define TOF_TS          0x0001          /* timestamp */
208 #define TOF_CC          0x0002          /* CC and CCnew are exclusive */
209 #define TOF_CCNEW       0x0004
210 #define TOF_CCECHO      0x0008
211 #define TOF_MSS         0x0010
212 #define TOF_SCALE       0x0020
213         u_int32_t       to_tsval;
214         u_int32_t       to_tsecr;
215         tcp_cc          to_cc;          /* holds CC or CCnew */
216         tcp_cc          to_ccecho;
217         u_int16_t       to_mss;
218         u_int8_t        to_requested_s_scale;
219         u_int8_t        to_pad;
220 };
221
222 struct syncache {
223         inp_gen_t       sc_inp_gencnt;          /* pointer check */
224         struct          tcpcb *sc_tp;           /* tcb for listening socket */
225         struct          mbuf *sc_ipopts;        /* source route */
226         struct          in_conninfo sc_inc;     /* addresses */
227 #define sc_route        sc_inc.inc_route
228 #define sc_route6       sc_inc.inc6_route
229         u_int32_t       sc_tsrecent;
230         tcp_cc          sc_cc_send;             /* holds CC or CCnew */
231         tcp_cc          sc_cc_recv;
232         tcp_seq         sc_irs;                 /* seq from peer */
233         tcp_seq         sc_iss;                 /* our ISS */
234         u_long          sc_rxttime;             /* retransmit time */
235         u_int16_t       sc_rxtslot;             /* retransmit counter */
236         u_int16_t       sc_peer_mss;            /* peer's MSS */
237         u_int16_t       sc_wnd;                 /* advertised window */
238         u_int8_t        sc_requested_s_scale:4,
239                         sc_request_r_scale:4;
240         u_int8_t        sc_flags;
241 #define SCF_NOOPT       0x01                    /* no TCP options */
242 #define SCF_WINSCALE    0x02                    /* negotiated window scaling */
243 #define SCF_TIMESTAMP   0x04                    /* negotiated timestamps */
244 #define SCF_CC          0x08                    /* negotiated CC */
245 #define SCF_UNREACH     0x10                    /* icmp unreachable received */
246 #define SCF_KEEPROUTE   0x20                    /* keep cloned route */
247         TAILQ_ENTRY(syncache)   sc_hash;
248         TAILQ_ENTRY(syncache)   sc_timerq;
249 };
250
251 struct syncache_head {
252         TAILQ_HEAD(, syncache)  sch_bucket;
253         u_int           sch_length;
254 };
255  
256 /*
257  * The TAO cache entry which is stored in the protocol family specific
258  * portion of the route metrics.
259  */
260 struct rmxp_tao {
261         tcp_cc  tao_cc;                 /* latest CC in valid SYN */
262         tcp_cc  tao_ccsent;             /* latest CC sent to peer */
263         u_short tao_mssopt;             /* peer's cached MSS */
264 #ifdef notyet
265         u_short tao_flags;              /* cache status flags */
266 #define TAOF_DONT       0x0001          /* peer doesn't understand rfc1644 */
267 #define TAOF_OK         0x0002          /* peer does understand rfc1644 */
268 #define TAOF_UNDEF      0               /* we don't know yet */
269 #endif /* notyet */
270 };
271 #define rmx_taop(r)     ((struct rmxp_tao *)(r).rmx_filler)
272
273 #define intotcpcb(ip)   ((struct tcpcb *)(ip)->inp_ppcb)
274 #define sototcpcb(so)   (intotcpcb(sotoinpcb(so)))
275
276 /*
277  * The smoothed round-trip time and estimated variance
278  * are stored as fixed point numbers scaled by the values below.
279  * For convenience, these scales are also used in smoothing the average
280  * (smoothed = (1/scale)sample + ((scale-1)/scale)smoothed).
281  * With these scales, srtt has 3 bits to the right of the binary point,
282  * and thus an "ALPHA" of 0.875.  rttvar has 2 bits to the right of the
283  * binary point, and is smoothed with an ALPHA of 0.75.
284  */
285 #define TCP_RTT_SCALE           32      /* multiplier for srtt; 3 bits frac. */
286 #define TCP_RTT_SHIFT           5       /* shift for srtt; 3 bits frac. */
287 #define TCP_RTTVAR_SCALE        16      /* multiplier for rttvar; 2 bits */
288 #define TCP_RTTVAR_SHIFT        4       /* shift for rttvar; 2 bits */
289 #define TCP_DELTA_SHIFT         2       /* see tcp_input.c */
290
291 /*
292  * The initial retransmission should happen at rtt + 4 * rttvar.
293  * Because of the way we do the smoothing, srtt and rttvar
294  * will each average +1/2 tick of bias.  When we compute
295  * the retransmit timer, we want 1/2 tick of rounding and
296  * 1 extra tick because of +-1/2 tick uncertainty in the
297  * firing of the timer.  The bias will give us exactly the
298  * 1.5 tick we need.  But, because the bias is
299  * statistical, we have to test that we don't drop below
300  * the minimum feasible timer (which is 2 ticks).
301  * This version of the macro adapted from a paper by Lawrence
302  * Brakmo and Larry Peterson which outlines a problem caused
303  * by insufficient precision in the original implementation,
304  * which results in inappropriately large RTO values for very
305  * fast networks.
306  */
307 #define TCP_REXMTVAL(tp) \
308         max((tp)->t_rttmin, (((tp)->t_srtt >> (TCP_RTT_SHIFT - TCP_DELTA_SHIFT))  \
309           + (tp)->t_rttvar) >> TCP_DELTA_SHIFT)
310
311 /*
312  * TCB structure exported to user-land via sysctl(3).
313  * Evil hack: declare only if in_pcb.h and sys/socketvar.h have been
314  * included.  Not all of our clients do.
315  */
316 #if defined(_NETINET_IN_PCB_H_) && defined(_SYS_SOCKETVAR_H_)
317 struct  xtcpcb {
318         size_t  xt_len;
319         struct  inpcb   xt_inp;
320         struct  tcpcb   xt_tp;
321         struct  xsocket xt_socket;
322         u_quad_t        xt_alignment_hack;
323 };
324 #endif
325
326 /*
327  * Names for TCP sysctl objects
328  */
329 #define TCPCTL_DO_RFC1323       1       /* use RFC-1323 extensions */
330 #define TCPCTL_DO_RFC1644       2       /* use RFC-1644 extensions */
331 #define TCPCTL_MSSDFLT          3       /* MSS default */
332 #define TCPCTL_STATS            4       /* statistics (read-only) */
333 #define TCPCTL_RTTDFLT          5       /* default RTT estimate */
334 #define TCPCTL_KEEPIDLE         6       /* keepalive idle timer */
335 #define TCPCTL_KEEPINTVL        7       /* interval to send keepalives */
336 #define TCPCTL_SENDSPACE        8       /* send buffer space */
337 #define TCPCTL_RECVSPACE        9       /* receive buffer space */
338 #define TCPCTL_KEEPINIT         10      /* timeout for establishing syn */
339 #define TCPCTL_PCBLIST          11      /* list of all outstanding PCBs */
340 #define TCPCTL_DELACKTIME       12      /* time before sending delayed ACK */
341 #define TCPCTL_V6MSSDFLT        13      /* MSS default for IPv6 */
342 #define TCPCTL_MAXID            14
343
344 #define TCPCTL_NAMES { \
345         { 0, 0 }, \
346         { "rfc1323", CTLTYPE_INT }, \
347         { "rfc1644", CTLTYPE_INT }, \
348         { "mssdflt", CTLTYPE_INT }, \
349         { "stats", CTLTYPE_STRUCT }, \
350         { "rttdflt", CTLTYPE_INT }, \
351         { "keepidle", CTLTYPE_INT }, \
352         { "keepintvl", CTLTYPE_INT }, \
353         { "sendspace", CTLTYPE_INT }, \
354         { "recvspace", CTLTYPE_INT }, \
355         { "keepinit", CTLTYPE_INT }, \
356         { "pcblist", CTLTYPE_STRUCT }, \
357         { "delacktime", CTLTYPE_INT }, \
358         { "v6mssdflt", CTLTYPE_INT }, \
359 }
360
361 #ifdef _KERNEL
362 #ifdef SYSCTL_DECL
363 SYSCTL_DECL(_net_inet_tcp);
364 #endif
365
366 extern  struct inpcbinfo tcbinfo[];
367 extern  int tcp_mssdflt;        /* XXX */
368 extern  int tcp_delack_enabled;
369 extern  int tcp_do_newreno;
370 extern  int path_mtu_discovery;
371 extern  int ss_fltsz;
372 extern  int ss_fltsz_local;
373
374 int      tcp_addrcpu(in_addr_t faddr, in_port_t fport,
375             in_addr_t laddr, in_port_t lport);
376 struct lwkt_port *
377         tcp_addrport(in_addr_t faddr, in_port_t fport,
378             in_addr_t laddr, in_port_t lport);
379 void     tcp_canceltimers (struct tcpcb *);
380 struct tcpcb *
381          tcp_close (struct tcpcb *);
382 void     tcp_ctlinput (int, struct sockaddr *, void *);
383 int      tcp_ctloutput (struct socket *, struct sockopt *);
384 struct lwkt_port *
385          tcp_cport(int cpu);
386 struct tcpcb *
387          tcp_drop (struct tcpcb *, int);
388 void     tcp_drain (void);
389 void     tcp_fasttimo (void);
390 struct rmxp_tao *
391          tcp_gettaocache (struct in_conninfo *);
392 void     tcp_init (void);
393 void     tcp_thread_init (void);
394 void     tcp_input (struct mbuf *, int, int);
395 void     tcp_mss (struct tcpcb *, int);
396 int      tcp_mssopt (struct tcpcb *);
397 void     tcp_drop_syn_sent (struct inpcb *, int);
398 void     tcp_mtudisc (struct inpcb *, int);
399 struct tcpcb *
400          tcp_newtcpcb (struct inpcb *);
401 int      tcp_output (struct tcpcb *);
402 void     tcp_quench (struct inpcb *, int);
403 void     tcp_respond (struct tcpcb *, void *,
404             struct tcphdr *, struct mbuf *, tcp_seq, tcp_seq, int);
405 struct rtentry *
406          tcp_rtlookup (struct in_conninfo *);
407 void     tcp_save_congestion_state(struct tcpcb *tp);
408 void     tcp_revert_congestion_state(struct tcpcb *tp);
409 void     tcp_setpersist (struct tcpcb *);
410 void     tcp_slowtimo (void);
411 struct tcptemp *
412          tcp_maketemplate (struct tcpcb *);
413 void     tcp_fillheaders (struct tcpcb *, void *, void *);
414 struct lwkt_port *
415          tcp_soport(struct socket *, struct sockaddr *nam);
416 struct tcpcb *
417          tcp_timers (struct tcpcb *, int);
418 void     tcp_trace (int, int, struct tcpcb *, void *, struct tcphdr *,
419                         int);
420 void     tcp_xmit_bandwidth_limit(struct tcpcb *tp, tcp_seq ack_seq);
421 void     syncache_init(void);
422 void     syncache_unreach(struct in_conninfo *, struct tcphdr *);
423 int      syncache_expand(struct in_conninfo *, struct tcphdr *,
424              struct socket **, struct mbuf *);
425 int      syncache_add(struct in_conninfo *, struct tcpopt *,
426              struct tcphdr *, struct socket **, struct mbuf *);
427 void     syncache_chkrst(struct in_conninfo *, struct tcphdr *);
428 void     syncache_badack(struct in_conninfo *);
429
430 extern  struct pr_usrreqs tcp_usrreqs;
431 extern  u_long tcp_sendspace;
432 extern  u_long tcp_recvspace;
433 tcp_seq tcp_new_isn (struct tcpcb *);
434
435 #endif /* _KERNEL */
436
437 #endif /* _NETINET_TCP_VAR_H_ */