ifsubque: Cut ties with ifqueue
[dragonfly.git] / sys / net / altq / altq_fairq.c
1 /*
2  * Copyright (c) 2008 The DragonFly Project.  All rights reserved.
3  * 
4  * This code is derived from software contributed to The DragonFly Project
5  * by Matthew Dillon <dillon@backplane.com>
6  * 
7  * Redistribution and use in source and binary forms, with or without
8  * modification, are permitted provided that the following conditions
9  * are met:
10  * 
11  * 1. Redistributions of source code must retain the above copyright
12  *    notice, this list of conditions and the following disclaimer.
13  * 2. Redistributions in binary form must reproduce the above copyright
14  *    notice, this list of conditions and the following disclaimer in
15  *    the documentation and/or other materials provided with the
16  *    distribution.
17  * 3. Neither the name of The DragonFly Project nor the names of its
18  *    contributors may be used to endorse or promote products derived
19  *    from this software without specific, prior written permission.
20  * 
21  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
22  * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
23  * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
24  * FOR A PARTICULAR PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE
25  * COPYRIGHT HOLDERS OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
26  * INCIDENTAL, SPECIAL, EXEMPLARY OR CONSEQUENTIAL DAMAGES (INCLUDING,
27  * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
28  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
29  * AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
30  * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT
31  * OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
32  * SUCH DAMAGE.
33  * 
34  * $DragonFly: src/sys/net/altq/altq_fairq.c,v 1.2 2008/05/14 11:59:23 sephe Exp $
35  */
36 /*
37  * Matt: I gutted altq_priq.c and used it as a skeleton on which to build
38  * fairq.  The fairq algorithm is completely different then priq, of course,
39  * but because I used priq's skeleton I believe I should include priq's
40  * copyright.
41  *
42  * Copyright (C) 2000-2003
43  *      Sony Computer Science Laboratories Inc.  All rights reserved.
44  *
45  * Redistribution and use in source and binary forms, with or without
46  * modification, are permitted provided that the following conditions
47  * are met:
48  * 1. Redistributions of source code must retain the above copyright
49  *    notice, this list of conditions and the following disclaimer.
50  * 2. Redistributions in binary form must reproduce the above copyright
51  *    notice, this list of conditions and the following disclaimer in the
52  *    documentation and/or other materials provided with the distribution.
53  *
54  * THIS SOFTWARE IS PROVIDED BY SONY CSL AND CONTRIBUTORS ``AS IS'' AND
55  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
56  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
57  * ARE DISCLAIMED.  IN NO EVENT SHALL SONY CSL OR CONTRIBUTORS BE LIABLE
58  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
59  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
60  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
61  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
62  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
63  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
64  * SUCH DAMAGE.
65  */
66
67 /*
68  * FAIRQ - take traffic classified by keep state (hashed into
69  *         pf->state_hash) and bucketize it.  Fairly extract
70  *         the first packet from each bucket in a round-robin fashion.
71  *
72  * TODO - better overall qlimit support (right now it is per-bucket).
73  *      - NOTE: red etc is per bucket, not overall.
74  *      - better service curve support.
75  *
76  * EXAMPLE:
77  *
78  *  altq on em0 fairq bandwidth 650Kb queue { std, bulk }
79  *  queue std  priority 3 bandwidth 200Kb \
80  *      fairq (buckets 64, default, hogs 1Kb) qlimit 50
81  *  queue bulk priority 2 bandwidth 100Kb \
82  *      fairq (buckets 64, hogs 1Kb) qlimit 50
83  *
84  *      NOTE: When the aggregate bandwidth is less than the link bandwidth
85  *            any remaining bandwidth is dynamically assigned using the
86  *            existing bandwidth specs as weightings.
87  *
88  *  pass out on em0 from any to any keep state queue std
89  *  pass out on em0 inet proto tcp ..... port ... keep state queue bulk
90  */
91 #include "opt_altq.h"
92 #include "opt_inet.h"
93 #include "opt_inet6.h"
94
95 #ifdef ALTQ_FAIRQ  /* fairq is enabled in the kernel conf */
96
97 #include <sys/param.h>
98 #include <sys/malloc.h>
99 #include <sys/mbuf.h>
100 #include <sys/socket.h>
101 #include <sys/sockio.h>
102 #include <sys/systm.h>
103 #include <sys/proc.h>
104 #include <sys/errno.h>
105 #include <sys/kernel.h>
106 #include <sys/queue.h>
107 #include <sys/thread.h>
108
109 #include <net/if.h>
110 #include <net/ifq_var.h>
111 #include <netinet/in.h>
112
113 #include <net/pf/pfvar.h>
114 #include <net/altq/altq.h>
115 #include <net/altq/altq_fairq.h>
116
117 #include <sys/thread2.h>
118
119 #define FAIRQ_SUBQ_INDEX        ALTQ_SUBQ_INDEX_DEFAULT
120 #define FAIRQ_LOCK(ifq) \
121     ALTQ_SQ_LOCK(&(ifq)->altq_subq[FAIRQ_SUBQ_INDEX])
122 #define FAIRQ_UNLOCK(ifq) \
123     ALTQ_SQ_UNLOCK(&(ifq)->altq_subq[FAIRQ_SUBQ_INDEX])
124
125 /*
126  * function prototypes
127  */
128 static int      fairq_clear_interface(struct fairq_if *);
129 static int      fairq_request(struct ifaltq_subque *, int, void *);
130 static void     fairq_purge(struct fairq_if *);
131 static struct fairq_class *fairq_class_create(struct fairq_if *, int,
132                                         int, u_int, struct fairq_opts *, int);
133 static int      fairq_class_destroy(struct fairq_class *);
134 static int      fairq_enqueue(struct ifaltq_subque *, struct mbuf *,
135                                         struct altq_pktattr *);
136 static struct mbuf *fairq_dequeue(struct ifaltq_subque *, int);
137
138 static int      fairq_addq(struct fairq_class *, struct mbuf *, int hash);
139 static struct mbuf *fairq_getq(struct fairq_class *, uint64_t);
140 static struct mbuf *fairq_pollq(struct fairq_class *, uint64_t, int *);
141 static fairq_bucket_t *fairq_selectq(struct fairq_class *, int);
142 static void     fairq_purgeq(struct fairq_class *);
143
144 static void     get_class_stats(struct fairq_classstats *,
145                                         struct fairq_class *);
146 static struct fairq_class *clh_to_clp(struct fairq_if *, uint32_t);
147
148 int
149 fairq_pfattach(struct pf_altq *a, struct ifaltq *ifq)
150 {
151         return altq_attach(ifq, ALTQT_FAIRQ, a->altq_disc, ifq_mapsubq_default,
152             fairq_enqueue, fairq_dequeue, fairq_request, NULL, NULL);
153 }
154
155 int
156 fairq_add_altq(struct pf_altq *a)
157 {
158         struct fairq_if *pif;
159         struct ifnet *ifp;
160
161         if ((ifp = ifunit(a->ifname)) == NULL)
162                 return (EINVAL);
163         if (!ifq_is_ready(&ifp->if_snd))
164                 return (ENODEV);
165
166         pif = kmalloc(sizeof(*pif), M_ALTQ, M_WAITOK | M_ZERO);
167         pif->pif_bandwidth = a->ifbandwidth;
168         pif->pif_maxpri = -1;
169         pif->pif_ifq = &ifp->if_snd;
170         ifq_purge_all(&ifp->if_snd);
171
172         /* keep the state in pf_altq */
173         a->altq_disc = pif;
174
175         return (0);
176 }
177
178 int
179 fairq_remove_altq(struct pf_altq *a)
180 {
181         struct fairq_if *pif;
182
183         if ((pif = a->altq_disc) == NULL)
184                 return (EINVAL);
185         a->altq_disc = NULL;
186
187         fairq_clear_interface(pif);
188
189         kfree(pif, M_ALTQ);
190         return (0);
191 }
192
193 static int
194 fairq_add_queue_locked(struct pf_altq *a, struct fairq_if *pif)
195 {
196         struct fairq_class *cl;
197
198         KKASSERT(a->priority < FAIRQ_MAXPRI);
199         KKASSERT(a->qid != 0);
200
201         if (pif->pif_classes[a->priority] != NULL)
202                 return (EBUSY);
203         if (clh_to_clp(pif, a->qid) != NULL)
204                 return (EBUSY);
205
206         cl = fairq_class_create(pif, a->priority, a->qlimit, a->bandwidth,
207                                &a->pq_u.fairq_opts, a->qid);
208         if (cl == NULL)
209                 return (ENOMEM);
210
211         return (0);
212 }
213
214 int
215 fairq_add_queue(struct pf_altq *a)
216 {
217         struct fairq_if *pif;
218         struct ifaltq *ifq;
219         int error;
220
221         /* check parameters */
222         if (a->priority >= FAIRQ_MAXPRI)
223                 return (EINVAL);
224         if (a->qid == 0)
225                 return (EINVAL);
226
227         /* XXX not MP safe */
228         if ((pif = a->altq_disc) == NULL)
229                 return (EINVAL);
230         ifq = pif->pif_ifq;
231
232         FAIRQ_LOCK(ifq);
233         error = fairq_add_queue_locked(a, pif);
234         FAIRQ_UNLOCK(ifq);
235
236         return error;
237 }
238
239 static int
240 fairq_remove_queue_locked(struct pf_altq *a, struct fairq_if *pif)
241 {
242         struct fairq_class *cl;
243
244         if ((cl = clh_to_clp(pif, a->qid)) == NULL)
245                 return (EINVAL);
246
247         return (fairq_class_destroy(cl));
248 }
249
250 int
251 fairq_remove_queue(struct pf_altq *a)
252 {
253         struct fairq_if *pif;
254         struct ifaltq *ifq;
255         int error;
256
257         /* XXX not MP safe */
258         if ((pif = a->altq_disc) == NULL)
259                 return (EINVAL);
260         ifq = pif->pif_ifq;
261
262         FAIRQ_LOCK(ifq);
263         error = fairq_remove_queue_locked(a, pif);
264         FAIRQ_UNLOCK(ifq);
265
266         return error;
267 }
268
269 int
270 fairq_getqstats(struct pf_altq *a, void *ubuf, int *nbytes)
271 {
272         struct fairq_if *pif;
273         struct fairq_class *cl;
274         struct fairq_classstats stats;
275         struct ifaltq *ifq;
276         int error = 0;
277
278         if (*nbytes < sizeof(stats))
279                 return (EINVAL);
280
281         /* XXX not MP safe */
282         if ((pif = altq_lookup(a->ifname, ALTQT_FAIRQ)) == NULL)
283                 return (EBADF);
284         ifq = pif->pif_ifq;
285
286         FAIRQ_LOCK(ifq);
287
288         if ((cl = clh_to_clp(pif, a->qid)) == NULL) {
289                 FAIRQ_UNLOCK(ifq);
290                 return (EINVAL);
291         }
292
293         get_class_stats(&stats, cl);
294
295         FAIRQ_UNLOCK(ifq);
296
297         if ((error = copyout((caddr_t)&stats, ubuf, sizeof(stats))) != 0)
298                 return (error);
299         *nbytes = sizeof(stats);
300         return (0);
301 }
302
303 /*
304  * bring the interface back to the initial state by discarding
305  * all the filters and classes.
306  */
307 static int
308 fairq_clear_interface(struct fairq_if *pif)
309 {
310         struct fairq_class *cl;
311         int pri;
312
313         /* clear out the classes */
314         for (pri = 0; pri <= pif->pif_maxpri; pri++) {
315                 if ((cl = pif->pif_classes[pri]) != NULL)
316                         fairq_class_destroy(cl);
317         }
318
319         return (0);
320 }
321
322 static int
323 fairq_request(struct ifaltq_subque *ifsq, int req, void *arg)
324 {
325         struct ifaltq *ifq = ifsq->ifsq_altq;
326         struct fairq_if *pif = (struct fairq_if *)ifq->altq_disc;
327
328         crit_enter();
329         switch (req) {
330         case ALTRQ_PURGE:
331                 if (ifsq_get_index(ifsq) == FAIRQ_SUBQ_INDEX) {
332                         fairq_purge(pif);
333                 } else {
334                         /*
335                          * Race happened, the unrelated subqueue was
336                          * picked during the packet scheduler transition.
337                          */
338                         ifsq_classic_request(ifsq, ALTRQ_PURGE, NULL);
339                 }
340                 break;
341         }
342         crit_exit();
343         return (0);
344 }
345
346 /* discard all the queued packets on the interface */
347 static void
348 fairq_purge(struct fairq_if *pif)
349 {
350         struct fairq_class *cl;
351         int pri;
352
353         for (pri = 0; pri <= pif->pif_maxpri; pri++) {
354                 if ((cl = pif->pif_classes[pri]) != NULL && cl->cl_head)
355                         fairq_purgeq(cl);
356         }
357         if (ifq_is_enabled(pif->pif_ifq))
358                 pif->pif_ifq->altq_subq[FAIRQ_SUBQ_INDEX].ifsq_len = 0;
359 }
360
361 static struct fairq_class *
362 fairq_class_create(struct fairq_if *pif, int pri, int qlimit,
363                    u_int bandwidth, struct fairq_opts *opts, int qid)
364 {
365         struct fairq_class *cl;
366         int flags = opts->flags;
367         u_int nbuckets = opts->nbuckets;
368         int i;
369
370 #ifndef ALTQ_RED
371         if (flags & FARF_RED) {
372 #ifdef ALTQ_DEBUG
373                 kprintf("fairq_class_create: RED not configured for FAIRQ!\n");
374 #endif
375                 return (NULL);
376         }
377 #endif
378         if (nbuckets == 0)
379                 nbuckets = 256;
380         if (nbuckets > FAIRQ_MAX_BUCKETS)
381                 nbuckets = FAIRQ_MAX_BUCKETS;
382         /* enforce power-of-2 size */
383         while ((nbuckets ^ (nbuckets - 1)) != ((nbuckets << 1) - 1))
384                 ++nbuckets;
385
386         if ((cl = pif->pif_classes[pri]) != NULL) {
387                 /* modify the class instead of creating a new one */
388                 crit_enter();
389                 if (cl->cl_head)
390                         fairq_purgeq(cl);
391                 crit_exit();
392 #ifdef ALTQ_RIO
393                 if (cl->cl_qtype == Q_RIO)
394                         rio_destroy((rio_t *)cl->cl_red);
395 #endif
396 #ifdef ALTQ_RED
397                 if (cl->cl_qtype == Q_RED)
398                         red_destroy(cl->cl_red);
399 #endif
400         } else {
401                 cl = kmalloc(sizeof(*cl), M_ALTQ, M_WAITOK | M_ZERO);
402                 cl->cl_nbuckets = nbuckets;
403                 cl->cl_nbucket_mask = nbuckets - 1;
404
405                 cl->cl_buckets = kmalloc(sizeof(*cl->cl_buckets) *
406                                          cl->cl_nbuckets,
407                                          M_ALTQ, M_WAITOK | M_ZERO);
408                 cl->cl_head = NULL;
409         }
410
411         pif->pif_classes[pri] = cl;
412         if (flags & FARF_DEFAULTCLASS)
413                 pif->pif_default = cl;
414         if (qlimit == 0)
415                 qlimit = 50;  /* use default */
416         cl->cl_qlimit = qlimit;
417         for (i = 0; i < cl->cl_nbuckets; ++i) {
418                 qlimit(&cl->cl_buckets[i].queue) = qlimit;
419         }
420         cl->cl_bandwidth = bandwidth / 8;       /* cvt to bytes per second */
421         cl->cl_qtype = Q_DROPTAIL;
422         cl->cl_flags = flags & FARF_USERFLAGS;
423         cl->cl_pri = pri;
424         if (pri > pif->pif_maxpri)
425                 pif->pif_maxpri = pri;
426         cl->cl_pif = pif;
427         cl->cl_handle = qid;
428         cl->cl_hogs_m1 = opts->hogs_m1 / 8;
429         cl->cl_lssc_m1 = opts->lssc_m1 / 8;     /* NOT YET USED */
430         cl->cl_bw_current = 0;
431
432 #ifdef ALTQ_RED
433         if (flags & (FARF_RED|FARF_RIO)) {
434                 int red_flags, red_pkttime;
435
436                 red_flags = 0;
437                 if (flags & FARF_ECN)
438                         red_flags |= REDF_ECN;
439 #ifdef ALTQ_RIO
440                 if (flags & FARF_CLEARDSCP)
441                         red_flags |= RIOF_CLEARDSCP;
442 #endif
443                 if (pif->pif_bandwidth < 8)
444                         red_pkttime = 1000 * 1000 * 1000; /* 1 sec */
445                 else
446                         red_pkttime = (int64_t)pif->pif_ifq->altq_ifp->if_mtu
447                           * 1000 * 1000 * 1000 / (pif->pif_bandwidth / 8);
448 #ifdef ALTQ_RIO
449                 if (flags & FARF_RIO) {
450                         cl->cl_red = (red_t *)rio_alloc(0, NULL,
451                                                 red_flags, red_pkttime);
452                         if (cl->cl_red != NULL)
453                                 cl->cl_qtype = Q_RIO;
454                 } else
455 #endif
456                 if (flags & FARF_RED) {
457                         cl->cl_red = red_alloc(0, 0,
458                             cl->cl_qlimit * 10/100,
459                             cl->cl_qlimit * 30/100,
460                             red_flags, red_pkttime);
461                         if (cl->cl_red != NULL)
462                                 cl->cl_qtype = Q_RED;
463                 }
464         }
465 #endif /* ALTQ_RED */
466
467         return (cl);
468 }
469
470 static int
471 fairq_class_destroy(struct fairq_class *cl)
472 {
473         struct fairq_if *pif;
474         int pri;
475
476         crit_enter();
477
478         if (cl->cl_head)
479                 fairq_purgeq(cl);
480
481         pif = cl->cl_pif;
482         pif->pif_classes[cl->cl_pri] = NULL;
483         if (pif->pif_poll_cache == cl)
484                 pif->pif_poll_cache = NULL;
485         if (pif->pif_maxpri == cl->cl_pri) {
486                 for (pri = cl->cl_pri; pri >= 0; pri--)
487                         if (pif->pif_classes[pri] != NULL) {
488                                 pif->pif_maxpri = pri;
489                                 break;
490                         }
491                 if (pri < 0)
492                         pif->pif_maxpri = -1;
493         }
494         crit_exit();
495
496         if (cl->cl_red != NULL) {
497 #ifdef ALTQ_RIO
498                 if (cl->cl_qtype == Q_RIO)
499                         rio_destroy((rio_t *)cl->cl_red);
500 #endif
501 #ifdef ALTQ_RED
502                 if (cl->cl_qtype == Q_RED)
503                         red_destroy(cl->cl_red);
504 #endif
505         }
506         kfree(cl->cl_buckets, M_ALTQ);
507         cl->cl_head = NULL;     /* sanity */
508         cl->cl_polled = NULL;   /* sanity */
509         cl->cl_buckets = NULL;  /* sanity */
510         kfree(cl, M_ALTQ);
511
512         return (0);
513 }
514
515 /*
516  * fairq_enqueue is an enqueue function to be registered to
517  * (*altq_enqueue) in struct ifaltq.
518  */
519 static int
520 fairq_enqueue(struct ifaltq_subque *ifsq, struct mbuf *m,
521     struct altq_pktattr *pktattr)
522 {
523         struct ifaltq *ifq = ifsq->ifsq_altq;
524         struct fairq_if *pif = (struct fairq_if *)ifq->altq_disc;
525         struct fairq_class *cl;
526         int error;
527         int len;
528         int hash;
529
530         if (ifsq_get_index(ifsq) != FAIRQ_SUBQ_INDEX) {
531                 /*
532                  * Race happened, the unrelated subqueue was
533                  * picked during the packet scheduler transition.
534                  */
535                 ifsq_classic_request(ifsq, ALTRQ_PURGE, NULL);
536                 m_freem(m);
537                 return ENOBUFS;
538         }
539
540         crit_enter();
541
542         /* grab class set by classifier */
543         if ((m->m_flags & M_PKTHDR) == 0) {
544                 /* should not happen */
545                 if_printf(ifq->altq_ifp, "altq: packet does not have pkthdr\n");
546                 m_freem(m);
547                 error = ENOBUFS;
548                 goto done;
549         }
550
551         if (m->m_pkthdr.fw_flags & PF_MBUF_STRUCTURE) {
552                 cl = clh_to_clp(pif, m->m_pkthdr.pf.qid);
553                 if (m->m_pkthdr.pf.flags & PF_TAG_STATE_HASHED)
554                         hash = (int)m->m_pkthdr.pf.state_hash;
555                 else
556                         hash = 0;
557         } else {
558                 cl = NULL;
559                 hash = 0;
560         }
561         if (cl == NULL) {
562                 cl = pif->pif_default;
563                 if (cl == NULL) {
564                         m_freem(m);
565                         error = ENOBUFS;
566                         goto done;
567                 }
568         }
569         cl->cl_flags |= FARF_HAS_PACKETS;
570         cl->cl_pktattr = NULL;
571         len = m_pktlen(m);
572         if (fairq_addq(cl, m, hash) != 0) {
573                 /* drop occurred.  mbuf was freed in fairq_addq. */
574                 PKTCNTR_ADD(&cl->cl_dropcnt, len);
575                 error = ENOBUFS;
576                 goto done;
577         }
578         ifsq->ifsq_len++;
579         error = 0;
580 done:
581         crit_exit();
582         return (error);
583 }
584
585 /*
586  * fairq_dequeue is a dequeue function to be registered to
587  * (*altq_dequeue) in struct ifaltq.
588  *
589  * note: ALTDQ_POLL returns the next packet without removing the packet
590  *      from the queue.  ALTDQ_REMOVE is a normal dequeue operation.
591  */
592 static struct mbuf *
593 fairq_dequeue(struct ifaltq_subque *ifsq, int op)
594 {
595         struct ifaltq *ifq = ifsq->ifsq_altq;
596         struct fairq_if *pif = (struct fairq_if *)ifq->altq_disc;
597         struct fairq_class *cl;
598         struct fairq_class *best_cl;
599         struct mbuf *best_m;
600         struct mbuf *m;
601         uint64_t cur_time = read_machclk();
602         u_int best_scale;
603         u_int scale;
604         int pri;
605         int hit_limit;
606
607         if (ifsq_get_index(ifsq) != FAIRQ_SUBQ_INDEX) {
608                 /*
609                  * Race happened, the unrelated subqueue was
610                  * picked during the packet scheduler transition.
611                  */
612                 ifsq_classic_request(ifsq, ALTRQ_PURGE, NULL);
613                 return NULL;
614         }
615
616         if (ifsq_is_empty(ifsq)) {
617                 /* no packet in the queue */
618                 return (NULL);
619         }
620
621         crit_enter();
622         if (pif->pif_poll_cache && op == ALTDQ_REMOVE) {
623                 best_cl = pif->pif_poll_cache;
624                 m = fairq_getq(best_cl, cur_time);
625                 pif->pif_poll_cache = NULL;
626                 if (m) {
627                         ifsq->ifsq_len--;
628                         PKTCNTR_ADD(&best_cl->cl_xmitcnt, m_pktlen(m));
629                 }
630         } else {
631                 best_cl = NULL;
632                 best_m = NULL;
633                 best_scale = 0xFFFFFFFFU;
634
635                 for (pri = pif->pif_maxpri;  pri >= 0; pri--) {
636                         if ((cl = pif->pif_classes[pri]) == NULL)
637                                 continue;
638                         if ((cl->cl_flags & FARF_HAS_PACKETS) == 0)
639                                 continue;
640                         m = fairq_pollq(cl, cur_time, &hit_limit);
641                         if (m == NULL) {
642                                 cl->cl_flags &= ~FARF_HAS_PACKETS;
643                                 continue;
644                         }
645
646                         /*
647                          * We can halt the search immediately if the queue
648                          * did not hit its bandwidth limit.
649                          */
650                         if (hit_limit == 0) {
651                                 best_cl = cl;
652                                 best_m = m;
653                                 break;
654                         }
655
656                         /*
657                          * Otherwise calculate the scale factor and select
658                          * the queue with the lowest scale factor.  This
659                          * apportions any unused bandwidth weighted by
660                          * the relative bandwidth specification.
661                          */
662                         scale = cl->cl_bw_current * 100 / cl->cl_bandwidth;
663                         if (scale < best_scale) {
664                                 best_cl = cl;
665                                 best_m = m;
666                                 best_scale = scale;
667                         }
668                 }
669
670                 if (op == ALTDQ_POLL) {
671 #ifdef foo
672                         /*
673                          * Don't use poll cache; the poll/dequeue
674                          * model is no longer applicable to SMP
675                          * system.  e.g.
676                          *    CPU-A            CPU-B
677                          *      :                :
678                          *    poll               :
679                          *      :              poll
680                          *    dequeue (+)        :
681                          *
682                          * The dequeue at (+) will hit the poll
683                          * cache set by CPU-B.
684                          */
685                         pif->pif_poll_cache = best_cl;
686 #endif
687                         m = best_m;
688                 } else if (best_cl) {
689                         m = fairq_getq(best_cl, cur_time);
690                         KKASSERT(best_m == m);
691                         ifsq->ifsq_len--;
692                         PKTCNTR_ADD(&best_cl->cl_xmitcnt, m_pktlen(m));
693                 } else {
694                         m = NULL;
695                 }
696         }
697         crit_exit();
698         return (m);
699 }
700
701 static int
702 fairq_addq(struct fairq_class *cl, struct mbuf *m, int hash)
703 {
704         fairq_bucket_t *b;
705         u_int hindex;
706         uint64_t bw;
707
708         /*
709          * If the packet doesn't have any keep state put it on the end of
710          * our queue.  XXX this can result in out of order delivery.
711          */
712         if (hash == 0) {
713                 if (cl->cl_head)
714                         b = cl->cl_head->prev;
715                 else
716                         b = &cl->cl_buckets[0];
717         } else {
718                 hindex = hash & cl->cl_nbucket_mask;
719                 b = &cl->cl_buckets[hindex];
720         }
721
722         /*
723          * Add the bucket to the end of the circular list of active buckets.
724          *
725          * As a special case we add the bucket to the beginning of the list
726          * instead of the end if it was not previously on the list and if
727          * its traffic is less then the hog level.
728          */
729         if (b->in_use == 0) {
730                 b->in_use = 1;
731                 if (cl->cl_head == NULL) {
732                         cl->cl_head = b;
733                         b->next = b;
734                         b->prev = b;
735                 } else {
736                         b->next = cl->cl_head;
737                         b->prev = cl->cl_head->prev;
738                         b->prev->next = b;
739                         b->next->prev = b;
740
741                         if (b->bw_delta && cl->cl_hogs_m1) {
742                                 bw = b->bw_bytes * machclk_freq / b->bw_delta;
743                                 if (bw < cl->cl_hogs_m1)
744                                         cl->cl_head = b;
745                         }
746                 }
747         }
748
749 #ifdef ALTQ_RIO
750         if (cl->cl_qtype == Q_RIO)
751                 return rio_addq((rio_t *)cl->cl_red, &b->queue, m, cl->cl_pktattr);
752 #endif
753 #ifdef ALTQ_RED
754         if (cl->cl_qtype == Q_RED)
755                 return red_addq(cl->cl_red, &b->queue, m, cl->cl_pktattr);
756 #endif
757         if (qlen(&b->queue) >= qlimit(&b->queue)) {
758                 m_freem(m);
759                 return (-1);
760         }
761
762         if (cl->cl_flags & FARF_CLEARDSCP)
763                 write_dsfield(m, cl->cl_pktattr, 0);
764
765         _addq(&b->queue, m);
766
767         return (0);
768 }
769
770 static struct mbuf *
771 fairq_getq(struct fairq_class *cl, uint64_t cur_time)
772 {
773         fairq_bucket_t *b;
774         struct mbuf *m;
775
776         b = fairq_selectq(cl, 0);
777         if (b == NULL)
778                 m = NULL;
779 #ifdef ALTQ_RIO
780         else if (cl->cl_qtype == Q_RIO)
781                 m = rio_getq((rio_t *)cl->cl_red, &b->queue);
782 #endif
783 #ifdef ALTQ_RED
784         else if (cl->cl_qtype == Q_RED)
785                 m = red_getq(cl->cl_red, &b->queue);
786 #endif
787         else
788                 m = _getq(&b->queue);
789
790         /*
791          * Calculate the BW change
792          */
793         if (m != NULL) {
794                 uint64_t delta;
795
796                 /*
797                  * Per-class bandwidth calculation
798                  */
799                 delta = (cur_time - cl->cl_last_time);
800                 if (delta > machclk_freq * 8)
801                         delta = machclk_freq * 8;
802                 cl->cl_bw_delta += delta;
803                 cl->cl_bw_bytes += m->m_pkthdr.len;
804                 cl->cl_last_time = cur_time;
805                 if (cl->cl_bw_delta > machclk_freq) {
806                         cl->cl_bw_delta -= cl->cl_bw_delta >> 2;
807                         cl->cl_bw_bytes -= cl->cl_bw_bytes >> 2;
808                 }
809
810                 /*
811                  * Per-bucket bandwidth calculation
812                  */
813                 delta = (cur_time - b->last_time);
814                 if (delta > machclk_freq * 8)
815                         delta = machclk_freq * 8;
816                 b->bw_delta += delta;
817                 b->bw_bytes += m->m_pkthdr.len;
818                 b->last_time = cur_time;
819                 if (b->bw_delta > machclk_freq) {
820                         b->bw_delta -= b->bw_delta >> 2;
821                         b->bw_bytes -= b->bw_bytes >> 2;
822                 }
823         }
824         return(m);
825 }
826
827 /*
828  * Figure out what the next packet would be if there were no limits.  If
829  * this class hits its bandwidth limit *hit_limit is set to no-zero, otherwise
830  * it is set to 0.  A non-NULL mbuf is returned either way.
831  */
832 static struct mbuf *
833 fairq_pollq(struct fairq_class *cl, uint64_t cur_time, int *hit_limit)
834 {
835         fairq_bucket_t *b;
836         struct mbuf *m;
837         uint64_t delta;
838         uint64_t bw;
839
840         *hit_limit = 0;
841         b = fairq_selectq(cl, 1);
842         if (b == NULL)
843                 return(NULL);
844         m = qhead(&b->queue);
845
846         /*
847          * Did this packet exceed the class bandwidth?  Calculate the
848          * bandwidth component of the packet.
849          *
850          * - Calculate bytes per second
851          */
852         delta = cur_time - cl->cl_last_time;
853         if (delta > machclk_freq * 8)
854                 delta = machclk_freq * 8;
855         cl->cl_bw_delta += delta;
856         cl->cl_last_time = cur_time;
857         if (cl->cl_bw_delta) {
858                 bw = cl->cl_bw_bytes * machclk_freq / cl->cl_bw_delta;
859
860                 if (bw > cl->cl_bandwidth)
861                         *hit_limit = 1;
862                 cl->cl_bw_current = bw;
863 #if 0
864                 kprintf("BW %6lld relative to %6u %d queue %p\n",
865                         bw, cl->cl_bandwidth, *hit_limit, b);
866 #endif
867         }
868         return(m);
869 }
870
871 /*
872  * Locate the next queue we want to pull a packet out of.  This code
873  * is also responsible for removing empty buckets from the circular list.
874  */
875 static
876 fairq_bucket_t *
877 fairq_selectq(struct fairq_class *cl, int ispoll)
878 {
879         fairq_bucket_t *b;
880         uint64_t bw;
881
882         if (ispoll == 0 && cl->cl_polled) {
883                 b = cl->cl_polled;
884                 cl->cl_polled = NULL;
885                 return(b);
886         }
887
888         while ((b = cl->cl_head) != NULL) {
889                 /*
890                  * Remove empty queues from consideration
891                  */
892                 if (qempty(&b->queue)) {
893                         b->in_use = 0;
894                         cl->cl_head = b->next;
895                         if (cl->cl_head == b) {
896                                 cl->cl_head = NULL;
897                         } else {
898                                 b->next->prev = b->prev;
899                                 b->prev->next = b->next;
900                         }
901                         continue;
902                 }
903
904                 /*
905                  * Advance the round robin.  Queues with bandwidths less
906                  * then the hog bandwidth are allowed to burst.
907                  */
908                 if (cl->cl_hogs_m1 == 0) {
909                         cl->cl_head = b->next;
910                 } else if (b->bw_delta) {
911                         bw = b->bw_bytes * machclk_freq / b->bw_delta;
912                         if (bw >= cl->cl_hogs_m1) {
913                                 cl->cl_head = b->next;
914                         }
915                         /*
916                          * XXX TODO - 
917                          */
918                 }
919
920                 /*
921                  * Return bucket b.
922                  */
923                 break;
924         }
925         if (ispoll)
926                 cl->cl_polled = b;
927         return(b);
928 }
929
930 static void
931 fairq_purgeq(struct fairq_class *cl)
932 {
933         fairq_bucket_t *b;
934         struct mbuf *m;
935
936         while ((b = fairq_selectq(cl, 0)) != NULL) {
937                 while ((m = _getq(&b->queue)) != NULL) {
938                         PKTCNTR_ADD(&cl->cl_dropcnt, m_pktlen(m));
939                         m_freem(m);
940                 }
941                 KKASSERT(qlen(&b->queue) == 0);
942         }
943 }
944
945 static void
946 get_class_stats(struct fairq_classstats *sp, struct fairq_class *cl)
947 {
948         fairq_bucket_t *b;
949
950         sp->class_handle = cl->cl_handle;
951         sp->qlimit = cl->cl_qlimit;
952         sp->xmit_cnt = cl->cl_xmitcnt;
953         sp->drop_cnt = cl->cl_dropcnt;
954         sp->qtype = cl->cl_qtype;
955         sp->qlength = 0;
956
957         if (cl->cl_head) {
958                 b = cl->cl_head;
959                 do {
960                         sp->qlength += qlen(&b->queue);
961                         b = b->next;
962                 } while (b != cl->cl_head);
963         }
964
965 #ifdef ALTQ_RED
966         if (cl->cl_qtype == Q_RED)
967                 red_getstats(cl->cl_red, &sp->red[0]);
968 #endif
969 #ifdef ALTQ_RIO
970         if (cl->cl_qtype == Q_RIO)
971                 rio_getstats((rio_t *)cl->cl_red, &sp->red[0]);
972 #endif
973 }
974
975 /* convert a class handle to the corresponding class pointer */
976 static struct fairq_class *
977 clh_to_clp(struct fairq_if *pif, uint32_t chandle)
978 {
979         struct fairq_class *cl;
980         int idx;
981
982         if (chandle == 0)
983                 return (NULL);
984
985         for (idx = pif->pif_maxpri; idx >= 0; idx--)
986                 if ((cl = pif->pif_classes[idx]) != NULL &&
987                     cl->cl_handle == chandle)
988                         return (cl);
989
990         return (NULL);
991 }
992
993 #endif /* ALTQ_FAIRQ */