(no commit message)
[ikiwiki.git] / docs / developer / gsocprojectspage / index.mdwn
1 [[!meta title="Google Summer of Code Project List"]]
2
3 [[!toc levels=0]]
4
5 Have a look at our SoC pages from [[2008|docs/developer/GoogleSoC2008/]], [[2009|docs/developer/gsoc2009]] and [[2010|docs/developer/gsoc2010]] to get an overview about prior year's projects.
6
7 For more details on Google's Summer of Code: [Google's SoC page](http://socghop.appspot.com/)
8
9 Note to prospective students: These project proposals are meant to be a first approximation; we're looking forward to your own suggestions (even for completely new directions) and will try to integrate your ideas to make the GSoC project more interesting to all parties. Even when a proposal is very specific about the goals that must be achieved and the path that should be taken, these are always negotiable. Keep in mind that we have tried to limit the proposals on this page to those that (based on our past experience) are appropriate for the GSoC program. This is by no means a comprehensive list, original ideas or proposals based on project ideas found on other pages are very welcome.
10
11 Note to everyone else: These proposals are by no means Summer of Code specific, anyone is welcome and encouraged to adopt any of these projects at any time (just please let us know, or make a note on this page).
12
13 Legend:
14
15 * Prerequisites: knowledge that the student should have before starting the project. It may be possible to acquire the knowledge in the course of the project, but the estimated difficulty would increase substantially. On the bright side, you can expect to have a much deeper understanding of these fields (and gain some real-world experience) after you successfully complete the respective project.
16 * Difficulty: Estimated difficulty of the project, taking into account the complexity of the task and the time constraints of the GSoC program.
17 * Contact point: The person you should contact for any further information or clarifications. If the primary contact for a project does not respond in a reasonable amount of time (2-3 days), you should contact the appropriate DragonFly BSD mailing list, usually kernel@.
18
19 #### Project ideas
20
21 ---
22
23 ##### VFS Quota System
24 * Create a new kernel subsystem to manage quota's in a filesystem agnostic manner by interfacing with the kernel VFS layer.
25 * Create filesystem-agnostic quota support tools for userland that obtain information in the same manner as eg: du(1) instead of parsing the filesystem internals directly as the existing quota tools do (see quotacheck(8), repquota(8), edquota(8), ...).
26 * The quota file storage can be modeled after the existing UFS code that does the same, but should use the more general bytes, files and/or directories metrics instead of the somewhat UFS-specific blocks and inodes.
27
28 Meta information:
29
30 * Prerequisites: C, introductory filesystems internals
31 * Difficulty: Moderate
32 * Contact point: Samuel J. Greear <sjg@thesjg.com>
33
34 ---
35
36 ##### Implement i386 32-bit ABI for x86_64 64-bit kernel
37 * Add a 32-bit syscall table which translates 32-bit
38   system calls to 64-bit.
39 * Add support for 32 bit compatibility mode operation
40   and ELF binary detection.
41
42 The idea here is to support the execution of 32 bit DragonFly binaries in 64 bit DragonFly environments, something numerous other operating systems have done.  Several things must be done to support this.  First, the appropriate control bits must be set to execute in 32-bit compatibility mode while in usermode instead of 64-bit mode.  Second, when a system call is made from 32-bit mode a translation layer is needed to translate the system call into the 64-bit requivalent within the kernel.  Third, the signal handler and trampoline code needs to operate on the 32-bit signal frame.  Fourth, the 32 and 64 bit ELF loaders both have to be in the kernel at the same time, which may require some messing around with procedure names and include files since originally the source was designed to be one or the other.
43
44 There are several hundred system calls which translates to a great deal of 'grunt work' when it comes time to actually do all the translations.
45
46 Meta information:
47
48 * Prerequisites: C
49 * Difficulty: Difficult (lots of moving parts, particularly the trapframes)
50 * Contact point: dillon
51
52 ---
53
54 ##### Implement ARC algorithm extension for the vnode free list
55 * Vnode recycling is LRU and can't efficiently handle data sets which
56   exceed the maxvnode limit.  When the maxvnode limit is reached the kernel
57   starts throwing away cached vnodes along with their VM objects (and thus
58   all related cached file data).
59
60 * What we would like to do is implement an ARC algorithm for the free
61   vnodes to determine which ones to throw away and potentially combine
62   this with further caching of the related VM object even after the vnode
63   is thrown away by associating it with a mount point and inode number,
64   until memory pressure forces all of its pages out.
65
66 * For this project the student can choose to just implement the VM object
67   retention portion and not try to implement an ARC algorithm (which can
68   be considerably more complex).
69
70 Meta information:
71
72 * Prerequisites: C, OS internals
73 * Difficulty: Modest without ARC (Very difficult with ARC)
74 * Contact point: dillon
75
76 ---
77
78 ##### Make DragonFly NUMA-aware 
79
80 * Parse related ACPI tables 
81 * NUMA-aware memory allocation
82 * References:
83 [ACPI SLIT parser](http://mail-index.netbsd.org/tech-kern/2009/11/23/msg006518.html)
84 [ACPI SRAT parser](http://mail-index.netbsd.org/tech-kern/2009/11/23/msg006517.html)
85 [NetBSD NUMA diff](http://www.netbsd.org/~cegger/numa2.diff)
86 [NetBSD NUMA x86 diff](http://www.netbsd.org/~cegger/numa_x86.diff) (These patches now in NetBSD tree)
87
88 Meta information:
89
90 * Prerequisites: C, introductory computer architecture
91 * Difficulty: Easy
92 * Contact point: kernel@crater.dragonflybsd.org
93
94 ---
95
96
97 ##### Port valgrind to DragonFlyBSD
98
99 Valgrind is a very useful tool on a system like DragonFly that's under heavy development. Since valgrind is very target specific, a student doing the port will have to get acquainted with many low level details of the system libraries and the user<->kernel interface (system calls, signal delivery, threading...). This is a project that should appeal to aspiring systems programmers. Ideally, we would want the port to be usable with vkernel processes, thus enabling complex checking of the core kernel code.
100
101 The goal of this project is to port valgrind to the DragonFlyBSD platform so that at least the memcheck tool runs sufficiently well to be useful. This is in itself a challenging task. If time remains, the student should try to get at least a trivial valgrind tool to work on a vkernel process.
102
103 Meta information:
104
105 * Prerequisites: C, x86 assembly, low-level OS internals
106 * Difficulty: Hard
107 * Contact point: Aggelos Economopoulos <aoiko@cc.ece.ntua.gr>
108
109 ---
110
111 ##### Adapt pkgsrc to create a package system with dependency independence.
112 * Create a set of tools that modifies how the pkgsrc packages are installed, allowing for the ability to upgrade individual packages, without stopping applications that depend on said packages from working. One method of achieving this is detailed at http://www.dragonflybsd.org/goals/#packages but other methods may be possible. PC-BSD have written a tool called PBI Builder which modifies FreeBSD ports for their dependency independence PBI system, this could be used as a starting point for the DragonFly BSD tools.
113
114 Meta information:
115
116 * Prerequisites: C
117 * Difficulty: ?
118 * Contact point: kernel@crater.dragonflybsd.org
119
120 ---
121
122 ##### Implement virtio drivers on DragonFly to speed up DragonFly as a KVM guest
123
124 As virtualization is coming more and more and KVM will be a strong player in that field,
125 we want DragonFly to have top-notch support for this virtualization platform. For this
126 purpose, we'd like to have a virtio-based implementation of a paravirtualized disk and
127 network driver. [virtio](http://www.ibm.com/developerworks/linux/library/l-virtio/index.html)
128 is an abstraction to a ring buffer that is shared between the host and the guest. On top of this
129 abstraction, one can build a variety of paravirtualized devices, as specified in
130 [virtio-spec](http://ozlabs.org/~rusty/virtio-spec/virtio-spec-0.8.6.pdf).
131
132 The goal of this project is to create a virtio-ring implementation and then to implement drivers
133 for the network and block devices described in the specification linked to above. This is a great
134 project for a student who wants to get experience writing (real-world, high-performance) device
135 drivers without having to deal with the quirks of real hardware.
136
137 Meta information:
138
139 * Prerequisites: C, elementary OS internals
140 * Difficulty: Medium
141 * Contact point: kernel@crater.dragonflybsd.org
142
143 ---
144
145 ##### Make vkernels checkpointable
146
147 * See checkpt(1).
148 * Implement save and restore of segment registers so that threaded applications may be checkpointed. The segment registers support TLS. There are potential security concerns here.
149 * Teach the checkpt system call how to checkpoint multiple vmspaces.
150 * Add code to the vkernel which gets triggered upon reception of a SIGCKPT signal to dump/load e.g. the current state of network drivers.
151 * This would allow us to save and restore or even migrate a complete DragonFly operating system running on the vkernel platform.
152 This could be especially handy on laptops (if we'd get X11 operating in vkernels).
153 * See also: http://www.dragonflybsd.org/docs/developer/CheckpointFeatures/
154
155 Meta information:
156
157 * Prerequisites: C, OS internals
158 * Difficulty: Medium
159 * Contact point: Michael Neumann <mneumann@ntecs.de>
160 * References: [1](http://leaf.dragonflybsd.org/mailarchive/kernel/2007-02/msg00073.html) [2](http://leaf.dragonflybsd.org/mailarchive/users/2007-02/msg00034.html)
161
162 ---
163
164 ##### HAMMER compression
165
166 * Compress blocks as they get written to disk.
167 * Only file data (rec_type == DATA) should be compressed, not meta-data.
168 * the CRC should be that of the uncompressed data.
169 * ideally you'd need to associate the uncompressed data with the buffer cache buffer somehow, so that decompression is only performed once.
170 * compression could be turned on a per-file or per-pfs basis.
171 * gzip compression would be just fine at first.
172
173 Doing compression would require flagging the data record as being compressed and also require double-buffering since
174 the buffer cache buffer associated with the uncompressed data might have holes in it and otherwise referenced by user
175 programs and cannot serve as a buffer for in-place compression or decompression.
176
177 The direct read / direct write mechanic would almost certainly have to be disabled for compressed buffers and the
178 small-data zone would probably have to be used (the large-data zone is designed only for use with 16K or 64K buffers).
179
180 Meta information:
181
182 * Prerequisites: C, filesystem internals
183 * Difficulty: Difficult
184 * Contact point: Michael Neumann <mneumann@ntecs.de>
185
186 ---
187
188
189 ##### Port FreeBSD's USB stack to DragonFly
190
191 This project has been listed for several years under the "USB4BSD" name.  Since then that branch was
192 brought into FreeBSD 8 on [SVN Revision 184610](http://svnweb.freebsd.org/base?view=revision&revision=184610)
193
194 * Port the latest FreeBSD USB stack to DragonFly, as our own usb stack is very outdated.
195
196 Meta information:
197
198 * Prerequisites: C, OS internals
199 * Difficulty: Moderate
200 * Contact point: kernel@crater.dragonflybsd.org
201
202 ---
203
204 ##### Userland System V Shared Memory / Semaphore / Message Queue implementation
205 * Implement some or all of these subsystems in their entirety, or as completely as possible in userland using a daemon, mmap and the DragonFly umtx_sleep(2)/umtx_wakeup(2) or other userland facilities.
206 * Any security or other major hurdles to this approach that would likely have to be implemented in-kernel should be noted in the students application.
207 * Test and benchmark the new facilities with heavy SysV consumers such as PostgreSQL
208 * Identify performance tradeoffs made in the userland implementation versus the existing kernel implementation. If time permits identify and apply solutions to these tradeoffs so that the userland implementation performs on par with or better than the kernel implementation.
209
210 Meta information:
211
212 * Prerequisites: C, x86 assembly
213 * Difficulty: Moderate
214 * Contact point: Samuel J. Greear <sjg@thesjg.com>
215
216 ---
217
218
219 ##### Update our interrupt routing and PCI code
220 * Update our interrupt routing to ACPI interrupt routing instead of relying on the mptable exclusively
221 * Update the PCI code to take advantage of MSI (Message Signalled Interrupts)
222
223 Meta information:
224
225 * Prerequisites: C, OS internals 
226 * Difficulty: Hard
227 * Contact point: kernel@crater.dragonflybsd.org
228 * References: [1](http://people.freebsd.org/~jhb/papers/bsdcan/2007/article/article.html) [2](http://www.bsdcan.org/2007/schedule/events/2.en.html) [3](http://www.acpi.info/DOWNLOADS/ACPIspec40a.pdf) [4](http://tldp.org/LDP/tlk/dd/interrupts.html) [5](http://wiki.osdev.org/Category:Interrupts)
229
230 ---
231
232 ##### DragonFly history access for Gnome/KDE
233 * Write a Dolphin (KDE) plugin or Gnome file manager plugin that creates a 'time slider' when working with HAMMER filesystems.
234 * If time remains investigate additional features and/or methods of display and possibly a HAMMER configuration utility for managing history retention, etc.
235
236 Meta information:
237
238 * Prerequisites: C, Gnome or KDE familiarity
239 * Difficulty: Hard
240 * Contact point: kernel@crater.dragonflybsd.org
241 * References: [A similar idea for ZFS](http://blogs.sun.com/erwann/entry/zfs_on_the_desktop_zfs)
242
243 ---
244
245 ##### Create a Samba VFS plugin to expose Hammer history
246 * Give access to Hammer snapshots/fine-grained history to anyone able to access the Hammer volume over Samba
247 * This would involve writing a Samba3 VFS module to expose historical versions of files as "shadow copies". VFS module implementations supporting more traditional snapshot hierarchies do already exist.
248
249 Meta information:
250
251 * Prerequisites: C
252 * Difficulty: Moderate
253 * Contact point: kernel@crater.dragonflybsd.org
254
255 ---
256
257 ##### Port Hyper-V Linux Integration components to DragonFly
258 * Microsoft released a dual BSD/GPL version of their para-virtualized drivers (SCSI and Networking) for Linux.
259 * This work would require porting the Linux VMBus (Microsoft's equivlalent to XenBus) and the corresponding SCSI (StorVSC) and networking (NetVSC) drivers to DragonFly.
260 * References: [Sources](http://www.microsoft.com/downloads/en/details.aspx?FamilyID=eee39325-898b-4522-9b4c-f4b5b9b64551) [Architecture Overview](http://port25.technet.com/archive/2009/07/22/introduction-to-the-linux-integration-components.aspx)
261
262 Meta information:
263
264 * Prerequisites: C, OS internals
265 * Difficulty: Hard
266 * Contact point: kernel@crater.dragonflybsd.org
267
268 ---
269
270 ##### Implement more dm targets
271 * Since we now have dm (device mapper) in DragonFly, it would be nice to make better use of it. Currently we have a relatively small number of useful targets (crypt, linear and striped).
272 * Other targets should be implemented, in particular the mirror target would be of interest. Other ideas are welcome, too. Before applying for this please discuss the target of interest on the mailing list or with me directly.
273 * There is a start of a journalled mirror target, if you want to attack soft mirroring; the problem is a lot more difficult than it seems at first, so talking on the mailing list or on IRC would be definitely worthwhile!
274
275 Meta information:
276
277 * Prerequisites: C, OS internals
278 * Difficulty: Medium
279 * Contact point: kernel@crater.dragonflybsd.org , Alex Hornung <alexh@dragonflybsd.org>, Venkatesh Srinivas <vsrinivas@dragonflybsd.org>
280
281 ---
282
283 ##### Implement a new unionfs
284 * unionfs is a particularly useful pseudo-fs which allows to have an upper and a lower filesystem on a single mountpoint. The upper mountpoint is mostly transparent, so that the lower mountpoint is accessible.
285 * A typical use case is mounting a tmpfs filesystem as the upper and a read-only FS as the lower mp. This way files can be edited transparently even on a RO filesystem without actually modifying it.
286 * The current unionfs is completely broken as it relies on the whiteout VFS technique which is not supported by HAMMER. A new unionfs implementation should not rely on archaic methods such as whiteout.
287
288 Meta information:
289
290 * Prerequisites: C, OS internals, ideally some knowledge of the FreeBSD/DragonFly VFS
291 * Difficulty: Medium
292 * Contact point: kernel@crater.dragonflybsd.org
293
294 ---
295
296 ##### Improve compatibility of libdevattr with Linux' libudev
297 * Our libdevattr has an API which is mostly compatible with Linux' libudev, but it is doubtful that any Linux application making use of libudev would run out of the box on DragonFly with libdevattr.
298 * The aim of this project is to identify the shortcomings of libdevattr and fix them so that some common libudev applications work with our libdevattr.
299 * This might involve some kernel hacking to improve our kern_udev and definitely includes some grunt work of "tagging" subsystems with the kern_udev API.
300 * Most of the work will be in userland, though, working on udevd and libdevattr.
301
302 Meta information:
303
304 * Prerequisites: C, familiarity with Linux' libudev would be a plus
305 * Difficulty: Medium
306 * Contact point: kernel@crater.dragonflybsd.org , Alex Hornung <alexh@dragonflybsd.org>
307
308
309
310 ---
311
312 ##### Implement further dsched disk scheduling policies
313 * dsched is a highly flexible disk scheduling framework which greatly minimizes the effort of writing disk scheduling policies.
314 * Currently only dsched_fq, a fairly simple fair-queuing policy, and noop policies are implemented.
315 * The aim of this project would be to implement at least another useful disk scheduling policy, preferably one that improves interactivity.
316 * Other ideas are welcome.
317 * This is a great opportunity for CS students interested in scheduling problems to apply their theoretical knowledge.
318
319 Meta information:
320
321 * Prerequisites: C, OS internals, familiarity with disk scheduling
322 * Difficulty: Medium
323 * Contact point: kernel@crater.dragonflybsd.org , Alex Hornung <alexh@dragonflybsd.org>
324
325 ---
326
327 ##### Implement hardware nested page table support for vkernels
328 * Various modern hardware supports virtualization extensions, including nested pagetables.
329 * The DragonFly BSD vmspaces API, used to support vkernels, is effectively a software implementation of nested pagetables.
330 * The goal of this project would be to add support for detection of the hardware features on AMD and Intel cpu's and alter the vmspace implementation to use hardware support when available.
331
332 Meta information:
333
334 * Prerequisites: C, x86 assembly, OS internals
335 * Difficulty: Hard
336 * Contact point: kernel@crater.dragonflybsd.org
337
338 ---
339
340 ##### ATA TRIM and filesystem/swap support
341 * Some devices support an ATA command, 'TRIM', which marks disk blocks as 'not in use'; on SSDs, for example, not-in-use blocks can be used to support better wear leveling and to prevent performance degradation over time with fragmentation of the free block set.
342 * DFly's BIO system supports BIO_DELETE commands; these commands are not tied to device level TRIM commands, however
343 * Once BIO_DELETE commands are possible, it'd be very nice for DragonFly's swap code to generate BIO_DELETE commands for unused swap blocks (batch them!); this would would work well with SSDs and swapcache
344 * HAMMER should also send BIO_DELETE commands to mark unused blocks unused. Running HAMMER on an SSD would be more pleasant then.
345 * FreeBSD implemented this support on Jan 29th for UFS; it may serve as a good reference.
346
347 Meta information:
348
349 * Prerequisites: C, OS internals, a touch of file systems
350 * Difficulty: Not too hard
351 * Contact point: kernel@crater.dragonflybsd.org
352
353 ---
354
355 ##### Access to ktr(4) buffers via shared memory
356 Our event tracing system, ktr(4), records interesting events in per-cpu buffers that are printed out with ktrdump(8). Currently, ktrdump uses libkvm to access these buffers, which is suboptimal. One can allow a sufficiently-privileged userspace process to map those buffers read-only and access them directly. For bonus points, design an extensible, discoverable (think reflection) mechanism that provides fast access via shared memory to data structures that the kernel chooses to expose to userland.
357
358 Meta information:
359
360 * Prerequisites: C, OS internals
361 * Difficulty: Medium
362 * Contact point: kernel@crater.dragonflybsd.org, Aggelos Economopoulos <aoiko@cc.ece.ntua.gr>
363
364 ---
365
366 #####Ability to execute Mach-O (OS X) binaries
367 This is a project for a student with something to prove, executing a binary touches a huge number of moving parts of a modern kernel. This project would entail adding or porting support for Mach-O binaries to the DragonFly BSD kernel. It would also involve adding an additional system call vector, like the Linux vector used for linux binary emulation. This is quite a large and complicated task and any proposal will be expected to be well-researched to reflect that. The ability to execute non-GUI binaries that make use of shared libraries should be the minimum to which such a project should aspire. OpenDarwin is available as a reference or to port relevant code from.
368
369 Meta information:
370
371 * Prerequisites: C, OS internals, binary file formats
372 * Difficulty: Hard
373 * Contact point: Samuel J. Greear <sjg@thesjg.com>
374
375 ---
376 ##### nmalloc (libc malloc) measurements and performance work
377
378 nmalloc is our libc memory allocator it is a slab-like allocator; it recently had some work done to add per-thread caches, but there is much more work that could be done. A project on this might characterize fragmentation, try out a number of techniques to improve per-thread caching and reduce the number of total syscalls, and see if any are worth applying.
379
380 Possible things to work on:
381 (thread caches)
382 * The per-thread caches are fixed-size; at larger object sizes (say 4K), this can result in a lot of memory tied up. Perhaps they should scale their max size inversely to the object size.
383
384 * The per-thread caches are filled one-at-a-time from free(). Perhaps the per-thread caches should be burst-filled.
385
386 * Perhaps the per-thread caches should age items out
387
388 (slab zone allocation)
389 * zone_alloc() currently burst-allocates slab zones with the zone magazine held across a spinlock.
390
391 * zone_free() holds the zone magazine lock around bzero()ing a slab zone header
392
393 * zone_free() madvise()s one slab at a time; it'd be nice to madvise() runs of contiguous slabs
394
395 * zone_free() madvise()s very readily (for every slab freed). Perhaps it should only madvise slabs that are idle for some time
396
397 * zone_free() burst-frees slabs. Its not clear whether this is a good idea.
398
399 (VMEM):
400 * currently allocations > either 4k or 8k are forced directly to mmap(); this means that idle memory from free slabs cannot be used to service those allocations and that we do no caching for allocations > than that size. this is almost certainly a mistake.
401
402 * we could use a small (embeddable) data structure that allows:
403 1. efficient coalescing of adjacent mmap space for madvise
404 2. efficient queries for vmem_alloc() (w/ alignment!)
405 3. compact and doesn't use any space in the zone header (dirty/cold!)
406 4. allows traversal in address order to fight fragmentation
407 5. keep two such data structures (one for dirty pages, one for cold pages)
408
409 (Note)
410 * These are just ideas; there are many more things possible and many of these things need a lot of measurement to evaluate them. It'd be interesting to see if any of these are appropriate for it.
411
412 References:
413 * http://www.usenix.org/event/usenix01/bonwick.html
414
415 A description of the Sun Solaris work on which the DragonFly allocator is based; use this as an overview, but do not take it as gospel for how the DFly allocator works.
416
417 * http://leaf.dragonflybsd.org/~vsrinivas/jemalloc-tech-talk.ogv (Jason Evans tech talk about jemalloc, 1/2011)
418
419 jemalloc is FreeBSD's and Firefox's (and NetBSD and GNASH and ...)'s malloc; in this tech talk, Jason Evans reviews how jemalloc works, how it has changed recently, and how it avoid fragmentation.
420
421 * http://endeavour.zapto.org/src/malloc-thesis.pdf (Ayelet Wasik's thesis 'Features of a Multi-Threaded Memory Allocator')
422
423 This thesis is an excellent overview of many techniques to reduce contention and the effects these techniques have on fragmentation. 
424
425 * Prerequisites: C, a taste of data structures
426 * Difficulty: moderate
427 * Contact point: Venkatesh Srinivas <me@endeavour.zapto.org>
428
429 ---
430
431 ##### Create a filesystem indexing service
432 Currently to locate an arbitrary file on a dragonfly system you would use the locate(1), which(1) or whereis(1) tools. These are a bit clunky, paint in broad strokes and the accuracy of the database is often suspect. The first part of this project would involve implementing the Linux inotify interface in the DragonFly kernel. The second part would be to write a daemon that can (optionally) operate as an indexing service, if the weekly 310.locate periodic job see's that the locate database is being maintained by the daemon, it can skip running locate.updatedb(8). A third part of this project might involve extending the current database to a binary format with information about file types, what bits are set, etc. This could enable the user to have the locate tool paint in narrower strokes by specifying only files of type "ASCII text" or only files that are suid root or have the execute bit set.
433
434 Meta information:
435
436 * Prerequisites: C, OS internals, binary file formats
437 * Difficulty: Easy/Moderate
438 * Contact point: Samuel J. Greear <sjg@thesjg.com>
439
440 ---
441  (please add)