(no commit message)
[ikiwiki.git] / docs / developer / gsoc2010 / index.mdwn
1 [[!meta title="Google Summer of Code 2010"]]
2
3 [[!toc  levels=0]]
4
5 DragonFly BSD is planning to participate (pending acceptance) in the Google Summer of Code program for 2010.
6
7
8 Have a look at our SoC pages from [[2008|docs/developer/GoogleSoC2008/]] and [[2009|docs/developer/gsoc2009]] to get an overview about prior year's projects.  The [Projects Page](/docs/developer/ProjectsPage/) is also a potential source of ideas.
9
10
11 For more details on Google's Summer of Code: [Google's SoC page](http://socghop.appspot.com/)
12
13 Note to prospective students: These project proposals are meant to be a first approximation; we're looking forward to your own suggestions (even for completely new directions) and will try to integrate your ideas to make the GSoC project more interesting to all parties. Even when a proposal is very specific about the goals that must be achieved and the path that should be taken, these are always negotiable. Keep in mind that we have tried to limit our proposals to those that (based on our past experience) are appropriate for the GSoC program.
14
15 Legend:
16
17 * Prerequisites: knowledge that the student should have before starting the project. It may be possible to acquire the knowledge in the course of the project, but the estimated difficulty would increase substantially. On the bright side, you can expect to have a much deeper understanding of these fields (and gain some real-world experience) after you successfully complete the respective project.
18 * Difficulty: Estimated difficulty of the project, taking into account the complexity of the task and the time constraints of the GSoC program.
19 * Contact point: The person you should contact for any further information or clarifications.
20
21 #### Project ideas
22
23 ##### VFS Quota System
24 * Create a new kernel subsystem to manage quota's in a filesystem agnostic manner by interfacing with the kernel VFS layer.
25 * Create filesystem-agnostic quota support tools for userland that obtain information in the same manner as eg: du(1) instead of parsing the filesystem internals directly as the existing quota tools do (see quotacheck(8), repquota(8), edquota(8), ...).
26 * The quota file storage can be modeled after the existing UFS code that does the same, but should use the more general bytes, files and/or directories metrics instead of the somewhat UFS-specific blocks and inodes.
27
28 Meta information:
29
30 * Prerequisites: C, introductory filesystems internals
31 * Difficulty: Moderate
32 * Contact point: Samuel J. Greear <sjg@thesjg.com>
33
34 ---
35
36 ##### HAMMER Data dedup
37
38 The HAMMER filesystem is very efficient in sharing data between its fine-grained
39 snapshots, but when you copy (or otherwise duplicate) a file or directory tree, the data
40 is no longer shared. This is suboptimal because then we make poor use of disk space
41 and the same data gets cached multiple times wasting precious RAM space.
42
43 The goal of this project is to add a data de-duplication mechanism to the HAMMER
44 filesystem. A reasonable approach would be to detect potential data matches using
45 CRCs during pruning runs. Then you could verify there is actual duplication of data
46 (i.e. the match is not a false positive), collapse the B-Tree data reference and account for the
47 additional reference in the allocation blockmap.
48
49 Meta information:
50
51 * Prerequisites: C, modern filesystem internals
52 * Difficulty: Moderate
53 * Contact point: dillon
54
55 ---
56
57 ##### Implement i386 32-bit ABI for x86_64 64-bit kernel
58 * Add a 32-bit syscall table which translates 32-bit
59   system calls to 64-bit.
60 * Add support for 32 bit compatibility mode operation
61   and ELF binary detection.
62
63 The idea here is to support the execution of 32 bit DragonFly binaries in 64 bit DragonFly environments, something numerous other operating systems have done.  Three things must be done to support this.  First, the appropriate control bits must be set to execute in 32-bit compatibility mode while in usermode instead of 64-bit mode.  Second, when a system call is made from 32-bit mode a translation layer is needed to translate the system call into the 64-bit requivalent within the kernel.  Third, the signal handler and trampoline code needs to operate on the 32-bit signal frame.
64
65 Meta information:
66
67 * Prerequisites: C
68 * Difficulty: Moderate
69 * Contact point: dillon
70
71 ---
72
73 ##### Implement ARC algorithm extension the vnode free list
74 * Vnode recycling is LRU and can't efficiently handle data sets which
75   exceed the maxvnode limit.  When the maxvnode limit is reached the kernel
76   starts throwing away cached vnodes along with their VM objects (and thus
77   all related cached file data).
78
79 * What we would like to do is implement an ARC algorithm for the free
80   vnodes to determine which ones to throw away and potentially combine
81   this with further caching of the related VM object even after the vnode
82   is thrown away by associating it with a mount point and inode number,
83   until memory pressure forces all of its pages out.
84
85 * For this project the student can choose to just implement the VM object
86   retention portion and not try to implement an ARC algorithm (which can
87   be considerably more complex).
88
89 Meta information:
90
91 * Prerequisites: C, OS internals
92 * Difficulty: Modest without ARC (Very difficult with ARC)
93 * Contact point: dillon
94
95 ---
96
97 ##### Implement swapoff
98 * We have swapon to add swap space, we need a swapoff to
99   remove it.
100
101 Meta information:
102
103 * Prerequisites: C, elementary OS memory management
104 * Difficulty: Modest
105 * Contact point: dillon
106
107 ---
108
109 ##### Graphics Kernel Memory Manager Support ( GEM )
110 * Support dealing with graphics NUMA in kernel space for modern graphics hardware
111 * http://en.wikipedia.org/wiki/Graphics_Execution_Manager
112
113 Meta information:
114
115 * Prerequisites: C, knowledge of modern computer graphics system architecture
116 * Difficulty: Moderate
117 * Contact point: kernel@crater.dragonflybsd.org
118
119 ---
120
121 ##### Make DragonFly NUMA-aware 
122
123 * Parse related ACPI tables 
124 * NUMA-aware memory allocation
125 * References:
126 [ACPI SLIT parser](http://mail-index.netbsd.org/tech-kern/2009/11/23/msg006518.html)
127 [ACPI SRAT parser](http://mail-index.netbsd.org/tech-kern/2009/11/23/msg006517.html)
128 [NetBSD NUMA diff](http://www.netbsd.org/~cegger/numa2.diff)
129 [NetBSD NUMA x86 diff](http://www.netbsd.org/~cegger/numa_x86.diff)
130
131 Meta information:
132
133 * Prerequisites: C, introductory computer architecture
134 * Difficulty: Easy
135 * Contact point: kernel@crater.dragonflybsd.org
136
137 ---
138
139 ##### Volume Management based on NetBSD's port of LVM2
140
141 NetBSD reimplemented Linux's device mapper (currently only implementing
142 the linear, zero and error targets; Linux has support for a variety of
143 targets, including crypt, stripe, snap, multipath) as dm(4). Device mapper
144 provides the functionality on which to implement volume management; NetBSD
145 has imported LVM2 (which is GPL), but it is possible to create different
146 tools for volume management (e.g. IBM's EVMS was also built on top of device
147 mapper).
148
149 The goal of this project is to port both the kernel code, dm(4), and the
150 LVM2 userspace libraries and tools from NetBSD. If time remains, the
151 student should also implement a proof of concept "stripe" target or, for the
152 more ambitious, a "crypt" target.
153
154 A possible roadmap for this project would be
155
156 1. Port the dm(4) code
157
158     This code uses proplib instead of binary ioctls for communicating with
159 userspace. Either port proplib, or convert the code to use ioctls.
160
161 1. Port the userspace tools
162
163     Integrate the tools in our source tree using a separate vendor branch, as
164 is normally done for contrib software (see development(7)). Make any
165 DragonFlyBSD-specific changes necessary.
166
167 1. (Optional) Implement either a "stripe" target or a crypt target.
168
169     The stripe target must be designed with robustness and extensibility in
170 mind, though it is not required to go all the way. It should be flexible
171 enough to allow for different RAID level implementations (at least 0, 1
172 and 5). Additionally, it should be possible to keep an internal (i.e. part
173 of the volume) log to speed up resyncing and parity checking. Implementing
174 those features would be ideal, but is not required.
175
176     The crypt target must allow for different ciphers and cipher parameters and
177 should make use of our in-kernel crypto infrastructure. It is probably
178 necessary to do the encryption asynchronously which will require extending
179 the current infrastructure.
180
181 Meta information:
182
183 * Prerequisites: C, elementary OS internals
184 * Difficulty: Medium
185 * Contact point: Aggelos Economopoulos <aoiko@cc.ece.ntua.gr>
186
187 ---
188
189 ##### Port DragonFly to Xen platform
190
191 Meta information:
192
193 * Prerequisites: C, x86 assembly
194 * Difficulty: Hard
195 * Contact point: kernel@crater.dragonflybsd.org
196
197 ---
198
199 ##### Port valgrind to DragonFlyBSD
200
201 Valgrind is a very useful tool on a system like DragonFly that's under heavy development. Since valgrind is very target specific, a student doing the port will have to get acquainted with many low level details of the system libraries and the user<->kernel interface (system calls, signal delivery, threading...). This is a project that should appeal to aspiring systems programmers. Ideally, we would want the port to be usable with vkernel processes, thus enabling complex checking of the core kernel code.
202
203 The goal of this project is to port valgrind to the DragonFlyBSD platform so that at least the memcheck tool runs sufficiently well to be useful. This is in itself a challenging task. If time remains, the student should try to get at least a trivial valgrind tool to work on a vkernel process.
204
205 Meta information:
206
207 * Prerequisites: C, x86 assembly, low-level OS internals
208 * Difficulty: Hard
209 * Contact point: Aggelos Economopoulos <aoiko@cc.ece.ntua.gr>
210
211 ---
212
213 ##### Adapt pkgsrc to create a package system with dependency independence.
214 * Create a set of tools that modifies how the pkgsrc packages are installed, allowing for the ability to upgrade individual packages, without stopping applications that depend on said packages from working. One method of achieving this is detailed at http://www.dragonflybsd.org/goals/#packages but other methods may be possible. PC-BSD have written a tool called PBI Builder which modifies FreeBSD ports for their dependency independence PBI system, this could be used as a starting point for the DragonFly BSD tools.
215
216 Meta information:
217
218 * Prerequisites: C
219 * Difficulty: ?
220 * Contact point: kernel@crater.dragonflybsd.org
221
222 ---
223
224 ##### Implement virtio drivers on DragonFly to speed up DragonFly as a KVM guest
225
226 As virtualization is coming more and more and KVM will be a strong player in that field,
227 we want DragonFly to have top-notch support for this virtualization platform. For this
228 purpose, we'd like to have a virtio-based implementation of a paravirtualized disk and
229 network driver. [virtio](http://www.ibm.com/developerworks/linux/library/l-virtio/index.html)
230 is an abstraction to a ring buffer that is shared between the host and the guest. On top of this
231 abstraction, one can build a variety of paravirtualized devices, as specified in
232 [virtio-spec](http://ozlabs.org/~rusty/virtio-spec/virtio-spec-0.8.6.pdf).
233
234 The goal of this project is to create a virtio-ring implementation and then to implement drivers
235 for the network and block devices described in the specification linked to above. This is a great
236 project for a student who wants to get experience writing (real-world, high-performance) device
237 drivers without having to deal with the quirks of real hardware.
238
239 Meta information:
240
241 * Prerequisites: C, elementary OS internals
242 * Difficulty: Easy
243 * Contact point: Aggelos Economopoulos <aoiko@cc.ece.ntua.gr>, kernel@crater.dragonflybsd.org
244
245 ---
246
247 ##### Port FUSE or PUFFS from FreeBSD/NetBSD
248
249 * http://www.netbsd.org/docs/puffs/
250 * This would make many userspace filesystems available to DragonFly, e.g. sshfs to mention only one.
251
252 Meta information:
253
254 * Prerequisites: C, elementary OS internals
255 * Difficulty: Medium
256 * Contact point: Michael Neumann <mneumann@ntecs.de>
257
258 ---
259
260 ##### Make vkernels checkpointable
261
262 * See checkpt(1).
263 * Teach the checkpt syscall how to checkpoint multiple vmspaces.
264 * Add code to the vkernel which gets triggered on SIGCKPT to dump/load e.g. the current state of network drivers.
265 * This would allow us to save and restore or even migrate a complete DragonFly operating system running on the vkernel platform.
266 This could be especially handy on laptops (if we'd get X11 operating in vkernels).
267 * See also: http://www.dragonflybsd.org/docs/developer/CheckpointFeatures/
268
269 Meta information:
270
271 * Prerequisites: C, OS internals
272 * Difficulty: Medium
273 * Contact point: Michael Neumann <mneumann@ntecs.de>
274
275 ---
276
277 ##### HAMMER compression
278
279 * Compress blocks as they get written to disk.
280 * Only file data (rec_type == DATA) should be compressed, not meta-data.
281 * the CRC should be that of the uncompressed data.
282 * ideally you'd need to associate the uncompressed data with the buffer cache buffer somehow, so that decompression is only performed once.
283 * compression could be turned on a per-file or per-pfs basis.
284 * gzip compression would be just fine at first.
285
286 Meta information:
287
288 * Prerequisites: C, filesystem internals
289 * Difficulty: Medium
290 * Contact point: Michael Neumann <mneumann@ntecs.de>
291
292 ---
293
294
295 ##### Port usb4bsd
296 * Port the whole usb4bsd stuff to DragonFly, as our own usb stack is too outdated.
297
298 * The usb4bsd branch of hselasky (?) has several userland wrappers and quite good abstraction to simplify the porting.
299
300 * (is polachok doing this or not?)
301
302 Meta information:
303
304 * Prerequisites: C, OS internals
305 * Difficulty: Moderate
306 * Contact point: kernel@crater.dragonflybsd.org
307
308 ---
309
310 ##### Userland System V Shared Memory / Semaphore / Message Queue implementation
311 * Implement some or all of these subsystems in their entirety, or as completely as possible in userland using a daemon, mmap and the DragonFly umtx_sleep(2)/umtx_wakeup(2) or other userland facilities.
312 * Any security or other major hurdles to this approach that would likely have to be implemented in-kernel should be noted in the students application.
313 * Test and benchmark the new facilities with heavy SysV consumers such as PostgreSQL
314 * Identify performance tradeoffs made in the userland implementation versus the existing kernel implementation. If time permits identify and apply solutions to these tradeoffs so that the userland implementation performs on par with or better than the kernel implementation.
315
316 Meta information:
317
318 * Prerequisites: C, x86 assembly
319 * Difficulty: Moderate
320 * Contact point: Samuel J. Greear <sjg@thesjg.com>
321
322 ---
323
324
325 ##### Update our interrupt routing and PCI code
326 * Update our interrupt routing to MSI (Message Signalled Interrupts)
327 * Update the PCI code to take advantage of MSI and also of newer power-saving features (see FreeBSD's work in this area)
328
329 Meta information:
330
331 * Prerequisites: C, OS internals 
332 * Difficulty: Hard
333 * Contact point: kernel@crater.dragonflybsd.org
334
335 ---
336
337 ##### Proportional RSS
338
339 The Resident Stack Size displayed by top keeps track of the number of resident pages in
340 a certain process's adress space. It is very useful to locate memory hogs, but doesn't take
341 into account page sharing. For example, if N processes map library L and L's resident pages
342 are 1G, this 1G is added to the RSS of all N processes. A more useful number would be the
343 Proportional (or Effective) RSS, for which we divide the number of mapped shared pages by
344 the number of processes sharing each page. So in the previous example we would add 1GB/N
345 to each process that has L mapped.
346
347 The goal of this project is to hack the kernel to allow for effective calculation of the
348 Proportional RSS and modify top to use it in addition to the RSS (i.e. it should display it by
349 default and be able to sort based on it).
350
351 Meta information:
352
353 * Prerequisites: C, Elementary OS internals
354 * Difficulty: Easy
355 * Contact point: Aggelos Economopoulos <aoiko@cc.ece.ntua.gr>
356
357 ---
358
359  (please add)