Institutes
Refine
Year of publication
- 2013 (7) (remove)
Document Type
- Doctoral Thesis (6)
- Master's Thesis (1)
Has Fulltext
- yes (7)
Is part of the Bibliography
- no (7)
Keywords
- ALICE (1)
- ALICE experiment (1)
- Agent (1)
- Autorensystem (1)
- CBM experiment (1)
- Failure Erasure Code (1)
- GPGPU (1)
- GPU (1)
- Linpack (1)
- Parallel Computing (1)
Institute
- Informatik und Mathematik (7)
- Informatik (1)
On development, feasibility, and limits of highly efficient CPU and GPU programs in several fields
(2013)
With processor clock speeds having stagnated, parallel computing architectures have achieved a breakthrough in recent years. Emerging many-core processors like graphics cards run hundreds of threads in parallel and vector instructions are experiencing a revival. Parallel processors with many independent but simple arithmetical logical units fail executing serial tasks efficiently. However, their sheer parallel processing power makes them predestined for parallel applications while the simple construction of their cores makes them unbeatably power efficient. Unfortunately, old programs cannot profit by simple recompilation. Adaptation often requires rethinking and modifying algorithms to make use of parallel execution. Many applications have some serial subroutines which are very hard to parallelize, hence contemporary compute clusters are often homogeneous, offering fast processors for serial tasks and parallel processors for parallel tasks. In order not to waste the available compute power, highly efficient programs are mandatory.
This thesis is about the development of fast algorithms and their implementations on modern CPUs and GPUs, about the maximum achievable efficiency with respect to peak performance and to power consumption respectively, and about feasibility and limits of programs for CPUs, GPUs, and heterogeneous systems. Three totally different applications from distinct fields, which were developed in the extent of this thesis, are presented.
The ALICE experiment at the LHC particle collider at CERN studies heavy-ion collisions at high rates of several hundred Hz, while every collision produces thousands of particles, whose trajectories must be reconstructed. For this purpose, ALICE track reconstruction and ALICE track merging have been adapted for GPUs and deployed on 64 GPU-enabled compute-nodes at CERN.
After a testing phase, the tracker ran in nonstop operation during 2012 providing full real-time track reconstruction. The tracker employs a multithreaded pipeline as well as asynchronous data transfer to ensure continuous GPU utilization and outperforms the fastest available CPUs by about a factor three.
The Linpack benchmark is the standard tool for ranking compute clusters. It solves a dense system of linear equations using primarily matrix multiplication facilitated by a routine called DGEMM. A heterogeneous GPU-enabled version of DGEMM and Linpack has been developed, which can utilize the CAL, CUDA, and OpenCL APIs as backend. Employing this implementation, the LOEWE-CSC cluster ranked place 22 in the November 2010 Top500 list of the fastest supercomputers, and the Sanam cluster achieved the second place in the November 2012 Green500 list of the most power efficient supercomputers. An elaborate lookahead algorithm, a pipeline, and asynchronous data transfer hide the serial CPU-bound tasks of Linpack behind DGEMM execution on the GPU reaching the highest efficiency on GPU-accelerated clusters.
Failure erasure codes enable failure tolerant storage of data and real-time failover, ensuring that in case of a hardware defect servers and even complete data centers remain operational. It is an absolute necessity for present-day computer infrastructure. The mathematical theory behind the codes involves matrix-computations in finite fields, which are not natively supported by modern processors and hence computationally very expensive. This thesis presents a novel scheme for fast encoding matrix generation and demonstrates a fast implementation for the encoding itself, which uses exclusively either integer or logical vector instructions. Depending on the scenario, it is always hitting different hard limits of the hardware: either the maximum attainable memory bandwidth, or the peak instruction throughput, or the PCI Express bandwidth limit when GPUs or FPGAs are used.
The thesis demonstrates that in most cases with respect to the available peak performance, GPU implementations can be as efficient as their CPU counterparts.
With respect to costs or power consumption, they are much more efficient. For this purpose, complex tasks must be split in serial as well as parallel parts and the execution must be pipelined such that the CPU bound tasks are hidden behind GPU execution. Few cases are identified where this is not possible due to PCI Express limitations or not reasonable because practical GPU languages are missing.
Die vorliegende Dissertation behandelt die Entwicklung eines Verkehrssimulationssystems, welches vollautomatisch aus Landkarten Simulationsgraphen erstellen kann. Der Fokus liegt bei urbanen Simulationsstudien in beliebigen Gemeinden und Städten. Das zweite fundamentale Standbein dieser Arbeit ist daher die Konstruktion von Verkehrsmodellen, die die wichtigsten Verkehrsteilnehmertypen im urbanen Bereich abbilden. Es wurden Modelle für Autos, Fahrräder und Fußgänger entwickelt.
Die Betrachtung des Stands der Forschung in diesem Bereich hat ergeben, dass die Verknüpfung von automatischer Grapherstellung und Modellen, die die Wechselwirkungen der verschiedenen Verkehrsteilnehmertypen abbilden, von keinem vorhandenen System geleistet wird. Es gibt grundlegend zwei Gruppen von Verkehrssimulationssystemen. Zum Einen existieren Systeme, die hohe Genauigkeiten an Simulationsergebnissen erzielen und dafür exakte (teil-)manuelle Modellierung der Gegebenheiten im zu simulierenden Bereich benötigen. Es werden in diesem Bereich meist Verkehrsmodelle simuliert, die die Verhaltensweisen der Verkehrsteilnehmer sehr gut abbilden und hierfür einen hohen Berechnungsaufwand benötigen. Auf der anderen Seiten existieren Simulationssysteme, die Straßengraphen automatisch erstellen können, darauf jedoch sehr vereinfachte Verkehrsmodelle simulieren. Es werden meist nur Autobewegungen simuliert. Der Nutzen dieser Herangehensweise ist die Möglichkeit, sehr große Szenarien simulieren zu können.
Im Rahmen dieser Arbeit wird ein System mit Eigenschaften beider grundlegenden Ansätze entwickelt, um multimodalen innerstädtischen Verkehr auf Basis automatisch erstellter Straßengraphen simulieren zu können. Die Entwicklung eines neuen Verkehrssimulationssystems erschien notwendig, da sich zum Zeitpunkt der Literaturbetrachtung kein anderes vorhandenes System für die Nutzung zur Erfüllung der genannten Zielstellung eignete. Das im Rahmen dieser Arbeit entwickelte System heißt MAINSIM (MultimodAle INnerstädtische VerkehrsSIMulation).
Die Simulationsgraphen werden aus Kartenmaterial von OpenStreetMap extrahiert. Kartenmaterial wird zuerst in verschiedene logische Layer separiert und anschließend zur Bestimmung eines Graphen des Straßennetzes genutzt. Eine Gruppe von Analyseschritten behebt Ungenauigkeiten im Kartenmaterial und ergänzt Informationen, die während der Simulation benötigt werden (z.B. die Verbindungsrichtung zwischen zwei Straßen). Das System verwendet Geoinformationssystemkomponenten zur Verarbeitung der Geodaten. Dies birgt den Vorteil der einfachen Erweiterbarkeit um weitere Datenquellen.
Die Verkehrssimulation verwendet mikroskopische Verhaltensmodelle. Jeder einzelne Verkehrsteilnehmer wird somit simuliert. Das Modell für Autos basiert auf dem in der Verkehrsforschung weit genutzten Nagel-Schreckenberg-Modell. Es verfügt jedoch über zahlreiche Modifikationen und Erweiterungen, um das Modell auch abseits von Autobahnen nutzen zu können und weitere Verhaltensweisen zu modellieren. Das Fahrradmodell entsteht durch geeignete Parametrisierung aus dem Automodell. Zur Entwicklung des Fußgängermodells wurde Literatur über das Verhalten von Fußgängern diskutiert, um daraus geeignete Eigenschaften (z.B. Geschwindigkeiten und Straßenüberquerungsverhaltensmuster) abzuleiten. MAINSIM ermöglicht folglich die Betrachtung des Verkehrsgeschehens auch aus der Sicht der Gruppe der Fußgänger oder Fahrradfahrer und kann deren Auswirkungen auf den Straßenverkehr einer ganzen Stadt bestimmen.
Das Automodell wurde auf Autobahnszenarien und innerstädtischen Straßengraphen evaluiert. Es konnte die gut verstandenen Zusammenhänge zwischen Verkehrsdichte, -fluss und -geschwindigkeit reproduzieren. Zur Evaluierung von Fahrradmodellen liegen nach dem besten Wissen des Autors keine Studien vor. Daher wurden an dieser Stelle der Einfluss der Fahrradfahrer auf den Straßenverkehr und die von Fahrrädern gefahrenen Geschwindigkeiten untersucht. Das Fußgängermodell konnte die aus der Literaturbetrachtung ermittelten Verhaltensweisen abbilden.
Nachdem die wichtigsten Komponenten von MAINSIM untersucht wurden, begannen Fallstudien, die verschiedene Gebiete abdecken. Die wichtigsten Ergebnisse aus diesem Teil der Arbeit sind:
- Es ist möglich, mit Hilfe maschineller Lernverfahren Staus innerhalb Frankfurts vorherzusagen.
- Nonkonformismus bezüglich der Verkehrsregeln kann je nach Verhalten den Verkehrsfluss empfindlich beeinflussen, kann aber auch ohne Effekt bleiben.
- Mit Hilfe von Kommunikationstechniken könnte in der Zukunft die Routenplanung von Autos verbessert werden. Ein Verfahren auf Basis von Pheromonspuren wurde im Rahmen dieser Arbeit untersucht.
- MAINSIM eignet sich zur Simulation großer Szenarien. In der letzten Fallstudie dieser Arbeit wurde der Autoverkehr eines Simulationsgebietes um Frankfurt am Main herum mit ca. 1,6 Mio. Trips pro Tag simuliert. Da MAINSIM über ein Kraftstoffverbrauchs- und CO2-Emissionsmodell verfügt, konnten die CO2-Emissionen innerhalb von Frankfurt ermittelt werden. Eine angekoppelte Simulation des Wetters mit Hilfe einer atmosphärischen Simulation zeigte, wie sich die Gase innerhalb Frankfurts verteilen.
Für den professionellen Einsatz in der Verkehrsforschung muss das entwickelte Simulationssystem um eine Methode zur Kalibrierung auf Sensordaten im Simulationsgebiet erweitert werden. Die vorhandenen Ampelschaltungen bilden nicht reale Ampeln ab. Eine Erweiterung des Systems um die automatische Integrierung maschinell lesbarer Schaltpläne von Ampeln im Bereich des Simulationsgebietes würde die Ergebnisgüte weiter erhöhen.
MAINSIM hat mehrere Anwendungsgebiete. Es können sehr schnell Simulationsgebiete modelliert werden. Daher bietet sich die Nutzung für Vorabstudien an. Wenn große Szenarien simuliert werden müssen, um z.B. die Verteilung der CO2-Emissionen innerhalb einer Stadt zu ermitteln, kann MAINSIM genutzt werden. Es hat sich im Rahmen dieser Arbeit gezeigt, dass Fahrräder und Fußgänger einen Effekt auf die Mengen des Kraftstoffverbrauchs von Autos haben können. Es sollte bei derartigen Szenarien folglich ein Simulationssysytem genutzt werden, welches die relevanten Verkehrsteilnehmertypen abbilden kann. Zur Untersuchung weiterer wissenschaftlicher Fragestellungen kann MAINSIM beliebig erweitert werden.
Zeitreihen von spontan auftretenden Topograpfien elektrischer Felder an der Kopfoberfläche, die durch eine Elektroenzephalografie (EEG) gemessen werden, zeigen Zeiträume („EEG-Microstates“), während denen die Topografie quasi-stabil ist. Diese EEG-Microstates werden üblicherweise dadurch analysiert, dass die zu spezifischen Zeitpunkten beobachteten Ausprägungen des EEGs in eine kleine Anzahl von prototypischen Topografien („Karten“) eingeteilt werden. Dadurch erhält man eine diskrete Kartensequenz.
Um die Struktur der Übergangswahrscheinlichkeiten in experimentellen Kartensequenzen zu beschreiben, werden diese Sequenzen durch eine reduzierte Markov-Kette modelliert mit nur einem Parameter pro Karte. Die Markov-Ketten können mithilfe von zwei bestimmten stochastischen Prozessen konstruiert werden. Durch den einen Prozess werden zufällige Intervalle definiert, die zufällig den verschiedenen Karten zugeordnet werden. Durch den anderen Prozess werden zufällige Abtastungszeitpunkte bestimmt, zu denen die Karte des jeweils aktuellen Intervalls abgelesen wird.
Neben der Motivation und Vorstellung des Markov-Ketten-Modells werden in dieser Arbeit Schätzer für die Modellparameter vorgeschlagen und diskutiert sowie ihre asymptotischen Varianzen hergeleitet. Zudem wird ein Anpassungstest durchgeführt und es werden Abwandlungen des Modells untersucht.
Ultrarelativistic Quantum Molecular Dynamics is a physics model to describe the transport, collision, scattering, and decay of nuclear particles. The UrQMD framework has been in use for nearly 20 years since its first development. In this period computing aspects, the design of code, and the efficiency of computation have been minor points of interest. Nowadays an additional issue arises due to the fact that the run time of the framework does not diminish any more with new hardware generations.
The current development in computing hardware is mainly focused on parallelism. Especially in scientific applications a high order of parallelisation can be achieved due to the superposition principle. In this thesis it is shown how modern design criteria and algorithm redesign are applied to physics frameworks. The redesign with a special emphasise on many-core architectures allows for significant improvements of the execution speed.
The most time consuming part of UrQMD is a newly introduced relativistic hydrodynamic phase. The algorithm used to simulate the hydrodynamic evolution is the SHASTA. As the sequential form of SHASTA is successfully applied in various simulation frameworks for heavy ion collisions its possible parallelisation is analysed. Two different implementations of SHASTA are presented.
The first one is an improved sequential implementation. By applying a more concise design and evading unnecessary memory copies, the execution time could be reduced to the half of the FORTRAN version’s execution time. The usage of memory could be reduced by 80% compared to the memory needed in the original version.
The second implementation concentrates fully on the usage of many-core architectures and deviates significantly from the classical implementation. Contrary to the sequential implementation, it follows the recalculate instead of memory look-up paradigm. By this means the execution speed could be accelerated up to a factor of 460 on GPUs.
Additionally a stability analysis of the UrQMD model is presented. Applying metapro- gramming UrQMD is compiled and executed in a massively parallel setup. The resulting simulation data of all parallel UrQMD instances were hereafter gathered and analysed. Hence UrQMD could be proven of high stability to the uncertainty of experimental data.
As a further application of modern programming paradigms a prototypical implementa- tion of the worldline formalism is presented. This formalism allows for a direct calculation of Feynman integrals and constitutes therefore an interesting enhancement for the UrQMD model. Its massively parallel implementation on GPUs is examined.
Spin(9)-invariant valuations
(2013)
The first aim of this thesis is to give a Hadwiger-type theorem for the exceptional Lie group Spin(9). The space of Spin(9)-invariant k-homogeneous valuations is studied through the construction of an exact sequence involving some spaces of differential forms. We present then a description of the spin representation using the properties of the 8-dimensional division algebra of the octonions. Using this description as well as representation-theoretic formulas, we can compute the dimensions of the spaces of differential forms appearing in the exact sequence. Hence we obtain the dimensions of the spaces of k-homogeneous Spin(9)-invariant valuations for k=0,1,...,16.
In the second part of this work, we construct one new element for a basis of one of these spaces. It is clear, that the k-th intrinsic volume is also Spin(9)-invariant. The last chapter of this work presents the construction of a new 2-homogeneous Spin(9)-invariant valuation. On a Riemannian manifold (M,g), we construct a valuation by integrating the curvature tensor over the disc bundle. We associate to this valuation on M a family of valuations on the tangent spaces. We show that these valuations are even and homogeneous of degree 2. Moreover, since the valuation on M is invariant under the action of the isometry group of M, the induced valuation on the tangent space in a point p in M is invariant under the action of the stabilisator of p for all p in M. In the special case where M is the octonionic projective plane, this construction yields an even, homogeneous of degree 2, Spin(9)-invariant valuation, whose Klain function is not constant, i.e. which is linearly independent of the second intrinsic volume.
This thesis presents various algorithms which have been developed for on-line event reconstruction in the CBM experiment at GSI, Darmstadt and the ALICE experiment at CERN, Geneve. Despite the fact that the experiments are different — CBM is a fixed target experiment with forward geometry, while ALICE has a typical collider geometry — they share common aspects when reconstruction is concerned.
The thesis describes:
— general modifications to the Kalman filter method, which allows one to accelerate, to improve, and to simplify existing fit algorithms;
— developed algorithms for track fit in CBM and ALICE experiment, including a new method for track extrapolation in non-homogeneous magnetic field.
— developed algorithms for primary and secondary vertex fit in the both experiments. In particular, a new method of reconstruction of decayed particles is presented.
— developed parallel algorithm for the on-line tracking in the CBM experiment.
— developed parallel algorithm for the on-line tracking in High Level Trigger of the ALICE experiment.
— the realisation of the track finders on modern hardware, such as SIMD CPU registers and GPU accelerators.
All the presented methods have been developed by or with the direct participation of the author.
In der modernen Hochschullehre haben sich eLearning-Elemente als ein Teil des Lehrrepertoires etabliert. Der Einsatz interaktiver webbasierter Selbstlernmodule (Web Based Trainings (WBT)) ist dabei eine Option. Hochschulen und Unternehmen versprechen sich dadurch neue Möglichkeiten des Lehrens und Lernens, um z. B. einen Ausgleich heterogener Vorerfahrungen sowie eine stärkere aktive Beteiligung der Lernenden zu bewirken. Damit die Erstellung und Strukturierung dieser Inhalte mit möglichst geringem Aufwand erfolgen kann, bieten Autorensysteme Unterstützung.
Zu den Grundfunktionen von Autorensystemen gehören unter anderem, das Einbinden gebräuchlicher Medienformate, die einfache Erstellung von Fragen sowie verschiedene Auswertungs- und Feedbackmöglichkeiten. Obwohl Autorensysteme schon vor vielen Jahren ihre erste praktische Anwendung fanden, gibt es nach wie vor Schwachstellen, die sich auf den gesamten Erstellungsprozess wie auch auf einzelne Funktionen beziehen. Im Detail wird bemängelt, dass die Werkzeuge zu komplex und unflexibel sind. Darüber hinaus fehlt häufig eine zufriedenstellende Verknüpfung der vielen Werkzeuge entlang der Prozesskette zu einer Gesamtlösung.
Des Weiteren wird die Konzentration auf die Produktionsphase kritisiert, wodurch andere wichtige Prozesse in den Hintergrund treten bzw. außer Acht gelassen werden.
Im Rahmen der Zusammenarbeit mit einem Automobilhersteller, für den die erste Version des Autorensystems LernBar weiterentwickelt wurde, spielte der Begriff „Lean Production“ inhaltlich in der Umsetzung der WBTs eine wesentliche Rolle. Die Lean Production, die über viele Jahre für die Automobilindustrie entwickelt, verbessert und angepasst wurde, liefert Optimierungsansätze für den Produktionsbereich. Ein wirtschaftlicher Nutzen des Lean-Ansatzes wird auch in anderen Bereichen gesehen wie z. B. in der Softwareentwicklung („Lean Software Development“) oder im Management („Lean Management“). Dabei bietet die Wertschöpfungsorientierung Lösungen für die widersprüchlichen Ziele mehr Leistungen zu geringeren Kosten, schneller und in höherer Qualität zugleich zu liefern. Aus der Grundidee der Lean Production entwickelte sich vorliegendes Dissertationsthema in Bezug darauf, inwiefern sich diese Prinzipien auf den WBT-Produktionsprozess übertragen lassen und die LernBar (das hierfür weiterentwickelnde Autorensystem) dabei Unterstützung bieten kann.
Zunächst wurde analysiert, welche Werkzeuge und Hilfestellungen benötigt werden, um unter dem Aspekt der Lean Production WBTs im universitären Umfeld erstellen zu können. In diesem Zusammenhang wurden Merkmale einer „Lean Media Production“ definiert sowie konzeptionell und technisch umgesetzt. Zur Verbesserung der Prozesse flossen Ergebnisse aus empirischer und praktischer Forschung ein. Im Vergleich zu anderen Entwicklungen bei denen häufig das Hauptziel eine umfangreiche Funktionalität ist, werden u.a. folgende übertragbare Ziele bei der Umsetzung verfolgt: Verschwendung vermeiden, eine starke Einbeziehung der Kunden, Werkzeuge die nahtlos ineinandergreifen, eine hohe Flexibilität und eine stetige Qualitätsverbesserung.
Zur Erreichung dieser Zielsetzungen wurden alle Prozesse kontinuierlich verbessert, sich auf das Wesentliche und die Wertschöpfung konzentriert sowie überflüssige Schritte eliminiert. Demnach ist unter dem Begriff „Lean Media Production“ ein skalierbarer, effizienter und effektiver Produktionsprozess zu verstehen, in dem alle Werkzeuge ineinandergreifen.
Die Realisierung der „Lean Media Production“ erfolgte anhand des Autorensystems LernBar, wobei die typischen Softwareentwicklungsphasen Entwurf, Implementierung und Evaluierung mehrfach durchlaufen wurden. Ausschlaggebend dabei war, dass der „Lean“-Aspekt berücksichtigt wurde und dies somit eine neue Vorgehensweise bei der Umsetzung eines Autorensystems darstellt. Im Verlauf der Entwicklungen ergaben sich, durch eine formative Evaluation, den Einsatz in Projekten und eine empirische Begleitforschung, neue Anforderungen an das System. Ein Vergleich der zwei Produktionssysteme, Automobil vs. WBT-Produktion, zeigt und bestätigt die Erwartung, dass nicht alle Prinzipien der Lean Production übertragbar sind.
Dennoch war diese Untersuchung notwendig, da sie Denkanstöße zur Entwicklung und Optimierung des Erstellungsprozesses eines WBTs gab. Auch die Ergebnisse der abschließenden Online-Befragung ergaben, dass die Ziele der Arbeit erreicht wurden, dass aber weiterer Optimierungsbedarf besteht. Die LernBar Release 3 bietet für alle Produktionsphasen Werkzeuge an, durch die eine effektive und effiziente Erstellung von WBTs von der Idee bis zur Distribution möglich ist.
Stand noch vor fünf Jahren zu Beginn dieser Arbeit das Endprodukt bei der LernBar Entwicklung im Vordergrund, verlagerte sich durch den Einfluss dieser Dissertation der Schwerpunkt auf den gesamten Produktionsprozess. Unter Berücksichtigung der in diesem Zusammenhang entwickelten Prinzipien einer „Lean Media Production“, nehmen bspw. die Wirtschaftlichkeit und die starke Kundenorientierung während des Produktionsprozesses einen wichtigen Stellenwert ein. Dieser Ansatz ist eine neue Vorgehensweise im Bereich der Entwicklung von Autorensystemen, der seine Anerkennung und Professionalität durch die Ergebnisse des selbstentwickelten Evaluationsbogens sowie dem stetig wachsenden Einsatz in Schulen, Hochschulen und Unternehmen belegen kann.
In weiteren Forschungsarbeiten ist zu untersuchen, welche Lean Production Prinzipien zu verwenden oder anzupassen sind, wenn z. B. in größeren Teams oder mobil produziert wird. Des Weiteren sollte überprüft werden, inwieweit die Lernenden mit dem Endprodukt zufrieden sind und in ihrem Lernprozess unterstützt werden. Durch diese Forschungsarbeit wurde ein Beitrag dazu geleistet, die Lehre und Ausbildung zu optimieren, indem die Autoren/Lehrende in der Erstellung ihrer digitalen Lerninhalte im gesamten Prozess von aufeinander abgestimmten Werkzeugen unterstützt werden.