000 Informatik, Informationswissenschaft, allgemeine Werke
Refine
Year of publication
- 2013 (2) (remove)
Document Type
- Doctoral Thesis (2)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Keywords
- ALICE (1)
- Autorensystem (1)
- Failure Erasure Code (1)
- GPU (1)
- Linpack (1)
- Tracking (1)
- Web Based Training (1)
Institute
- Informatik und Mathematik (2) (remove)
On development, feasibility, and limits of highly efficient CPU and GPU programs in several fields
(2013)
With processor clock speeds having stagnated, parallel computing architectures have achieved a breakthrough in recent years. Emerging many-core processors like graphics cards run hundreds of threads in parallel and vector instructions are experiencing a revival. Parallel processors with many independent but simple arithmetical logical units fail executing serial tasks efficiently. However, their sheer parallel processing power makes them predestined for parallel applications while the simple construction of their cores makes them unbeatably power efficient. Unfortunately, old programs cannot profit by simple recompilation. Adaptation often requires rethinking and modifying algorithms to make use of parallel execution. Many applications have some serial subroutines which are very hard to parallelize, hence contemporary compute clusters are often homogeneous, offering fast processors for serial tasks and parallel processors for parallel tasks. In order not to waste the available compute power, highly efficient programs are mandatory.
This thesis is about the development of fast algorithms and their implementations on modern CPUs and GPUs, about the maximum achievable efficiency with respect to peak performance and to power consumption respectively, and about feasibility and limits of programs for CPUs, GPUs, and heterogeneous systems. Three totally different applications from distinct fields, which were developed in the extent of this thesis, are presented.
The ALICE experiment at the LHC particle collider at CERN studies heavy-ion collisions at high rates of several hundred Hz, while every collision produces thousands of particles, whose trajectories must be reconstructed. For this purpose, ALICE track reconstruction and ALICE track merging have been adapted for GPUs and deployed on 64 GPU-enabled compute-nodes at CERN.
After a testing phase, the tracker ran in nonstop operation during 2012 providing full real-time track reconstruction. The tracker employs a multithreaded pipeline as well as asynchronous data transfer to ensure continuous GPU utilization and outperforms the fastest available CPUs by about a factor three.
The Linpack benchmark is the standard tool for ranking compute clusters. It solves a dense system of linear equations using primarily matrix multiplication facilitated by a routine called DGEMM. A heterogeneous GPU-enabled version of DGEMM and Linpack has been developed, which can utilize the CAL, CUDA, and OpenCL APIs as backend. Employing this implementation, the LOEWE-CSC cluster ranked place 22 in the November 2010 Top500 list of the fastest supercomputers, and the Sanam cluster achieved the second place in the November 2012 Green500 list of the most power efficient supercomputers. An elaborate lookahead algorithm, a pipeline, and asynchronous data transfer hide the serial CPU-bound tasks of Linpack behind DGEMM execution on the GPU reaching the highest efficiency on GPU-accelerated clusters.
Failure erasure codes enable failure tolerant storage of data and real-time failover, ensuring that in case of a hardware defect servers and even complete data centers remain operational. It is an absolute necessity for present-day computer infrastructure. The mathematical theory behind the codes involves matrix-computations in finite fields, which are not natively supported by modern processors and hence computationally very expensive. This thesis presents a novel scheme for fast encoding matrix generation and demonstrates a fast implementation for the encoding itself, which uses exclusively either integer or logical vector instructions. Depending on the scenario, it is always hitting different hard limits of the hardware: either the maximum attainable memory bandwidth, or the peak instruction throughput, or the PCI Express bandwidth limit when GPUs or FPGAs are used.
The thesis demonstrates that in most cases with respect to the available peak performance, GPU implementations can be as efficient as their CPU counterparts.
With respect to costs or power consumption, they are much more efficient. For this purpose, complex tasks must be split in serial as well as parallel parts and the execution must be pipelined such that the CPU bound tasks are hidden behind GPU execution. Few cases are identified where this is not possible due to PCI Express limitations or not reasonable because practical GPU languages are missing.
In der modernen Hochschullehre haben sich eLearning-Elemente als ein Teil des Lehrrepertoires etabliert. Der Einsatz interaktiver webbasierter Selbstlernmodule (Web Based Trainings (WBT)) ist dabei eine Option. Hochschulen und Unternehmen versprechen sich dadurch neue Möglichkeiten des Lehrens und Lernens, um z. B. einen Ausgleich heterogener Vorerfahrungen sowie eine stärkere aktive Beteiligung der Lernenden zu bewirken. Damit die Erstellung und Strukturierung dieser Inhalte mit möglichst geringem Aufwand erfolgen kann, bieten Autorensysteme Unterstützung.
Zu den Grundfunktionen von Autorensystemen gehören unter anderem, das Einbinden gebräuchlicher Medienformate, die einfache Erstellung von Fragen sowie verschiedene Auswertungs- und Feedbackmöglichkeiten. Obwohl Autorensysteme schon vor vielen Jahren ihre erste praktische Anwendung fanden, gibt es nach wie vor Schwachstellen, die sich auf den gesamten Erstellungsprozess wie auch auf einzelne Funktionen beziehen. Im Detail wird bemängelt, dass die Werkzeuge zu komplex und unflexibel sind. Darüber hinaus fehlt häufig eine zufriedenstellende Verknüpfung der vielen Werkzeuge entlang der Prozesskette zu einer Gesamtlösung.
Des Weiteren wird die Konzentration auf die Produktionsphase kritisiert, wodurch andere wichtige Prozesse in den Hintergrund treten bzw. außer Acht gelassen werden.
Im Rahmen der Zusammenarbeit mit einem Automobilhersteller, für den die erste Version des Autorensystems LernBar weiterentwickelt wurde, spielte der Begriff „Lean Production“ inhaltlich in der Umsetzung der WBTs eine wesentliche Rolle. Die Lean Production, die über viele Jahre für die Automobilindustrie entwickelt, verbessert und angepasst wurde, liefert Optimierungsansätze für den Produktionsbereich. Ein wirtschaftlicher Nutzen des Lean-Ansatzes wird auch in anderen Bereichen gesehen wie z. B. in der Softwareentwicklung („Lean Software Development“) oder im Management („Lean Management“). Dabei bietet die Wertschöpfungsorientierung Lösungen für die widersprüchlichen Ziele mehr Leistungen zu geringeren Kosten, schneller und in höherer Qualität zugleich zu liefern. Aus der Grundidee der Lean Production entwickelte sich vorliegendes Dissertationsthema in Bezug darauf, inwiefern sich diese Prinzipien auf den WBT-Produktionsprozess übertragen lassen und die LernBar (das hierfür weiterentwickelnde Autorensystem) dabei Unterstützung bieten kann.
Zunächst wurde analysiert, welche Werkzeuge und Hilfestellungen benötigt werden, um unter dem Aspekt der Lean Production WBTs im universitären Umfeld erstellen zu können. In diesem Zusammenhang wurden Merkmale einer „Lean Media Production“ definiert sowie konzeptionell und technisch umgesetzt. Zur Verbesserung der Prozesse flossen Ergebnisse aus empirischer und praktischer Forschung ein. Im Vergleich zu anderen Entwicklungen bei denen häufig das Hauptziel eine umfangreiche Funktionalität ist, werden u.a. folgende übertragbare Ziele bei der Umsetzung verfolgt: Verschwendung vermeiden, eine starke Einbeziehung der Kunden, Werkzeuge die nahtlos ineinandergreifen, eine hohe Flexibilität und eine stetige Qualitätsverbesserung.
Zur Erreichung dieser Zielsetzungen wurden alle Prozesse kontinuierlich verbessert, sich auf das Wesentliche und die Wertschöpfung konzentriert sowie überflüssige Schritte eliminiert. Demnach ist unter dem Begriff „Lean Media Production“ ein skalierbarer, effizienter und effektiver Produktionsprozess zu verstehen, in dem alle Werkzeuge ineinandergreifen.
Die Realisierung der „Lean Media Production“ erfolgte anhand des Autorensystems LernBar, wobei die typischen Softwareentwicklungsphasen Entwurf, Implementierung und Evaluierung mehrfach durchlaufen wurden. Ausschlaggebend dabei war, dass der „Lean“-Aspekt berücksichtigt wurde und dies somit eine neue Vorgehensweise bei der Umsetzung eines Autorensystems darstellt. Im Verlauf der Entwicklungen ergaben sich, durch eine formative Evaluation, den Einsatz in Projekten und eine empirische Begleitforschung, neue Anforderungen an das System. Ein Vergleich der zwei Produktionssysteme, Automobil vs. WBT-Produktion, zeigt und bestätigt die Erwartung, dass nicht alle Prinzipien der Lean Production übertragbar sind.
Dennoch war diese Untersuchung notwendig, da sie Denkanstöße zur Entwicklung und Optimierung des Erstellungsprozesses eines WBTs gab. Auch die Ergebnisse der abschließenden Online-Befragung ergaben, dass die Ziele der Arbeit erreicht wurden, dass aber weiterer Optimierungsbedarf besteht. Die LernBar Release 3 bietet für alle Produktionsphasen Werkzeuge an, durch die eine effektive und effiziente Erstellung von WBTs von der Idee bis zur Distribution möglich ist.
Stand noch vor fünf Jahren zu Beginn dieser Arbeit das Endprodukt bei der LernBar Entwicklung im Vordergrund, verlagerte sich durch den Einfluss dieser Dissertation der Schwerpunkt auf den gesamten Produktionsprozess. Unter Berücksichtigung der in diesem Zusammenhang entwickelten Prinzipien einer „Lean Media Production“, nehmen bspw. die Wirtschaftlichkeit und die starke Kundenorientierung während des Produktionsprozesses einen wichtigen Stellenwert ein. Dieser Ansatz ist eine neue Vorgehensweise im Bereich der Entwicklung von Autorensystemen, der seine Anerkennung und Professionalität durch die Ergebnisse des selbstentwickelten Evaluationsbogens sowie dem stetig wachsenden Einsatz in Schulen, Hochschulen und Unternehmen belegen kann.
In weiteren Forschungsarbeiten ist zu untersuchen, welche Lean Production Prinzipien zu verwenden oder anzupassen sind, wenn z. B. in größeren Teams oder mobil produziert wird. Des Weiteren sollte überprüft werden, inwieweit die Lernenden mit dem Endprodukt zufrieden sind und in ihrem Lernprozess unterstützt werden. Durch diese Forschungsarbeit wurde ein Beitrag dazu geleistet, die Lehre und Ausbildung zu optimieren, indem die Autoren/Lehrende in der Erstellung ihrer digitalen Lerninhalte im gesamten Prozess von aufeinander abgestimmten Werkzeugen unterstützt werden.