Energy- and cost-efficient Lattice-QCD computations using graphics processing units

  • Quarks and gluons are the building blocks of all hadronic matter, like protons and neutrons. Their interaction is described by Quantum Chromodynamics (QCD), a theory under test by large scale experiments like the Large Hadron Collider (LHC) at CERN and in the future at the Facility for Antiproton and Ion Research (FAIR) at GSI. However, perturbative methods can only be applied to QCD for high energies. Studies from first principles are possible via a discretization onto an Euclidean space-time grid. This discretization of QCD is called Lattice QCD (LQCD) and is the only ab-initio option outside of the high-energy regime. LQCD is extremely compute and memory intensive. In particular, it is by definition always bandwidth limited. Thus—despite the complexity of LQCD applications—it led to the development of several specialized compute platforms and influenced the development of others. However, in recent years General-Purpose computation on Graphics Processing Units (GPGPU) came up as a new means for parallel computing. Contrary to machines traditionally used for LQCD, graphics processing units (GPUs) are a massmarket product. This promises advantages in both the pace at which higher-performing hardware becomes available and its price. CL2QCD is an OpenCL based implementation of LQCD using Wilson fermions that was developed within this thesis. It operates on GPUs by all major vendors as well as on central processing units (CPUs). On the AMD Radeon HD 7970 it provides the fastest double-precision D= kernel for a single GPU, achieving 120GFLOPS. D=—the most compute intensive kernel in LQCD simulations—is commonly used to compare LQCD platforms. This performance is enabled by an in-depth analysis of optimization techniques for bandwidth-limited codes on GPUs. Further, analysis of the communication between GPU and CPU, as well as between multiple GPUs, enables high-performance Krylov space solvers and linear scaling to multiple GPUs within a single system. LQCD calculations require a sampling of the phase space. The hybrid Monte Carlo (HMC) algorithm performs this. For this task, a single AMD Radeon HD 7970 GPU provides four times the performance of two AMD Opteron 6220 running an optimized reference code. The same advantage is achieved in terms of energy-efficiency. In terms of normalized total cost of acquisition (TCA), GPU-based clusters match conventional large-scale LQCD systems. Contrary to those, however, they can be scaled up from a single node. Examples of large GPU-based systems are LOEWE-CSC and SANAM. On both, CL2QCD has already been used in production for LQCD studies.
  • Große internationale Kooperationsprojekte am Large Hadron Collider am CERN, sowie zukünftig an der Facility for Antiproton and Ion Research (FAIR) am GSI Helmholtzzentrum für Schwerionenforschung GmbH, beschäftigen sich mit dem Verständnis der Quantenchromodynamik (QCD). Diese beschreibt dieWechselwirkung zwischen Gluonen und Quarks, den Bausteinen aller hadronischer Materie. Störungstheoretischen Ansätzen ist die QCD allerdings nur im Bereich hoher Energien zugänglich. Ab initio lässt sie sich für niedrigere Energien nur durch die Diskretisierung auf ein euklidisches Gitter in Raum und Zeit rechnen. Dieser Ansatz ist als Gitter-QCD bekannt. Gitter-QCD-Rechnungen werden aufgrund ihres hohen Rechenbedarfs auf den größten wissenschaftlichen Clustern durchgeführt und haben wiederholt deren Architektur beeinflusst. Seit dem Aufkommen der Nutzung von Grafikprozessoren für nichtgrafische Berechnungen (GPGPU) wurden diese auch für die Berechnung der Gitter- QCD interessant. Anders als traditionell für die Gitter-QCD genutzte Rechner sind sie ein Massenmarktprodukt, was Vorteile in Hinblick auf Preis und Weiterentwicklung verspricht. Im Rahmen dieser Dissertation wurde CL2QCD entwickelt, eine auf OpenCL basierende Anwendung, welche Gitter-QCD-Rechnungen sowohl auf Grafikprozessoren als auch auf traditionellen Prozessoren ermöglicht. Anders als andere GPGPU-Anwendungen für Gitter-QCD ist CL2QCD nicht auf Grafikprozessoren eines einzelnen Herstellers beschränkt. Mit 120 GFLOPS auf einer AMD Radeon HD 7970 bietet sie den schnellsten D= für doppelt genaue Rechnungen auf einem einzelnen Grafikprozessor. D= ist die rechenintensivste Operation der Gitter-QCD und wird häufig genutzt, um die Leistung verschiedener Systeme zu vergleichen.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Matthias BachGND
URN:urn:nbn:de:hebis:30:3-370743
Referee:Volker LindenstruthORCiD, Owe PhilipsenORCiDGND, Tilo Wettig
Advisor:Volker Lindenstruth
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2015/02/26
Year of first Publication:2014
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2015/02/18
Release Date:2015/02/26
Tag:Energy Efficiency; GPGPU; Green Computing; HPC; Lattice-QCD
Page Number:197
Last Page:197
HeBIS-PPN:355769344
Institutes:Informatik und Mathematik / Informatik
Sammlungen:Universitätspublikationen
Licence (German):License LogoDeutsches Urheberrecht