Präsentation auf PODC: Randomiserte parallele Zuweisung von Jobs auf Server

Auf dem ACM Symposium on Principles of Distributed Computing (PODC) in Chicago wird am 26.7.2016 eine theoretische Arbeit über die Verteilung von Jobs auf Server präsentiert werden.

Titel: Self-stabilizing Balls & Bins in Batches

Autoren: Petra Berenbrink, Tom Friedetzky, Peter Kling, Frederik Mallmann-Trenn, Lars Nagel, Chris Wastell

Abstract: A fundamental problem in distributed computing is the distribution of requests to a set of uniform servers without a centralized controller. Classically, such problems are modelled as static balls into bins processes, where m balls (tasks) are to be distributed to n bins (servers). In a seminal work, Azar et al. proposed the sequential strategy Greedy[d] for n=m. When thrown, a ball queries the load of d random bins and is allocated to a least loaded of these. Azar et al. showed that d=2 yields an exponential improvement compared to d=1. Berenbrink et al. extended this to m >> n, showing that the maximal load difference is independent of m for d=2 (in contrast to d=1).

We propose a new variant of an infinite balls into bins process. In each round an expected number of c*n new balls arrive and are distributed (in parallel) to the bins and each non-empty bin deletes one of its balls. This setting models a set of servers processing incoming requests, where clients can query a server's current load but receive no information about parallel requests.
We study the Greedy[d] distribution scheme in this setting and show a strong self-stabilizing property: For any arrival rate c=c(n)<1, the system load is time-invariant. Moreover, for any (even super-exponential) round t, the maximum system load is (w.h.p.) O(1/(1-c) * log(n/(1-c))) for d=1 and O(log(n/(1-c)))$ for d=2. In particular, Greedy[2] has an exponentially smaller system load for high arrival rates.

Arbeit über Beschleunigung von Migrationen (VHPC-Workshop)

FAST wird auf dem 11th Workshop on Virtualization in High-Performance Cloud Computing (VHPC) eine Arbeit vorstellen, die sich mit der Beschleunigung von Migrationen in virtuellen Umgebungen befasst. Der VHPC-Workshop wird am 23.6.2016 in Frankfurt stattfinden und zwar im Rahmen der International Supercomputing Conference - High Performance 2016 (ISC).

Titel: Accelerating Application Migration in HPC

Autoren: Ramy Gad, Simon Pickartz, Tim Süß, Lars Nagel, Stefan Lankes, André Brinkmann

Abstract: It is predicted that the number of cores per node will rapidly increase with the upcoming era of exascale supercomputers. As a result, multiple applications will have to share one node and compete for the (often scarce) resources available on this node. Furthermore, the growing number of hardware components causes a decrease in the mean time between failures. Application migration between nodes has been proposed as a tool to mitigate these two problems: Bottlenecks due to resource sharing can be addressed by load balancing schemes which migrate applications; and hardware errors can often be tolerated by the system if faulty nodes are detected and processes are migrated ahead of time.

VM migration currently seems to be the most promising technique for such approaches as it provides a strong level of isolation. However, the migration time of virtual machines is higher than the respective migration time on the process level. This can be explained by the additional virtualization layer in the memory hierarchy.

In this paper, we propose a technique for the acceleration of VM migration. We take advantage of the fact that freed memory regions within the guest system are not recognized by the hypervisor. Therefore, we fill them with zeros such that zero-page detection and compression can work more efficiently. We demonstrate that the approach reduces migration time by up to 8% with a negligible overhead for some applications.

Vortrag über Container-Migration auf VHPC-Workshop in Frankfurt

Auf dem 11th Workshop on Virtualization in High-Performance Cloud Computing (VHPC) wird am 23.6.2016 die Publikation "Migrating LinuX Containers Using CRIU" vorgestellt werden. Der Workshop wird gemeinsam mit der International Supercomputing Conference (ISC) in Frankfurt ausgerichtet werden, einer wichtigen internationalen HPC-Konferenz.

Titel: Migrating LinuX Containers Using CRIU

Autoren: Simon Pickartz, Niklas Eiling, Stefan Lankes, Lukas Razik, Antonello Monti

Abstract: Process migration is one of the most important techniques in modern computing centers. It enables the implementation of load balancing strategies and eases the system administration. As supercomputers continue to grow in size, according mechanisms become interesting to High-Performance Computing (HPC) as well.

Usually, migration is accomplished by means of hypervisor-based virtualization. However, container-based approaches are an attractive alternative for HPC to minimize the performance penalties. In contrast to virtual machine migration, the migration of operating system containers is mostly unexplored in the context of HPC until today.

In this paper we present a prototype implementation of a libvirt driver enabling the migration of LinuX Containers. We evaluate the driver in terms of overhead added by the additional software layer and compare its migration performance with that of virtual machines based on KVM.

Vortrag über Anwendungsmigration in HPC-Umgebungen auf der HPCS-Konferenz in Innsbruck

FAST wird eine Arbeit über Anwendungsmigration in HPC-Umgebungen auf der 14. "International Conference on High Performance Computing & Simulation" (HPCS 2016) in Innsbruck, Österreich präsentieren.

Titel: Application Migration in HPC -- A Driver of the Exascale Era?

Autoren: Simon Pickartz, Carsten Clauss, Jens Breitbart, Stefan Lankes und Antonello Monti

Abstract: Application migration is valuable for modern computing centers. Apart from a facilitation of the maintenance process, it enables dynamic load balances for an improvement of the system’s efficiency. Although, the concept is already wide- spread in cloud computing environments, it did not find huge adoption in HPC yet.
As major challenges of future exascale systems are resiliency, concurrency, and locality, we expect migration of applications to be one means to cope with these challenges. In this paper we investigate its viability for HPC by deriving respective requirements for this specific field of application. In doing so, we sketch example scenarios demonstrating its potential benefits. Furthermore, we discuss challenges that result from the migration of OS-bypass networks and present a prototype migration mechanism enabling the seamless migration of MPI processes in HPC systems.

Vortrag über Migration von MPI-Prozessen auf IPDRM-Workshop

FAST wird auf dem ersten "Workshop on Emerging Parallel and Distributed Runtime Systems and Middleware" (IPDRM) eine Arbeit präsentieren. Der Workshop wird zusammen mit dem "IEEE International Parallel and Distributed Processing Symposium" (IPDPS) in Chicago, USA veranstaltet werden.

Titel: Non-Intrusive Migration of MPI Processes in OS-bypass Networks

Autoren: Simon Pickartz, Carsten Clauss, Stefan Lankes, Stephan Krempel, Thomas Moschny, Antonello Monti

Abstract: Load balancing, maintenance, and energy efficiency are key challenges for upcoming supercomputers. An indispensable tool for the accomplishment of these tasks is the ability to migrate applications during runtime. Especially in HPC, where any performance hit is frowned upon, such migration mechanisms have to come with minimal overhead. This constraint is usually not met by current practice adding further abstraction layers to the software stack.
In this paper, we propose a concept for the migration of MPI processes communicating over OS-bypass networks such as InfiniBand. While being transparent to the application, our solution minimizes the runtime overhead by introducing a protocol for the shutdown of individual connections prior to the migration. It is implemented on the basis of an MPI library and evaluated using virtual machines based on KVM.
Our evaluation reveals that the runtime overhead is negligible small. The migration time itself is mainly determined by the particular migration mechanism, whereas the additional execution time of the presented protocol converges to 2ms per connection if more than a few dozen connections are shut down at a time.

Präsentation auf dem CrossCloud-Workshop

Auf dem 3. Workshop on CrossCloud Infrastructures & Platforms (CrossCloud) wird eine Arbeit über Schedulingstrategien in virtualisierten Cloudsystemen präsentiert werden. Der Workshop wird am 18.4. im Rahmen der EuroSys in London, Großbritannien stattfinden.
Titel: Evaluation of SLA-based Decision Strategies for VM Scheduling in Cloud Data Centers
Autoren: Andreas Kohne, Damian Pasternak, Lars Nagel, Olaf Spinczyk



HPC-Status-Tagung der Gauß-Allianz

Die fünfte HPC-Status-Tagung der Gauß-Allianz fand 2015 vom 14. bis zum 15. Dezember 2015 am Forschungskolleg Humanwissenschaften in Bad Homburg statt, die Organisation wurde von der Goethe-Universität Frankfurt am Main übernommen. Zielpublikum der Veranstaltung war die Hochleistungsrechnen-Community in Deutschland. Im Mittelpunkt der Diskussionen standen die vom BMBF im Rahmen des HPC-Software-Call geförderten Projekte, die ihren Status und ihre Zwischenergebnisse präsentierten und zur Diskussion stellten. Das FAST-Projekt stellte auf der Tagung insbesondere seine Fortschritte bei der Integration der Batch-Umgebung Slurm mit der im Projekt entwickelten Agentenumgebung und den Mechanismen zum transparenten Verschieben von Prozessen in HPC-Umgebungen vor.

COSH-Workshop: Akzeptierte Paper

Der 1st COSH Workshop on Co-Scheduling of HPC Applications, organisiert vom FAST-Partner TU München, wird am 19. Januar zusammen mit der HiPEAC 2016 in Prag stattfinden. Die folgenden Arbeiten wurden akzeptiert und werden beim Workshop präsentiert werden:

"A Resource-centric Application Classification Approach"
Alexandros-Herodotos Haritatos, Konstantinos Nikas, Georgios Goumas und Nectarios Koziris
School of ECE, NTUA, Athen, Griechenland

"Dynamic Process Management with Allocation-internal Co-Scheduling Towards Interactive Supercomputing"
Carsten Clauss, Thomas Moschny und Norbert Eicker
ParTec GmbH und Forschungszentrum Jülich, Deutschland

"Detailed Characterization of HPC Applications for Co-Scheduling"
Josef Weidendorfer und Jens Breitbart
Technische Universität München, Deutschland

"Terrible Twins: A Simple Scheme to Avoid Bad Co-Schedules"
Andreas de Blanche und Thomas Lundqvist
Department of Engineering Science, University West, Schweden

"Implications of Process-Migration in Virtualized Environments"
Simon Pickartz, Jens Breitbart und Stefan Lankes
RWTH Aachen und Technische Universität München, Deutschland

"Impact of the Scheduling Strategy in Heterogeneous Systems That Provide Co-Scheduling"
Tim Süß, Nils Döring, Ramy Gad, Lars Nagel, André Brinkmann, Dustin Feld, Eric Schricker und Thomas Soddemann
Johannes Gutenberg-Universität Mainz und Fraunhofer SCAI, Deutschland


Publiziert am: 14. Dezember 2015. Abgelegt unter Allgemein, News

COSH-Workshop in Prag (organisiert von FAST)

Der 1st COSH Workshop on Co-Scheduling of HPC Applications wird am 19. Januar 2016 in Prag stattfinden, gemeinsam mit der HiPEAC 2016. Organisiert wird der Workshop von Carsten Trinitis und Josef Weidendorfer von der Technischen Universität München.



Die Aufgabe von Höchstleistungsrechnern ist die perfomante und energieeffiziente Durchführung von (meist wissenschaftlichen und rechenintensiven) Anwendungen. Bisher wird dieses Ziel in der Regel dadurch erreicht, dass Rechenkerne bzw. -knoten Anwendungen exklusiv zugewiesen werden. Aus diesem Grund müssen Anwendungen hochgradig optimiert werden, damit auch nur ein Teil der Rechenleistung des Supercomputers ausgenutzt werden kann. Das setzt erfahrene Programmierer voraus.

Es wird erwartet, dass dieses Problem auf zukünftigen Exascale-Umgebungen mit Tausenden von Kernen noch deutlich schwieriger wird. Viele der heutigen hochskalierbaren Anwendungen werden nicht in der Lage sein, extrem parallele Exascale-Systeme ausreichend auszunutzen, weil sie durch knotenspezifische Engpässe wie die I/O-Bandbreite ausgebremst werden. Deshalb wird es für die effiziente Nutzung zukünftiger Supercomputer notwendig sein, mehrere Anwendungen simultan auf einem Knoten auszuführen.

Um Co-Scheduling effizient zu machen, dürfen sich Anwendungen nicht gegenseitig ausbremsen; zum Beispiel könnten eine speicherbegrenzte und eine rechenbegrenzte Anwendung zusammen auf einem Knoten laufen. In diesem Kontext könnte es notwendig sein, Anwendungen dynamisch zwischen Knoten zu migrieren, zum Beispiel, wenn eine neue Anwendung im System platziert werden muss. Für die Überwachung von Performanz und Energie, könnten zusätzliche Sensoren nötig sein, die Werte für "Key Performance Indicators" (KPIs) liefern.



Exascale-Architekturen, Supercomputer, Scheduling, Leistungsüberwachung, Sensoren, Energieeffizienz, Job-Migration


Wichtige Termine

Einreichfrist: 22. November 2015
Benachrichtigung: 5. Dezember 2014
Finale Version: 5. Dezember 2015
Workshop: 19. Januar 2016


Publiziert am: 2. November 2015. Abgelegt unter Allgemein, News

Arbeit über Co-scheduling auf der ICPP

FAST wird auf dem 11. International Workshop on Scheduling and Resource Management for Parallel and Distributed Systems (SRMPDS) eine Arbeit präsentieren. Der Workshop wird zusammen mit der International Conference on Parallel Processing (ICPP) in Peking, China veranstaltet werden.

Titel: Case Study on Co-Scheduling for HPC Applications

Autoren: Jens Breitbart, Josef Weidendorfer, Carsten Trinitis

Abstract: Most applications running on supercomputers achieve only a fraction of the peak performance of the system. In this paper we analyze the performance and energy efficiency of co-scheduling one memory bandwidth bound and one compute bound application on the same node. We present autopin+, a tool designed to monitor and optimize co-scheduling of applications. Our analysis shows that co-scheduling can improve both energy efficiency and overall throughput of a supercomputer. At best, runtime can be decreased by 28% and the energy consumption by 12%, respectively, compared to best case dedicated execution. The overall efficiency however strongly depends on the ratio of jobs available in the queue. We furthermore present a simple adaptive strategy depending on the available jobs in the queue.
Publiziert am: 8. September 2015. Abgelegt unter Allgemein, News