Date post: | 05-Apr-2015 |
Category: |
Documents |
Upload: | bathilda-keppel |
View: | 106 times |
Download: | 0 times |
Michael [email protected]
Benjamin [email protected]
Alex [email protected]
Scientific Workflow Systems
2
Ausblick
Drei Scientific Workflow Management Systeme DryadLINQ Trident Scientific Data Management Center (SDMC)
Untersuchung und Bewertung nach herausgearbeiteten Kriterien im Hinblick auf:
Datenmanagement (als zentralen Aspekt) Eignung zur Modellierung und Ausführung
wissenschaftlicher Prozesse Fähigkeit zur Stromdatenverarbeitung
3
Agenda
Vorstellung der Systeme
Vorstellung des Bewertungssystems
Untersuchung und Bewertung nach: Allgemeinen Kriterien Data-Management-Kriterien Workflow-Lebenszyklus-Kriterien
Auswertung der Ergebnisse und Faszit
DryadLINQ
5
Übersicht: DryadLINQ
Microsoft Entwicklungs- und Ausführungsumgebung Schwerpunkt auf Entwicklung skalierbarer und paralleler Rechensysteme auf großen Cluster Voraussetzungen: HPC-Cluster, Windows Server zwei Hauptkomponenten:
Dryad verteilte Execution Engine parallele Ausführung von Applikationen auf großen
Cluster-Systemen Ausführungsmodell basiert auf einem gerichteten,
azyklischen Graphen LINQ (Language Integrated Query)
Verwendung von Visual Studio ermöglicht es Applikationen in einem SQL-ähnlichen
Syntax zu schreiben
6
Technische Umsetzung
(1) Applikation in .Net Sprache und
(2) LINQ mit Dryad Extesions .Net Konstrukte zur Manipulation der
Datenmengen und Sequenzen Abfrage: Ausdruck bestehend aus
Operanden (Datenmengen) und LINQ-Operatoren
(3) Deployment DryadLINQ-Objekt wird erzeugt Ausdruck wird an das DryadLINQ übergeben
(4)LINQ-Ausdruck Kompilieren
(5) Verteilter Ausführungsplan
(6)Vorbereitung zur Ausführung Programmverteilung und Parallelisierung Generierung d. Ausführungscodes einzelner
Teilprogramme
7
Technische Umsetzung (2)
(1) Anstoßen der Rechnung Job-Manager (JM) wird aufgerufen erhält den Ausführungsplan erstellt einen Job-Graph und weist die physischen Ressourcen den
Knoten zu
(2) Ausführung der Rechnung
(3) Ausgaben in die Output-Tabellen
(4) Terminierung JM terminiert Output-Tabellen an DryadLINQ
(5) Umwandlung der Tabellen in die .Net DryadTable-Objekte
(6) .Net Programm läuft weiter
Trident
9
Trident
Open Source Scientific WFMS
Ziel: Verarbeitung großer Datenmengen
Domänenunabhängig
Verwendung:– Pan-STARRS- Panoramic Survey Telescope &
Rapid Response System– Project Neptune– COVE Oceanographic Visualization Workbench
10
Pan-STARRS
[http://pan-starrs.ifa.hawaii.edu/]
11
Neptune
[http://www.interactiveoceans.washington.edu/]
12
COVE
[http://www.interactiveoceans.washington.edu/]
13
Architektur
[http://research.microsoft.com/en-us/collaboration/tools/trident_workbench.doc]
14
Trident Composer
15
Trident Management Studio
16
Trident Management Studio
17
Domänenunabhängigkeit
Aktivitäten
Domänen-unabhängige
IF-THEN-ELSE / WHILE Aufbau einer DB Verbindung Datei Lesen/Schreiben
Domänen-spezifische
z.B. Berechnung der Masse eines Sternes
Scientific Data Management Center (SDMC)
19
Scientific Data Management Center(SDMC)
Projekt von SciDAC (Scientific Discovery trough Advanced Computing) des U.S. Department of Energy
Kombiniert Technologien kooperierender Anbieter
Derzeit kein eigenes System
Hier wird eine verwendete Systemkonfiguration vorgestellt, die veröffentlicht werden soll
20
SDMC – Ebenenprinzip
21
SDMC - Systemkombination
Storage Efficient Access Layer
ADIOS (Adaptable IO System)
Bibliotheken für C und Fortran Schnittstellen zum Ein- und Auslesen von Daten Variable Verarbeitungsstrategien der Daten möglich Bestimmen der Strategie über XML-Datei (kein Compiling)
22
SDMC - Systemkombination
Data Mining and Analysis Layer
Kepler 2.0
Stellt grafische Oberfläche bereit Engine zum Erstellen und Ausführen von Workflows Modellierung der Aktivitäten in Java verschiedene Berechnungsmodelle möglich
Daten-gesteuert Ereignis-gesteuert
23
SDMC - Kepler Oberfläche
24
SDMC - Systemkombination
Scientific Process Automation Layer
ESimMon (Electronic Simulation Monitoring) Dashboard
Webbasierte Anwendung zum verteilen von Daten Anzeigen und analysieren von Workflows Derzeit in Alpha-Phase und nicht frei erhältlich
Konnte daher hier nicht berücksichtigt werden!
Bewertungssystem
26
Bewertungssystem
Vergabe von Punkten je Kriterium■ 0 bis 10 Punkte pro Kriterium■ Bei Nichtbewertung neutrale 5 Punkte
Kategoriebewertung Mittelwert der Bewertungen einer Kategorie
Gewichtung Gewichte:
Allgemeine Kriterien: 0,2 Workflow Lebenszyklus: 0,3 Datenmanagement: 0,5
Gesamtbewertung Addieren der gewichteten Kategoriebewertungen
Allgemeine Kriterien
28
Übersicht: Allgemeine Kriterien
Usability Zuverlässigkeit Erweiterbarkeit Flexibilität und Portabilität
29
Usability
System SDMCVorteile - leicht bedienbar
Nachteile
Bewertung 7 3 8
Trident Dryad- leicht bedienbar - große Bibliotheken
- Mängel in Dokumentation
- keine grafische Oberfläche
- hohe Einarbeitungszeit
30
Zuverlässigkeit
System SDMCVorteile
Nachteile
Bewertung 5 2 5
Trident Dryad- Fehlersuche wird unterstützt
- Fehlersuche wird unterstützt
- keine Recovery-Funktion
- keine Recovery-Funktion - kaum Ausfallsicherheit
- keine Recovery-Funktion
31
Erweiterbarkeit
System SDMCVorteile
Nachteile
Bewertung 3 0 10
Trident Dryad- Open Source (Selbsterweiterung)
- automatische Updates - Plugins werden unterstützt - Open Source (Selbsterweiterung)
- keine automatischen Updates
- keine Erweiterungsmöglichkeit vorgesehen
32
Flexibilität und Portabilität
System SDMCVorteile
Nachteile
Bewertung 4 2 5
Trident Dryad - eingeschränkte Interaktion mit anderen Systemen (Export)
- hohe Anzahl unterstützter Datenbanken - eingeschränkte Interaktion mit anderen Systemen (Export)
- nur Windows - wenige definierte Datenbanken
- hohe Anforderungen an Infrastruktur - nur Windows - sehr wenige definierte Datenbanken - keine Interaktion mit anderen
- nur Linux und MacOS
33
Kategoriebewertung - Allgemeine Kriterien
Kriterium Trident Dryad SDMCUsability 7 3 8Zuverlässigkeit 5 2 5Erweiterbarkeit 3 0 10
4 2 5Mittelwert 4.75 1.75 7
Flexibilität und Portabilität
Datamanagement
35
Übersicht: Datamanagementkriterien
internes Datenformat Workflowmodellierungssprachen Stromdatenverarbeitung Datentypen im WF-Modell Datentransformation
36
Internes Datenformat
System Trident Dryad SDMC
VorteileNachteile - - -
Bewertung 10 10 10
intern: Prozesse als eine Menge von Ak-tivitäten in Tabellen direkt in Registry; Austausch: XAML mit Windows Work-flow Foundation.
Anstoßen: Execution Plan Graph; Wäh-rend der Rechnung: Files, TCP-Pipes, Shared Mamory.
intern: Kepler archi-ve format = mehrere XMLs(Kepler), BP(Binär) – allge-meine Infos im Foo-ter (Adios)
37
Workflowmodellierungssprachen
System Trident Dryad SDMC
Vorteile
- XML-Schema
Nachteile
-
Bewertung 5 0 10
graphische Repräsentation der Workflowmodellierungssprachekeine Möglichkeit Workflows textuell zu modellieren
keine expliziete Workflow Sprache
38
Stromdatenverarbeitung
System Trident Dryad SDMC
Vorteile
Nachteile
-
Bewertung 5 5 10
Stromdatenverarbeitung möglich (.Net Objekte)
Stromdatenverarbeitung möglich (.Net Objekte)
kontrollfluß- und datenflußgetrieben → Stromdatenverarbeitung und Wiederaktivierung möglich
Kontrollfußgetrieben → keine Wiederaktivierung bei der Ausführung
Kontrollfußgetrieben → keine Wiederaktivierung bei der Ausführung
39
Datentypen im WF-Modell
System Trident Dryad SDMC
VorteileNachteile - - -
Bewertung 10 10 10
alle Möglichkeiten zur Nutzung und Neudefinition von Datentypen der .Net-Sprachen
alle Möglichkeiten zur Nutzung und Neudefinition von Datentypen der .Net-Sprachen
alle Möglichkeiten zur Nutzung und Neudefinition von Java-Datentypen
40
Datentransformation
System Trident Dryad SDMC
Vorteile
NachteileBewertung 8 7 8
automatische Konvertierung von Standard-Datentypen
alle .NET-Konvertierungs-Konstrukte
automatische Konvertierung von Standard-Datentypen
keine explizit vordefinierten Konvertierungs-Aktivitäten
keine explizit vordefinierten Konvertierungs-Aktivitäten
Fehler bei der automatischen Konvertierung
41
Kategoriebewertung - Datenmanagement
Kriterium Trident Dryad SDMCInternes Datenformat 10 10 10Sprachen 5 0 10Stromdatenverarbeitung 5 5 10Datentypen im WF-Modell 10 10 10Datentransformation 8 7 8Mittelwert 7,6 6,4 9,6
Vergabe von Punkten je Kriterium
Workflow Lebenszyklus
43
Design und Zusammensetzung
System Trident Dryad SDMC
Vorteile Gr. Designkomp. Gr. Designkomp.
Nachteile
Bewertung 8 0 8
- Kollaborative Entwicklung nicht unterstützt
- Keine Gr.Designkomp. - WF muss in .NET programmiert werden
- Kollaborative Entwicklung nicht unterstützt
44
Erweiterbarkeit des Workflow-Modells
System Trident Dryad SDMC
Vorteile Neue Aktivitäten können erstellt werden
Nachteile - - -
Bewertung 10 10 10
45
Ressourcenplanung
System Trident Dryad SDMC
Vorteile unterstützt Scheduling
Nachteile -
Bewertung 5 5 10
unterstützt Optimierung der Prozessausführung
unterstützt Scheduling und Opt. Der Prozessausführung
- keine Optimierung d. Prozessausführung
- Scheduling wird nicht unterstützt
46
Prozessausführung
System SDMC
Vorteile
Nachteile
Bewertung 6 5 4
Trident DryadMonitoring, Visualisierung d. Daten, Debug
Monitoring u. Fail-Over-Funktionalität
Monitoring u. Visualisierung der Daten
- keine Recovery Funktionalität
- Kein Debug der Prozesse u. keine Visualisierung d. Daten
- kein Debug von Prozessen u. keine Recovery funk.
47
Adoption-Änderparkeit v.Proz. zur Laufzeit
System Trident Dryad SDMC
Vorteile - -
Nachteile Änderung zur Laufzeit wird nicht unterstützt
Bewertung 0 0 2
Bietet diese Funktionalität an
- diese ist fehlerhaft und unzuverlässig
48
Result- und Workflow-Sharing
System Trident Dryad SDMC
Vorteile -
Nachteile
Bewertung 8 0 (neutraler Wert) 5
Unterstützt WF-Sharing. Result-Sharing nur begrenzt (durch Export in .doc)
eine Komponente ist für Result und WF-Sharing vorgesehen
- Begrenzte Unterstützung von Result-Sharing
- unterstützt weder Result- noch Workflow-Sharing
- diese konnte jedoch nicht analysiert werden
49
Analyse von ausgeführten Prozessen
System Trident Dryad SDMC
Vorteile -
Nachteile - - wird nicht unterstützt -
Bewertung 10 0 10
bietet umfangreiche Möglichkeiten dafür
bietet umfangreiche Möglichkeiten dafür
50
Kategoriebewertung - Workflow Lebenszyklus
Kriterium Trident Dryad SDMC
8 0 8
10 10 10Ressourcenplanung 5 5 10Prozessausführung 6 5 4
0 0 2
8 0 5
10 0 10Mittelwert 6,71 2,86 7
Design und ZusammensetzungErweiterbarkeit des Workflow-Modells
Adaption – Änderbarkeit der Workflows zur LaufzeitResult- und Workflow-SharingAnalyse von ausgeführten Prozessen
Auswertung
Gewichtung und Gesamtbewertung
52
Kategorie (Gewicht) Trident Dryad SDMCAllgemeine Kriterien (0,2) 0,95 0,35 1,4Workflow-Lebenszyklus (0,3) 2,01 0,86 2,1Datenmanagement (0,5) 3,8 3,2 4,8Gesamtbewertung 6,76 4,41 8,3
Fazit
53
SDMC erreicht den höchsten Nutzwert Ist jedoch noch in der Entwicklung
Trident alle notwendigen Komponenten und Funktionalitäten vorhanden. Wird bereits eingesetzt
DryadLINQ Umgebung für hochskalierbare verteilte Berechnungen Kein Scientific WFMS im klassischen Sinne
End Of Document