ALICE: piano
CCRC, stato,
risultati,
problemi
Stefano Bagnasco, ALICE
Gabina INFNGRID – CNAF May 4, 2008
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 2
April running profile
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 3
April se availability
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 4
Some issues from mar-apr running
● Average file sizes too low (inefficient tape writing) ■ RAW data chunks size 1GB->10GB
• Subsequently ESDs 0.1 GB->1GB (without any further consolidation)
● Too many (repeat) mounts of same tapes (inefficient robot usage) ■ Pre-staging of datasets targeted for FTS replication
• For ‘late’ transfers – files no longer in disk buffer
■ Optimization of MSS mount points • Separate for RAW data and ESDs
■ Use of file archives • All job output in a single file stored to MSS
●
L. B
etev
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 5
Offline tasks in May CCRC’08
● Registration of data in CASTOR2 (T0) and on the GRID
● Replication T0->T1 ● Conditions data gathering and publication on
the GRID ● Quasi-online reconstruction – Special emphasis
■ Pass 1 at T0 ■ Pass 2 at T1s ■ Replication of ESDs to CAF/T2s
● Quality control ● MC production and user analysis at CAF/T2s –
Scaling up of CAF
L. B
etev
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 6
Storage requirement at Tier 1s
● Additional resources needed for May ■ 80% pp scenario
● Disk will store ESDs from RAW ■ Assuming ESD+other files 20% of RAW
Tier 1 site Disk space (TB) Tape space (TB)
CCIN2P3 (15%) 3 14
CNAF (15%) 3 14
GridKA (45%) 9 44 (already deployed)
NDGF (15%) 3 14
RAL (5%) 1 5
T1-NL (5%) 1 5
TOTAL 20 96 L. B
etev
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 7
CASTOR mountpoints
L. B
etev
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 8
CNAF: Stato CE e SE
● Stato servizi: OK ■ dopo qualche problema con la configurazione dell’utente alicesgm
● CE: I job sono ripartiti correttamente venerdì pomeriggio (figura)
● SE: Attualmente non abbiamo fatto ancora nessuna prova di FTS
■ un problema di configurazione sull’endpoint al CNAF che dovrebbe essere stato risolto da Dejan)
Class Staged: GB (Files)
Migrated: GB (Files)
T1D0 825.870 (2966)
3214.648 (7364)
Scratch 3.809 (404)
495.036 (766)
F. N
ofer
ini
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 9
Cnaf: Stato vo-box
● È stato aggiornato il sistema operativo alla versione SLC4 e a glite3.1 con il supporto del farming.
● Installazione dei pacchetti Castor 2.1.6 (Dejan) ● Per ragioni di tempo la macchina è stata installatata a
mano e sarà da quattorizzare in tempi brevi (CCRC permettendo).
● Il problema di ‘kernel panic’ delle settimane scorse, dovuto all’esplosione "del numero di jobs sulla "VOBox, sembra essere "rientrato a seguito di "aggiornamenti di AliEn.
■ Attualmente il numero dei "processi FTD è sotto "controllo.
F. N
ofer
ini
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 10
Tier-2: stato upgrade vobox
● Torino: OK ■ Ancora con solo 30 job slot per lavori in sala macchine
● Catania: OK ■ Problemi minimi rapidamente risolti
● Bari: OK ■ La VO-Box è x86_64, l’upgrade ha richiesto qualche operazione
in più per far funzionare i pacchetti gLite (P. Mendez)
● Cagliari: downtime ■ Ma l’upgrade dovrebbe essere stato completato
● Legnaro: OK ■ Piccola riconfigurazione necessaria per il cambio dell’hostname.
■ Problema di reporting del numero di job running, risolto (C. Grigoras)
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 11
Tier-2: stato storage
● Torino (DPM) ■ Running, è stato brevemente in produzione
● Cagliari (DPM) ■ Installato e funzionante, ma non in produzione
● Bari (dCache) ■ Un problema con la configurazione di un nuovo pool ■ Lo splitting del database richiede la temporanea
migrazione dei dati in un altro sito
● Legnaro (dCache) ■ Necessario/utile anche qui lo splitting del DB?
Stefano Bagnasco - ALICE Gabina INFNGRID – CNAF May 4, 2008 - 12
Attivita in maggio
● Generali ■ «Graduale» introduzione del WMS
■ In ritardo rispetto al previsto (settimana in corso)
■ Decommissioning dei RB
■ Quasi-online reconstruction
● Tier-1 ■ Upgrade server xrootd (hardware)
■ Verifiche della performance
■ Test di accesso
■ Esportazione dei dati dal T-0 ■ Ricostruzione (pass 2)
● Tier-2 ■ Test di accesso allo storage
■ Miglioramento della stabilità degli SE
■ Replicazione degli ESD ■ Nuovi cicli di produzione MC (sullo storage dei T-2)