Il centro di calcolo Fenice
Il CRMA si avvale di strutture di calcolo ad alte prestazioni utilizzando tecniche computazionali tra le più avanzate.
Il popolamento e la gestione delle banche dati, necessarie alle simulazioni, sono condotte secondo moderne visioni di gestione ed analisi veloce di grandi volumi di dati interconnessi.
L'infrastruttura di calcolo, denominata FENICE (Fvg ENhanced Infrastructure and Computational Environment, Fig. 1) è costituita da un gruppo di computer (cluster), installati su degli armadi a telaio (rack), collegati e gestiti in modo da poter operare come un unico super-calcolatore (HPC, High Performance Computing), distribuendo il calcolo su più nodi (calcolo parallelo).
L'infrastruttura è installata in una sala-server della Protezione Civile Regionale a Jalmicco (Palmanova).
Hardware
Attualmente il cluster di calcolo parallelo FENICE è costituito da (Tab. 1):
- 14 nodi destinati al calcolo, di cui: 2 di proprietà di Arpa FVG, installati nel 2021, con 192 CPU in totale, e 12 di proprietà della Regione FVG, installati nel 2015/2016, con 448 CPU in totale;
- 4 nodi, con 80 CPU in totale, destinati all’accesso degli utenti (masternode) e altri servizi (gestione delle code di calcolo, portale di pubblicazione dati, ecc.);
- 5 nodi di storage, per complessivi 411 TB.
La gran parte dei nodi di calcolo, dei nodi di servizio e lo storage principale sono collegati fra loro da rete ad alte prestazioni InfiniBand.
- ck_editor
Nodi Caratteristiche CPUs Anno Modello Ruolo Rete 2 cpu: 3.00G (24) mem: 128 G 24x2 2023 Dell Nodi di storage ARPA (289TB) InfiniBand 1 cpu: 2.20G (28) mem: 64 G 28x1 2021 Dell R740 Nodi di storage ARPA
(52TB)
Ethernet 2 cpu: 2.30G (96) mem: 128 G 96x2 2021 HPE DL560 gen10 Nodi di calcolo ARPA Ethernet 4 cpu: 2.30G (32) mem: 126 G 32x4 2015 HP DL560 gen8 Nodi di calcolo InfiniBand 8 cpu: 2.10G (40) mem: 126 G 40x8 2016 HP DL560 gen9 Nodi di calcolo InfiniBand 2 cpu: 2.10G (32) mem: 94 G 32x2 2016 Dell R740 Nodi di storage (70TB) InfiniBand 2 cpu: 2.20G (20) mem: 64 G 20x2 2018 Dell R640 Nodi di servizio per login e spazio home utenti, in alta affidabilità. InfiniBand 2 cpu: 2.20G (20) mem: 64 G 20x2 2018 Dell R640 Altri servizi (pbs pro, jenkins, git, trac, shiny, thredds, geonetwork, postgis, ganglia, etc.) InfiniBand Tabella 1 - La consistenza attuale dell’infrastruttura HPC Fenice
Ambiente di calcolo
Il sistema operativo della FENICE è la distribuzione Linux CentOS.
L’ambiente di calcolo (librerie, compilatori, software scientifico, workflow manager, ecc.) è condiviso fra tutti gli utenti dell’infrastruttura.
I programmi destinati al calcolo parallelo devono essere scritti e compilati secondo specifici protocolli: quello in uso sulla FENICE è Open MPI (Open source Message Passing Interface).
L’esecuzione dei modelli avviene attraverso un sistema di gestione delle code di calcolo (PBS Pro), che alloca le risorse disponibili ai vari processi. A tal fine, i nodi computazionali sono stati raggruppati in 4 code di calcolo (‘adria’, ‘arpa’, ‘hp’ e ‘Julia’).
Hanno la precedenza le simulazioni destinate ai servizi operativi (previsioni meteo e della qualità dell’aria, ricadute degli incendi, ecc.), che richiedono un utilizzo quotidiano ed intensivo dell’infrastruttura soprattutto nelle prime ore della giornata, al fine di rilasciare i prodotti in tempo utile per le finalità istituzionali e gli utenti finali.
Tali simulazioni sono state predisposte in modo da essere totalmente automatizzate: dalla fase di acquisizione dei dati all’esterno, all’esecuzione dei vari programmi, alla pubblicazione dei risultati. Il workflow manager (ecFlow) consente agli operatori di monitorarne l’esecuzione e di individuare eventuali malfunzionamenti.
I programmi e gli script realizzati dagli operatori sono gestiti attraverso un sistema di sviluppo condiviso (trac), versionamento (git) e integrazione continua (jenkins) del software.
Lo storage principale dei dati è realizzato con il filesystem Lustre, ottimizzato proprio per i cluster di calcolo, consentendo numerosi accessi “concorrenti” in lettura e scrittura sui dischi da parte dei processi attivi sui nodi.
I linguaggi di programmazione e di scripting principalmente utilizzati sono: C, Fortran, Perl, Python, R, oltre ai linguaggi di scripting delle shell Linux.
La FENICE è ovviamente connessa in rete ed accede in lettura e scrittura a vari altri server, con diversi protocolli, per adempiere alle esigenze di acquisizione e diffusione dei dati, in un’ottica machine-to-machine.
Sono garantiti, attraverso specifici contratti, i servizi di system management, back-up e continuità operativa dell’infrastruttura.
L’accesso all’infrastruttura
Gli operatori accedono alla FENICE da remoto, dai propri PC di lavoro, attraverso un'interfaccia a riga di comando.
Le attività che vi svolgono sono:
- sviluppo e manutenzione delle catene modellistiche e dei sistemi di acquisizione / elaborazione / pubblicazione dati
- analisi di dati ed esecuzione di studi ambientali
Ultimo aggiornamento 12/12/2024
URL: https://arpa.fvg.it/temi/temi/modellistica-ambientale-crma/il-centro-di-calcolo-fenice/