Il centro di calcolo Fenice

Il CRMA si avvale di strutture di calcolo ad alte prestazioni utilizzando tecniche computazionali tra le più avanzate.

Il popolamento e la gestione delle banche dati, necessarie alle simulazioni, sono condotte secondo moderne visioni di gestione ed analisi veloce di grandi volumi di dati interconnessi.

L'infrastruttura di calcolo, denominata FENICE (Fvg ENhanced Infrastructure and Computational Environment, Fig. 1) è costituita da un gruppo di computer (cluster), installati su degli armadi a telaio (rack), collegati e gestiti in modo da poter operare come un unico super-calcolatore (HPC, High Performance Computing), distribuendo il calcolo su più nodi (calcolo parallelo).

L'infrastruttura è installata in una sala-server della Protezione Civile Regionale a Jalmicco (Palmanova).

immagine contenuta nella pagina: il centro di calcolo fenice

Hardware

Attualmente il cluster di calcolo parallelo FENICE è costituito da (Tab. 1):

  • 14 nodi destinati al calcolo, di cui: 2 di proprietà di Arpa FVG, installati nel 2021, con 192 CPU in totale, e 12 di proprietà della Regione FVG, installati nel 2015/2016, con 448 CPU in totale;
  • 4 nodi, con 80 CPU in totale, destinati all’accesso degli utenti (masternode) e altri servizi (gestione delle code di calcolo, portale di pubblicazione dati, ecc.);
  • 5 nodi di storage, per complessivi 411 TB.

La gran parte dei nodi di calcolo, dei nodi di servizio e lo storage principale sono collegati fra loro da rete ad alte prestazioni InfiniBand.

ck_editor
NodiCaratteristicheCPUsAnnoModelloRuoloRete
2cpu: 3.00G (24) mem: 128 G24x22023DellNodi di storage ARPA (289TB)InfiniBand
 1cpu: 2.20G (28) mem: 64 G28x12021Dell R740

Nodi di storage ARPA

(52TB)

Ethernet
cpu: 2.30G (96) mem: 128 G96x22021HPE DL560 gen10Nodi di calcolo ARPAEthernet
cpu: 2.30G (32) mem: 126 G32x42015HP DL560 gen8Nodi di calcoloInfiniBand
8cpu: 2.10G (40) mem: 126 G40x82016HP DL560 gen9Nodi di calcoloInfiniBand
cpu: 2.10G (32) mem: 94 G32x22016Dell R740Nodi di storage (70TB)InfiniBand
cpu: 2.20G (20) mem: 64 G20x22018Dell R640Nodi di servizio per login e spazio home utenti, in alta affidabilità.InfiniBand
cpu: 2.20G (20) mem: 64 G20x22018Dell R640Altri servizi (pbs pro, jenkins, git, trac, shiny, thredds, geonetwork, postgis, ganglia, etc.)InfiniBand

Tabella 1 - La consistenza attuale dell’infrastruttura HPC Fenice

Ambiente di calcolo

Il sistema operativo della FENICE è la distribuzione Linux CentOS.

L’ambiente di calcolo (librerie, compilatori, software scientifico, workflow manager, ecc.) è condiviso fra tutti gli utenti dell’infrastruttura.

I programmi destinati al calcolo parallelo devono essere scritti e compilati secondo specifici protocolli: quello in uso sulla FENICE è Open MPI (Open source Message Passing Interface). 

L’esecuzione dei modelli avviene attraverso un sistema di gestione delle code di calcolo (PBS Pro), che alloca le risorse disponibili ai vari processi. A tal fine, i nodi computazionali sono stati raggruppati in 4 code di calcolo (‘adria’, ‘arpa’, ‘hp’ e ‘Julia’).

Hanno la precedenza le simulazioni destinate ai servizi operativi (previsioni meteo e della qualità dell’aria, ricadute degli incendi, ecc.), che richiedono un utilizzo quotidiano ed intensivo dell’infrastruttura soprattutto nelle prime ore della giornata, al fine di rilasciare i prodotti in tempo utile per le finalità istituzionali e gli utenti finali.

Tali simulazioni sono state predisposte in modo da essere totalmente automatizzate: dalla fase di acquisizione dei dati all’esterno, all’esecuzione dei vari programmi, alla pubblicazione dei risultati. Il workflow manager (ecFlow) consente agli operatori di monitorarne l’esecuzione e di individuare eventuali malfunzionamenti.

I programmi e gli script realizzati dagli operatori sono gestiti attraverso un sistema di sviluppo condiviso (trac), versionamento (git) e integrazione continua (jenkins) del software.

Lo storage principale dei dati è realizzato con il filesystem Lustre, ottimizzato proprio per i cluster di calcolo, consentendo numerosi accessi “concorrenti” in lettura e scrittura sui dischi da parte dei processi attivi sui nodi.

I linguaggi di programmazione e di scripting principalmente utilizzati sono: C, Fortran, Perl, Python, R, oltre ai linguaggi di scripting delle shell Linux.

La FENICE è ovviamente connessa in rete ed accede in lettura e scrittura a vari altri server, con diversi protocolli, per adempiere alle esigenze di acquisizione e diffusione dei dati, in un’ottica machine-to-machine.

Sono garantiti, attraverso specifici contratti, i servizi di system management, back-up e continuità operativa dell’infrastruttura.

L’accesso all’infrastruttura

Gli operatori accedono alla FENICE da remoto, dai propri PC di lavoro, attraverso un'interfaccia a riga di comando.

Le attività che vi svolgono sono:

  • sviluppo e manutenzione delle catene modellistiche e dei sistemi di acquisizione / elaborazione / pubblicazione dati
  • analisi di dati ed esecuzione di studi ambientali

Ultimo aggiornamento 12/12/2024

URL: https://arpa.fvg.it/temi/temi/modellistica-ambientale-crma/il-centro-di-calcolo-fenice/