Il Contesto

Attualmente le risorse fisiche utilizzate dall’INAF per il calcolo sono rese disponibili o da ambienti “on premise” interni all’Ente, o da richieste a strutture specifiche nel caso le risorse stesse fossero ingenti. In questo scenario risulta interessante valutare come una soluzione cloud commerciale possa consentire di:

  • essere accessibile via web, in maniera sicura, da qualsiasi struttura l’operatore si trovasse a lavorare
  • consenta di disporre delle risorse necessarie istantaneamente o comunque in pochissimi minuti
  • preveda un effort economico parametrato dall’effettivo utilizzo

 A partire da queste esigenze di INAF,  ha iniziato la sperimentazione della piattaforma Cloud offerta da Amazon (Amazon Web Services, AWS) per esplorare applicazioni di questa tecnologia alle necessità di calcolo in ambito Astrofisico e di interesse per l’Ente.

Nel contesto dei servizi offerti della piattaforma, di rilevante importanza ricoprono i servizi (offerti attraverso accesso web) essenzialmente a tre macro-categorie:

Calcolo parallelo ed accelerato

  • Esigenze di calcolo HTC parallelo attraverso il servizio Amazon Elastic Cloud Computing (EC2). L’utilizzo di EC2 permette di creare in modo rapido clusters di macchine virtuali adatte all’esecuzione parallela di software HTC (specialmente di tipo embarrassingly parallel) e/o basato su Containers e microservices. La piattaforma permette di scalare applicazioni che beneficiano di calcolo parallelo HTC mettendo a disposizione migliaia di cores in modo elastico (tra i quali Intel Xeon Cascade Lake, Xeon E5 Cascade Lake) e fino ad un massimo di alcune centinaia di TB di RAM (con una media di 4 GB/core)
  • Esigenze di calcolo accelerato da GPU: La piattaforma EC2 permette di accelerare applicazioni in modalità HTC+GPU attraverso la disponibilità centinaia di GPU della famiglia NVIDIA (offerte anche in modalità SLI fino a 8). Tra le GPU più performanti, è possibile ottenere nodi con GPU NVIDIA Tesla V100 (fino a 8 per nodo), ciascuna in associazione a 5.120 core CUDA e 640 core Tensor.

Analisi dati e Machine Learning (as a Service)

La piattaforma, attraverso il servizio SageMaker, permette di avere a disposizione un framework di machine learning e di Data Analytics. Il servizio permette l’accesso a piattaforme di Machine Learning (offerte sotto forma di Webservice) che dispongono di algoritmi già implementati adattabili alle esigenze dell’utente. Usando SageMaker è possibile creare, addestrare e utilizzare modelli di Machine Learning per applicazioni senza dover provvedere alla infrastruttura sottostante sia in fase di training che di deployment.

Deployment di infrastrutture per applicazioni complesse e/o scalabili

La combinazione dei servizi EC2, di storage e di federation (quali la possibilità di usare in modalità ibrida servizi AWS + ICT INAF) consente di progettare architetture scalabili basati su concetti di Serverless ApplicationEvent Driven application (basati ad esempio su meccanismi di message passing tra applicazioni) e On-Demand (ad esempio, esecuzione di pipeline di riduzione dati su richiesta di triggers specifici in ambiente containerizzato).

Meccanismo di accesso alle risorse

Il paradigma di calcolo basato su Cloud è ottimale nel momento in cui sia necessario accedere a un quantitativo ragguardevole di risorse in modo rapido, sporadico nel tempo e di durata limitata. Per questa ragione, l’accesso delle risorse nel contesto di questo progetto è offerto in modalità a sportello mediante la compilazione del form all’indirizzo:

https://forms.gle/VoDwCegfuGu7C5Am7

Al fine di garantire un accesso sia capillare che con una opportuna granularità che permetta di valutare le potenzialità effettive della piattaforme si raccomanda di sottoporre progetti che rispecchino il paradigma di calcolo Cloud (accesso rapido alle risorse, sporadico nel tempo e di durata limitata). A titolo esemplificativo, si considerino le seguenti scale di progetti accettabili

  • Small project, scalability test
  • Medium project
  • Large project

La call mette a disposizione una potenza totale pari a svariate migliaia di cores/hrs equivalenti.

Progetti approvati

Al momento, a seguito di richiesta di risorse , sono stati attivati i seguenti progetti che prevedono lo sfruttamento delle risorse di calcolo AWS messe a disposizione da INAF-ICT:

  • ASTRI IRFs production testbest. Valutazione della piattaforma AWS per la produzione delle Instrument Response Function (IRF) del mini array di ASTRI al Teide. La sperimentazione prevede la simulazione completa degli eventi elettromagnetici per la produzione delle IRFs Persone coinvolte: Valentina La Parola (INAF IASF Pa) Giancarlo Cusumano (INAF IASF Pa), Teresa Mineo (INAF IASF Pa), Antonio Pagliaro (INAF IASF Pa)
  • Simulazioni di Ottica Adattiva (MAORY) Utilizzo della piattaforma AWS per simulazioni HTC Montecarlo (Zemax + Matlab) nel contesto dell’analisi di tolleranza del modulo E-ELT MCAO del progetto MAORY. Persone coinvolte: PI: Demetrio Magrin (INAF OA Padova). Co-I: Giorgio Pariani (OA Brera), Matteo Munari (OA Catania) 
  • XAO algorithms. Esecuzione di codici Matlab paralleli mediante parallelizzazione con Matlab Parallel Server for clusters. Valutazione di algoritmi di deconvoluzione efficienti in termini di Extreme Adaptive Optics Persone coinvolte: Gianluca Licausi (OA Roma). Douglas Hope and Stuart Jefferis (Georgia State, USA)
  • Codici Astrofisici di fisica stellareEsecuzione di codici di simulazione e di analisi relativi a stelle variabili pulsanti, in dettaglio quelle di tipo Cefeidi ed RR Lyrae. Sfruttamento della piattaforma per calcolo accellerato ed HTC Persone coinvolte: Giulio Capasso (OACn), Roberto Molinaro (OACn)
  • Scheduling ESPRESSO follow-up of TESS TargetsHTC task for running heavly parallel simulations of the spectroscopic followup with ground based spectrographs (ESPRESSO and HARPS) of TESS targets.  Persone coinvolte: Lorenzo Cabona (OA Brera), Pedro Viana and Joao Faria (Porto University)
  • Testing Dynamical modelling of disc galaxyExecution of GPU based code (NVIDIA Cuda + PyCuda) for modelling galaxy-disc dynamics. Persone coinvolte: Stefano Covino (OA Brera), Francesco Haardt (Univ. Insubria), Massimo Dotti (Univ. Bicocca), Fabio Rigamonti (Univ. Insubria)
  • PSF prediction tool for the MAVIS-VLT instrumentPSF simulation algorithm based on Fourier Model with use of GPU codes (cuPy and NVIDIA CUDA).Persone Coinvolte: Fabio Rossi (INAF Arcetri), Guido Agapito (INAF-Arcetri), Cedric Plantet (INAF-Arcetri), Benoit Neichel (LAM), Olivier Beltramo-Martin (LAM) 
  • GRB modellingGamma-ray burst forward + reverse shock afterglow model parameter estimation on multiwavelength data. The parameter estimation is performed through Markov Chain Monte Carlo sampling of the posterior distribution using the emcee python package, which supports simple parallelization through the python multiprocessing module. The speed up is almost linear with the number of threads, making the cloud platform a very attractive option. Persone Coinvolte: Om Sharan Salafia, Giancarlo Ghirlanda (OA Brera)
  • Machine-Assisted cosmologyAWS Cloud Computing facilities are used for training a learning algorithm to extract cosmological information from the galaxy distribution without being limited by incomplete statistical measures. Machine learning models based on convolutional neural networks to infer cosmological parameters from galaxy maps Persone Coinvolte: Ben Granett (OA Brera – UniMI
  • Unsupervised classification of CRISM hyperspectral data on Mars (Beatrice Baschetti -uni Padova, Cristian Carli (IAPS) Francesca Altieri (IAPS))
  • Training ANN to find satellite trails in the REM archive (Emilio Molinari – OA Brera, Letizia Rosseti, Marco Landoni)
  • High-computational electromagnetic analysis of a SKA-LOW station (Pietro Bolli, OA Arcetri)
  • Spectropolarimetry of NS-LMXBs with Montecarlo methods (Ruben Farinelli OA Bologna, Massimo Cocchi (INAF – Cagliari))
  • Serverless Markov Chain Monte Carlo (Fabio Castagna, OA Brera – Stefano Andreon OA Brera)
  • Development of Deep Learning methods for Gamma-ray Burst detection in AGILE data (Niccolò Parmiggiani e Andrea Bulgarelli OA Bologna)

Informazioni sul board

Principal Investigators: Marco Landoni – INAF OA Brera, Riccardo Smareglia – INAF OA Trieste
Board Tecnico: Giuliano Taffoni (OA Trieste), Marco Landoni (OA Brera), Riccardo Smareglia (OA Trieste), Alessandro Costa (OA Catania), Antonio Calanducci (OA Catania).

Per informazioni, potete inviare una richiesta all’indirizzo aws-info.ict@inaf.it. Inoltre, per chi volesse inoltre registrarsi al gruppo cloud AWS nell’ambito ICT Inaf può ricevere aggiornamenti attraverso l’iscrizione alla mailing list aws.ict@inaf.it