Getting started

Passi per l'introduzione di un nuovo sito in grid

  1. Firma del Memorandum. Per essere parte dell'infrastruttura italiana di Grid, il sito deve accettare diverse norme di comportamento descritte nel Memorandum Of Understandig (MoU): versione pdf/versione doc. Il documento deve essere firmato dal responsabile del sito (il COLG per i siti INFN) e inviato via fax al CNAF. Il MoU della Grid italiana al momento sostituisce il Service level Description dell'infrastruttura EGEE.
  2. Mailing list di sito. Ogni sito deve definire una mailing list corrispondente ad un alias e-mail del tipo grid-prod@<dominio-sito>, necessaria come strumento di comunicazione tra il centro operativo della Grid italiana e il sito. La mailing list serve per segnalare informazioni, aggiornamenti  e problemi vari, e verrà inclusa nella mailing list dei siti di produzione italiani. La mailing list deve includere tutti i site-managers responsabili della gestioen del sito.
  3. Registrazione su GOC-DB. Con l'aiuto del centro operativo della Grid italiana, il sito dovrà registrare le proprie risorse in un database centrale europeo denominato GOC-DB. Le informazioni da registrare in questo database, e da inviare anche via e-mail ai responsabili del centro operativo della grid italiana (it-roc-managers <at> lists.infn.it) sono le seguenti. Le voci contrassegnate da asterisco sono quelle obbligatorie.
  4. Registrazione dei site manager. Terminata questa registrazione, i site-manager potranno registrarsi a loro volta sul GOC-DB, richiedendo un account da amministratori del proprio sito. Lo stato del sito in questa prima fase è "Candidate" ed il monitoring dello stato del sito non risulta attivo in questa fase.
  1. Aggiornamento lista dei servizi di sito. A questo punto il site manager e' continuativamente responsabile di mantenere aggiornate le informazioni del proprio sito sul database centrale: dovranno essere registrati i servizi resi disponibili dal sito (CE, SITE-BDII, SRM, MONBOX, etc.) e tale elenco dovrà essere mantenuto aggiornato ad ogni variazione. Se presenti, anche servizi centrali come WMS, BDII, LFC, VOMS, etc. devono essere registrati sul GOC-DB. L'elenco complessivo dei servizi dichiarato su GOC-DB viene utilizzato per definire la lista dei servizi da tenere sotto monitraggio. I risultati di tale monitoraggio vengono utilizzati per calcolare il livello di affidabilità mensile del sito. Una volta che i site-manager avranno inserito le suddette informazioni, il centro operativo della Grid è autorizzato a cambiare lo stato del sito in "Uncertified" ed attivare il monitoring per dei test di funzionamento preliminari: il sito apparirà nella sezione "test" del tool di controllo GSTAT.
  2. Contatti di posta elettronica. E' necessario definire i seguenti contatti di posta elettronica:
    • -- mailing list del CSIRT (Computer Security Incident Response Team) di sito. Il formato di tale indirizzo deve essere del tipo: grid-sec(at)nomesito (es. grid-sec(at)to.infn.it). La lista deve contenere (a) almeno un amministratore del sito Grid (b) il Security Officer del sito (vedi punto seguente) e (c) ove presente, una persona responsabile del calcolo del sito, tale persona generalmente se presente non si occupa dell'amministrazione del sito Grid. Tale contatto va anche inserito nel GOC-DB alla voce "CSIRT email".

      IMPORTANTE: Gli archivi di tale mailing list non devono essere pubblicamente accessibili, inoltre non deve essere possibile sottoscriversi liberamente a tale lista, pena la non certificazione del sito.

      La persona individuata deve essere un amministratore del sito gia' registrato su GOC-DB e deve esplicitamente fare richiesta - sempre su GOC-DB del ruolo "Security Officer" cliccando su "Request a Role" nella barra a sinistra.

    • -- il contatto di posta elettronica del Security Officer del sto. Tale persona è responsabile delle questioni di sicurezza che concerno il sito Grid.
  3. Registrazione su helpdesk. I site-manager dovranno registrarsi nel sistema di helpesk italiano e saranno cosi' resi responsabili delle questioni inerenti la gestione del sito. responsabili del gruppo di supporto del proprio sito.
  4. Monitoring del sito. Sulle risorse di calocolo del sito devono essere abilitate le VO necessarie per l'esecuzione dei job computazionali di test. Tali VO sono: infngrid, ops e dteam. Ad esse deve essere attribuita una priorità maggiore rispetto ad altre VO esistenti a livello di Local Resource Management System, per consentire la rapida esecuzione dei job usati per il monitoraggio ed inviati al sito.
  5. Certificazione del sito. Il centro operativo della Grid italiana comunicherà l'inizio del periodo di certificazione del sito tramite un ticket assegnato al sito presso l'helpdesk italiano.
  6. Passaggio a "Certified". Una volta superati con successo i test idi certificazione, lo stato del sito cambierà in "certified". Il sito viene a questo punto inserito dal centro operativo di Grid all'interno dei sistemi informativi di Grid (BDII). Da questo punto in poi i servizi Grid offerti dal sito (come specificato su GOC-DB) vengono sottoposti a monitoraggio continuativo. I risultati di tale monitoraggio (VO ops) sono importanti in quanto vengono utilizzati per il calcolo dell'availability/reliability mensile del sito. L'availability minima del sito deve essere pari al 70%, mentre la reliability minima e' del 75%. I siti certificati con availability inferiore al 50% per 3 mesi consecutivi vengono sospesi.
  7. Accounting. La Grid italiana dispone di una infrastruttura di accounting, che permette la raccolta e l'aggregazione dei dati di accounting dei vari siti. Tali dati - una volta aggregati e resi anonimi per non esporre informazioni sensibili - sono poi resi accessibili  - previa registrazione del site manager - via web presso il portale HLRmon. Tali dati vengono a loro volta inviati e raccolti centralmente. Il portale di accounting EGEE permette la visualizzazione e comparazione dei dati per tutti i siti e paesi europei afferenti all'infrastruttura.
    Per essere parte dell'infrastruttura di accounting, il sito deve poter inviare i propri usage record ad un database (HLR). Tale database può essere ospitato dal sito stesso. Alternativamente un HLR "multi-sito" può essere usato a questo scopo (INFN-Padova per i siti del centro-nord, INFN-Catania per i siti del centro sud). Tramite un ticket, bisognerà fornire agli amministratori le seguenti informazioni:
    • -- nomi delle code grid del sito, nel formato: gridit-ce-001.cnaf.infn.it:2119/jobmanager-lcgpbs-cert
    • -- nomi delle code non grid, nel formato: hostname:queue
    • -- nome, cognome e subject del certificato personale di ciascun site-manager
    • -- subject del certificato dei vari Computing Element del sito.
  8. Ogni venerdì è possibile compilare un report sui problemi occorsi al sito durante la settimana e che si ritiene debbano essere segnalati, unitamente agli interventi effettuati: verrà ricevuta automaticamente una mail reminder con le indicazioni sui tempi ed i modi di compilazione di detto report. Il più delle volte si tratterà di validarlo senza aggiungere altro.
  9. E' possibile eseguire test di monitoraggio "on-demand" per il sito tramite il tool SAM-ADMIN (istanza alternativa di backup contattabile a questo link). SAM-ADMIn consente l'invio a comando di un test SAM a scelta su una dei propri servizi di sito, unitamente alla pubblicazione dei risultati sul portale di monitoring.
  10. In caso di livelli di availability e reliability mensili rispettivamente inferiori al 70% e al 75% il site manager è tenuto a motivare i problemi tecnici riscontrati, che verranno poi inseriti in un report nazionale compilato e inviato dal centro operativo della Grid nazionale.
    Per mantenere un buon livello di availability e reliability e' opportuno che il site manager mantenga monitorato giornalmente l'andamento dei test del proprio sito sul portale di monitoring sopra citato. In caso di problemi tecnici che perdurano, o di interventi sul sito e' opportuno schedulare un downtime programmato, in modo che il livello di availability/reliability sia comunque alto anche nei periodi di intervanti tecnici.

 

i