Date post: | 18-Nov-2014 |
Category: |
Documents |
Upload: | marco-guardigli |
View: | 1,180 times |
Download: | 3 times |
Disaster Recovery e Business Continuity nella IT
La gestione delle emergenze nei Sistemi Informativi
Marco Guardigli
Direttore Tecnico [email protected]
SOGEI - Roma, 7-8 novembre 2006
Definizioni
● Disaster recovery● Business Continuity● Crash Recovery● Contingency Planning● Failover Management● Robust Design● Capacity Planning● System and network monitoring
Sigle comuni
● BCM: Business Continuity Manager
● BIA: Business Impact Analysis
● RTO: Recovery Time Objective
● RPO: Recovery Point Objective
● RA: Risk Analysis/Assessment
● REC: Risk Evaluation & Control
● RM: Risk Management
● ER: Emergency Response
● CM: Crisis Management
● DR: Disaster Recovery
● DRM: Disaster Recovery Management
● HA: High Availability
● SLA: Service Level Agreement
● MTBF: Mean Time Between Failures
● SPOF: Single Point Of Failure
● PT / Pentest: Penetration Testing
● VA: Vulnerability Assessment
Regole Fondamentali
•Progettare in modo “robusto”•Ridondare processi, sistemi, e persone•Mai tutte le uova nello stesso paniere•Effettuare analisi criticità. What if?•Attivare monitoraggi e controlli•Validare periodicamente i fornitori•Abbreviare i transitori•L’eccezione non deve diventare regola•Fare tesoro dell’esperienza
Robust Design
•E’ l’arte di progettare sistemi e processi poco sensibili a influenze esterne non previste
•Migliore qualità, migliore affidabilità, maggiore durevolezza
•Comunicazione fra sottosistemi a prova di errore •Validare semilavorati anzichè correggere a valle•Eliminare amplificazione di segnali indesiderati•Approfondito Testing multiplo: parallelo anzichè sequenziale
Adattare gli strumenti alle situazioni
● Nella IT odierna –in crisi- sono poche le innovazioni sostanziali
● Si devono perseguire importanti riduzioni dei costi, migliorando e irrobustendo i processi
● Molti servizi da h8-h12 sono divenuti h24● Molti servizi devono scalare efficientemente
(es: storage)● Il rapporto persone/computer è in calo costante.
Aumento device mobili interconnessi● In molti casi l’outsourcing non è una soluzione
Prevedere L’imprevisto
● Nella IT, una certa classe di imprevisti è prevedibile ed esistono validi strumenti:
● Caduta alimentaz: UPS● Perdita dati: Backup● Rotture meccaniche: Raid, cluster● Network failure: switching & routing protocols● Malfunzionamenti applicativi: clusters
DR: Se il disastro ha colpito
● Inventario e comunicazione danni● Definizione processi, ruoli e strategie a breve
termine● Recupero statico dati, sistemi e reti● Progressiva riattivazione servizi● Inchiesta su cause e ricostruzione eventi● Prevenzione/pianificazione prossimo disastro
SOGEI: DR base
● Individuare un data set critico per ogni cliente, e predisporre un sistema di propagazione dei relativi dati sul datacenter secondario, con i relativi RPO. Il datacenter ausiliario dovrà ospitare quanto necessario per l’erogazione del servizio.
● Il collaudo del DR base prevede unicamente di dimostrare che il data set critico sia correttamente propagato sul datacenter ausiliario, con gli RPO definiti.
SOGEI: DR base: simulazione
● Per simulazione si intende di effettuare, da un singolo sito periferico, un test su una singola applicazione lanciata in esecuzione sul datacenter ausiliario, dove il sistema transazionale ausiliario viene temporaneamente messo in esercizio su una immagine presa dall’ultimo RPO.
● Le transazioni effettuate nel test NON andranno in commit sul sistema di produzione.
SOGEI: DR esteso
● Si prevede di poter mandare in produzione (failover) l’erogazione dei servizi di cui ai dataset critici, dai sistemi transazionale e dallo storage del secondo sito, nel rispetto dei RTO e RPO contrattuali.
● Questo servizio NON prevede collaudo operativo definito contrattualmente.
● Questo servizio NON prevede l’effettuazione di procedure di failback.
Esempi di disastri nella IT
● Perdita del CED o di sue parti, a seguito di disastro naturale
● Perdita di persone chiave● Danni a infrastrutture di comunicazione● Perdita di dati● Perdita di security: accesso illecito o furto informazioni● Attacchi informatici● Disastri su Clienti e/o su Fornitori● Perdite di immagine aziendale
Business Continuity
A differenza del DR che ha come obiettivo la sopravvivenza dell’azienda, la BC ha come obiettivo la continuità di erogazione di uno o più servizi
– Rischi, vulnerabilità, contromisure– Selezione dei processi da analizzare– Stima costi/tempo-disservizio per ogni
processo interessato – Definizione dei punti di recovery– Definizione graduatorie di intervento– Analisi dei costi/benefici– Stesura roadmap interventi– Budgeting
RTO e RPO
● RTO: Recovery Time Objective– Tempo max necessario per recuperare il servizio,
include i tempi di recupero sistemi, reti, dati, applicazioni e disponibilità accesso da parte degli utenti
● RPO: Recovery Point Objective– Massima distanza temporale tra l’ultimo salvataggio
dei dati e il verificarsi del disastro. Si correla alla massima quantità di dati di cui è ammissibile la perdita a fronte di un disastro
Risk Management
● Risk Avoidance
● Risk Reduction
● Risk Transfer
● Risk Acceptance
● SPOF Analysis
Pianificazione
Analisi requisiti attuali
Identif. Rischie Vulnerabilità
Business Impact Analysis
IdentificazioneStadi critici
Piano Contigenza e Recupero (bozza)
Definizione e conduzione test
Piano Contingenza e Recupero
Formazione e diffusione idee
Sviluppo Procedure Manutenzione
Miglioramento e Attualizzazione
Evoluzione del business
Vincoli nella Economia IT
1. Bassi costi,
2. Velocità,
3. Sicurezza
1 + 2
1 + 3
2 + 3
Sceglierne solo due
or
Capacity Planning
● Pianificazione strategica / analisi evolutiva● Modello geografico e connettività● Tipo di business● Modello di amministrazione (centrica/delegata)● Numero utenti● Numero e tipo servizi● Uso infrastruttura di rete, Uso risorse di rete● Analisi dei Costi● Make / Buy – Insourcing / Outsourcing
Capacity Planning
A priori Sul campo
Stima e definizione requisiti
n. Utenti / n. e tipo servizi
Traffici: sincroni e asincr.
Tipi Bound: CPU / NET / DISK
Dimensione oggetti e transaz.
Tipo rete / Banda – Latenza
Simulazioni
Modelli
What-if
Contingency plan (su fault)
Baselining
Individ. Bottlenecks
Analisi traffico
Analisi Banda/Latenza
Analisi storiche
Campionamenti statistici
Iniezione carico e misure
Definiz. Transaz. Campione
Benchmarking a vari livelli(anche in degraded mode)
Numeri Utili
Banda passante utile di una connessione (non peak – 2005)● 9600bps (gsm) ~ 1Kb/sec
● 2Mbit ~ 200Kb/sec
● Ethernet Lan 10Mbit: ~ 650 Kb/sec
● Ethernet Lan 100Mbit: ~ 7 Mb/sec
● Ethernet Lan 1000Mbit: ~ 70Mb/sec
Dispositivi storage (non peak - 2005):● Testina LTO/SDLT: ~24Mb/sec
● dischi locali raid5: ~30Mb/sec
● dischi SAN raid5: ~80Mb/sec
● dischi NAS raid5/su gbit-eth: ~70Mb/sec
Servizi IT canonici● Directory services per utenti e sistemi
● Host, terminal servers
● File and print
● Email, groupware, fax,
● Doc & KW mgmt
● RDBMS / ERP / CRM / DWH
● E-Banking services
● Web intra / extra
● Application & Logic Services
● Middleware and gateway services
● Intranet Networking and Routing
● Accesso remoto, servizi VPN● Antivirus / Security / Net mgmt● Storage management● Backup● Wireless and mobile services● Virtualization services
Sistemi di monitoraggio
● Connettività, raggiungibilità, disponibilità servizi● Indicatori qualità del servizio (es: latenza, banda)● Stato operativo server e applicazioni (es: spazio disco)● Controllo stato ed efficienza dei sistemi di riserva, e
relativi failover test periodici● Monitoraggio storage centrale, ed eventuali mirror
offsite● Collaudi periodici Backup e Restore, e tape-policy check● Sistemi di controllo accessi e Intrusion Detection● Sistemi di malware detection (antivirus)
Es: Controllo spazi Storage● mail server
Sistemi Ridondati
● Dischi in RAID, sistemi Hot Standby, resilient HW● Storage Mirroring (sync-async)● Storicizzazione modifiche (snapshots/checkpoint)● Clusterizzazione sistemistica● Clusterizzazione applicativa● Immagini e Virtualizzazione server● Load distribution e server farming● Modalità di failover● Multipath routing (tcp-ip, fiberchannel, ecc…)● Dual data center
Es: connessione Internet ridondata
Win32 client per servizi finanziari
Provider 1ISP
Win32 client
Provider 2ISP
XTRA ISP 2
FIREWALLISP 2
ANTIVIRUSHTTP/ FTP
PROXYSOCKS
DMZ
Http/Ftp Proxy
ROUTER+
NAT
Win32 clientper servizi finanziari
Provider 1ISP
Win32 client
Provider 2ISP
XTRA ISP 1 XTRA ISP 2
FIREWALLISP 1
ANTIVIRUSHTTP/ FTP
PROXYSOCKS
FIREWALLISP 2
ANTIVIRUSHTTP/ FTP
PROXYSOCKS
PROXYwithACL
DMZ
upstreamupstream
Socks Proxy Http/Ftp Proxy
Da Così A Così
Semplice SCSI Cluster
Architet. Veritas ClusterMain production giga-eth (bridged and fault tolerant)
Service giga-eth network (bridged and fault tolerant)
A B C
Oracle Server A. Veritas Volume Mgr
Veritas Cluster
Oracle Server B. Veritas Volume Mgr
Veritas Cluster
Fileshare area
Exchange area
Snapmirror async mirroredaccessed via ethernet cifs share
Snapmirror sync mirroredaccessed via ethernet iscsi
Q: quorumA-data
A-log(B-data)
(B-log)
Sw-mirrored from Veritas Volume Mgr(syncronous mirroring - double write)
accessed via fiberchannel
Free-space
(Fileshare area)
(Exchange area)
Q: quorum(A-data)(A-log)B-dataB-log
Free-space
Verita
s
Mirr
oring
Netap
p
SnapM
irror
Backup ServerVeritas NetbackupVeritas Volume MgrVeritas Cluster
Tape Library
Intra-Switch-Link
Intra-Switch-Link
Intra-Switch-Link
Netapp FILER A Netapp FILER B
Fiberchannel Fiber LInk
Fiberchannel Intra-Switch-Link
Gigaethernet Link (main)
Gigaethernet Link (service)
D
Exchange servernetbackup agent
Email ClusterCkpoint / Sparc
+ stonebeat
Reti DMZ
Def.
Nokia intranet fw cluster
XXXXXXSCHEMA DI RETE target del sistema e-mailFebbraio 2004
referenti: XXXXXXXXXXXXX
Ing. Marco Guardigli, TomWare [email protected]
Storage network (Giga)10.99.99.0/24
Ret
i de
i clie
nt:
1 s
ubn
et /
24
per
og
ni a
rma
dio
laye
r 3
sw
itchi
ng
.254
NetworkPrinter
nf-h1nf-h2 3600
2 head, 2 jbod
Router (LoadBalancer)
.18 (i2)
172.18.13.0/24 (statica sui srv)
W2kD004
2cpu,2GbHD: 2x36Gb
W2kD005
2cpu, 2GbHD:2x36
.1
.19 (i2)
.2
.1 (i3) .2
.254
.241
Nokia intranet fw cluster(vs client)
default
Client in DHCP
Client in DHCP
Client in DHCPdefault
default
Nokia intranet fw cluster
Nokia perimetral fw cluster
default
router
Telecom interbusiness
4Mbit/
sec
Subnet esposta:xxxxxxxx
Domino/lx, +revprox
.33
SN
AT
.62
MX
1
default
Rete protetta dei server: 172.18.8.0/24
10.196.82.28
I client sono circa 3000 e accedono ai servizi email tramite Web Browser. Viene utilizzato il template Inotes R6 in italiano, dopo opportune personalizzazioni.
Lo storage domino del cluster è situato su due distinti volumi della NAS, posti uno su ciascuna testa. Uno dei volumi ha attivi I checkpoint.
La soluzione Antivirus sui sistemi di email è Symantec-Norton per lotus domino (SAV) v 3.x. Essa supporta pienamente il domino clustering su release R6.
Il file share offerto dalla NAS per I client è operativo sull’indirizzo 10.251.1.2
I server indicati in giallo sono domino R6.
10.251.1.0/24.2
172.18.13.0/24
W32 Legato Backup srv
.9
.1 (i1)
.2 (i1)x
.1
.254
Core Sw/rtrextreme
Core Sw/rtrextreme netw.
backbone
link
link
Questa rete non è firewallata fra client e server
.32
Domino/lx, +revprox
SN
AT
MX
2
I due server interni non dialogano con internet.Essi scaricano in relay SMTP/NRPC sui server perimetraliI server perimetrali insistono su un dominio notes diversoI server perimetrali (domino 6.5.1 su piattaforma linux) hanno in essere settaggi antispam e antirelay specifici.Un sistema di raccolta e analisi traffico rete è costantemente in esecuzione sui server perimetrali.
Un client itinerante può accedere alla sua webmail tramite I servizi di reverse proxying erogate dai due server linux in DMZ.
Oracle RAC Cluster
Firewall Cluster
def
xxxxxxxxx
Referente Tecnico:Ing. Marco Guardigli, Direttore tecnico, Gruppo [email protected]
.68
Intranet 1
Domino Mail server esposto R 6.5.1+ fax srv esker
W2k
internet
Router (telecom)
Telecom HDSL2Mbit/sec
Antivirus norton corp.
editionW2k
.10
DNS telecom: 151.99.125.1
Rtr cisco 1300
Doppino in rame (350mt)
W2k filesrv+ DHCP +
tapebk
Rtr cisco 1300
Intranet 2
Extranet: xxxxxx.64 = subnet.95 = bcastutili da .65 a .94
.68
Adsl 2mbit modem
Adsl 2mbit modem
.65
Tcp:80Tcp:25
Def.
xxxx+
clienti
.72.70
Network .PS
printer
.172
Brooktrout 2 bri fax board
.24 .26
W2k R&D Filesrv +
SQLSrv + FTP
.98
ftp
Rtr cisco 26xx8x ISDN Bri
Access pointWireless con
WEP
Access pointWireless con
WEP
W2kSrv telemanut
SQL-srvIIS, FTP
W2k filesrv + DC + DHCP
W2k filesrv
.? .26 .18
Access pointWireless con
WEP
@xxxx.itMX (dns in gestione telecom)
Rete cliente
Eth router… clienti remoti ... Xxxserver
default
clie
nti
default
def
isdn
… 60 client...
...100 client...
xxxxx
AS400 a AS400 b
.11 .12
Domino Mail+app interno R 5.0.9
W2k, DC,WINS, tapebk
.23
Reti elettricamente collassate
FW1 deb Linuxsquid, ntop, p0f, iptraf
FW1 deb Linuxsquid, ntop, p0f, iptraf
Eth3mboard
Eth3mboard
eth2
eth1eth0 eth0eth1
eth2.91.92
….
…. notebook in
lan, ip dhcp mac-based
DMZ192.168.254.0/24
172.23.3.0/24
N A T
Firewall cluster active-passive, 4 nic x server, ids, traffic analysis, routing, remote access, vpn
.220.221
IDSIDS
Storage Cluster SAN
Doppio CED ISCSI Cluster
APP clusternodo A
-
LVS cluster nodo A
LVS cluster nodo B
APP clusternodo B
DB clusternodo A
DB clusternodo B
Storage clusternodo A
Storage cluster nodo B
Tutte le reti sono ethernet vlan realizzate su una coppia di switch con 16 porte gibit cadauno
Blade chassis A Blade chassis B
Syncronous mirroring
Iscsi vlan
Backup clusternodo B
Library clusternodo A
Library clusternodo B
Backup clusternodo A
Virtual Hot Standby Clustering
● In questa architettura i sistemi server di produzione hanno un “gemello” virtuale, ordinariamente spento
● Tutto lo storage sta su rete (tipicamente NAS, via CIFS, NFS o ISCSI)
● Al failover, un server di virtualizzazione lancia l’immagine del server che si è guastato
● Un singolo server di virtualizzazione, unito ad un adeguato storage, può dare sicurezza e continuità per molti sistemi.
● Si ottiene un significativo risparmio in licenze, e in hardware
● Le immagini vanno aggiornate ad ogni variazione di configurazione sui server di produzione. Si possono usare tool automatici (es: platespin powerconvert).
Virtual Hot Standby Clustering
Client network
Aux server giga-eth (fault tolerant)
Storage giga-eth network (fault tolerant)
Main server giga-eth (fault tolerant)
Storage giga-eth network (fault tolerant)
Offsite Virtualization Server
(Blades)
Offsite Address Resolution and directory server
Production Data
Tape Library
Offsite Backup server
Production servers
Main Network storage
OffsiteProduction Data
Offsite Network storage
MirroringSync/Async/Semi-Sync
Tape Library
Backup server
Virtual srv ImagesVirtual srv ImagesAsync Mirroring
Address Resolution and directory server
Provisioning& P2V
conversion ServerProvisioning
& P2V conversion Server
Advanced RoutingCluster
AdvancedRoutingCluster
Client network
FWMultiprotocol Client 2 LAN vpn Multiprotocol LAN 2 LAN vpn Emergency Web AccessEmergency Terminal ServicesEmergency pdf printing Services
internet
DMZ
Xtra1
Xtra2
GeneralPurpose
Access Servers
GeneralPurpose
Access Servers
GeneralPurpose
Access Servers
XTRA
DMZ
internet
XTRA
Riferimenti
● Holistic Disaster recovery. Una fonte di informazioni generali soprattutto mirate a trattazione generale, su disastri naturali, gestione territorio,protezione civile. Vasta bibliografia. http://www.colorado.edu/hazards/holistic_recovery/
● What is risk: http://www.jwhs.co.uk/what_is_risk.htm
● http://www.continuitycentral.com
● Molti riferimenti su disastri naturali, per il recupero di materiali e dati http://palimpsest.stanford.edu/bytopic/disasters/
● http://www.disasterrecovery.com/
● Managed hosting and high availability: http://www.akamai.comhttp://www.availability.sungard.com
● Disaster recovery planning with IBM Tivoli Storage Manager(redbook) http://www.redbooks.ibm.com/abstracts/SG246844.html?Open
Riferimenti● Design
Designing Large scale LANs, Dooley, OreillyPractical Computer Networks Analysis and design, McCabe, Morgan-KaufmanManagement dei sistemi informativi, Kenneth e Jane Laudon, Prentice-HallThe Process of Network Security, Wadlow, Addison-Wesley
● Networking: Internetworking with tcpip, Douglas ComerTCP-IP Illustrated, Richard Stevens , vol 1,2,3Ethernet howto, TLDP, www.tldp.orgNetwork Analysis and troubleshooting, J. Scott Haugdahl, Addison-wesleyNetwork troubleshooting tools, Sloan, Oreilly
● SecurityDigital Evidence and computer crime, Casey, Academic PressComputer Forensics, Kruse-Heiser, Addison-WesleyStealing the network: How to own (the box/the continent) (2 voll), Syngress
● Performance managementThe Art of computer systems performance analysis, Jain, WileyThe Practical Performance Analyst, Neil J. Gunther, Authors Choice PressProgramming Pearls, 2’ ed, Bentley, Addison-WesleySystem Performance Tuning, Musumeci – Loukides, Oreilly
Riferimenti● www.traceroute.org● Strumenti utili per Windows:
www.sysinternals.comInside Windows 200x, Mark Russinovich, Bryce Cogswell, Microsoft press
● Appunti Linux, Daniele Giacomini● Wikipedia: www.wikipedia.org● www.slac.stanford.edu (computing/computing at
slac, Les Cottrell, pinger project)www.columbia.edu
Disaster Recovery e Business Continuity nella IT
La gestione delle emergenze nei Sistemi Informativi
FINE
Marco Guardigli
Direttore Tecnico [email protected]
L'autore:● Marco Guardigli è ingegnere elettronico, e si occupa di informatica da oltre 20 anni.
● Progettista esperto di tecnologie, ha lavorato in numerosi contesti della IT, dal software design alla progettazione di impianti e reti. E' imprenditore, contitolare e direttore tecnico di TomWare. Si occupa di progettazione e di system integration su grandi reti italiane ed internazionali, in realtà industriali, informatiche, della grande distribuzione, banche ed enti pubblici. Ha progettato e realizzato software in molti differenti ambienti operativi e con parecchi differenti linguaggi di sviluppo. Attualmente apprezza molto lavorare con linguaggi di scripting e di rapid prototyping, primariamente perl.
● Svolge attività di coordinamento progetti sistemistici ed applicativi, in vari ambienti e con vari strumenti. Si occupa anche di sicurezza informatica, e svolge attività di consulenza in informatica forense. Nel corso degli anni, ha tenuto parecchie decine di corsi, in italia ed all'estero, su Lotus Domino, Windows, OS/2, UNIX, Perl, TCP-IP, networking LAN e WAN, network management, e-business e security.
● E' titolare di un brevetto relativo alla strong authentication e alla identity management.Ha pubblicato due libri, sull'ambiente Lotus Notes/Domino, per l'editore Hoepli.Occasionalmente collabora con varie riviste.
Email: [email protected]