Sogei - Guardigli Disaster Recovery E Business Continuity Nella It Nov 2006v2

Disaster Recovery e Business Continuity nella IT

La gestione delle emergenze nei Sistemi Informativi

Marco Guardigli

Direttore Tecnico [email protected]

SOGEI - Roma, 7-8 novembre 2006

mailto:[email protected]

Definizioni

● Disaster recovery● Business Continuity● Crash Recovery● Contingency Planning● Failover Management● Robust Design● Capacity Planning● System and network monitoring

Sigle comuni

● BCM: Business Continuity Manager

● BIA: Business Impact Analysis

● RTO: Recovery Time Objective

● RPO: Recovery Point Objective

● RA: Risk Analysis/Assessment

● REC: Risk Evaluation & Control

● RM: Risk Management

● ER: Emergency Response

● CM: Crisis Management

● DR: Disaster Recovery

● DRM: Disaster Recovery Management

● HA: High Availability

● SLA: Service Level Agreement

● MTBF: Mean Time Between Failures

● SPOF: Single Point Of Failure

● PT / Pentest: Penetration Testing

● VA: Vulnerability Assessment

Regole Fondamentali

•Progettare in modo “robusto”•Ridondare processi, sistemi, e persone•Mai tutte le uova nello stesso paniere•Effettuare analisi criticità. What if?•Attivare monitoraggi e controlli•Validare periodicamente i fornitori•Abbreviare i transitori•L’eccezione non deve diventare regola•Fare tesoro dell’esperienza

Robust Design

•E’ l’arte di progettare sistemi e processi poco sensibili a influenze esterne non previste

•Migliore qualità, migliore affidabilità, maggiore durevolezza

•Comunicazione fra sottosistemi a prova di errore •Validare semilavorati anzichè correggere a valle•Eliminare amplificazione di segnali indesiderati•Approfondito Testing multiplo: parallelo anzichè sequenziale

Adattare gli strumenti alle situazioni

● Nella IT odierna –in crisi- sono poche le innovazioni sostanziali

● Si devono perseguire importanti riduzioni dei costi, migliorando e irrobustendo i processi

● Molti servizi da h8-h12 sono divenuti h24● Molti servizi devono scalare efficientemente

(es: storage)● Il rapporto persone/computer è in calo costante.

Aumento device mobili interconnessi● In molti casi l’outsourcing non è una soluzione

Prevedere L’imprevisto

● Nella IT, una certa classe di imprevisti è prevedibile ed esistono validi strumenti:

● Caduta alimentaz: UPS● Perdita dati: Backup● Rotture meccaniche: Raid, cluster● Network failure: switching & routing protocols● Malfunzionamenti applicativi: clusters

DR: Se il disastro ha colpito

● Inventario e comunicazione danni● Definizione processi, ruoli e strategie a breve

termine● Recupero statico dati, sistemi e reti● Progressiva riattivazione servizi● Inchiesta su cause e ricostruzione eventi● Prevenzione/pianificazione prossimo disastro

SOGEI: DR base

● Individuare un data set critico per ogni cliente, e predisporre un sistema di propagazione dei relativi dati sul datacenter secondario, con i relativi RPO. Il datacenter ausiliario dovrà ospitare quanto necessario per l’erogazione del servizio.

● Il collaudo del DR base prevede unicamente di dimostrare che il data set critico sia correttamente propagato sul datacenter ausiliario, con gli RPO definiti.

SOGEI: DR base: simulazione

● Per simulazione si intende di effettuare, da un singolo sito periferico, un test su una singola applicazione lanciata in esecuzione sul datacenter ausiliario, dove il sistema transazionale ausiliario viene temporaneamente messo in esercizio su una immagine presa dall’ultimo RPO.

● Le transazioni effettuate nel test NON andranno in commit sul sistema di produzione.

SOGEI: DR esteso

● Si prevede di poter mandare in produzione (failover) l’erogazione dei servizi di cui ai dataset critici, dai sistemi transazionale e dallo storage del secondo sito, nel rispetto dei RTO e RPO contrattuali.

● Questo servizio NON prevede collaudo operativo definito contrattualmente.

● Questo servizio NON prevede l’effettuazione di procedure di failback.

Esempi di disastri nella IT

● Perdita del CED o di sue parti, a seguito di disastro naturale

● Perdita di persone chiave● Danni a infrastrutture di comunicazione● Perdita di dati● Perdita di security: accesso illecito o furto informazioni● Attacchi informatici● Disastri su Clienti e/o su Fornitori● Perdite di immagine aziendale

Business Continuity

A differenza del DR che ha come obiettivo la sopravvivenza dell’azienda, la BC ha come obiettivo la continuità di erogazione di uno o più servizi

– Rischi, vulnerabilità, contromisure– Selezione dei processi da analizzare– Stima costi/tempo-disservizio per ogni

processo interessato – Definizione dei punti di recovery– Definizione graduatorie di intervento– Analisi dei costi/benefici– Stesura roadmap interventi– Budgeting

RTO e RPO

● RTO: Recovery Time Objective– Tempo max necessario per recuperare il servizio,

include i tempi di recupero sistemi, reti, dati, applicazioni e disponibilità accesso da parte degli utenti

● RPO: Recovery Point Objective– Massima distanza temporale tra l’ultimo salvataggio

dei dati e il verificarsi del disastro. Si correla alla massima quantità di dati di cui è ammissibile la perdita a fronte di un disastro

Risk Management

● Risk Avoidance

● Risk Reduction

● Risk Transfer

● Risk Acceptance

● SPOF Analysis

Pianificazione

Analisi requisiti attuali

Identif. Rischie Vulnerabilità

Business Impact Analysis

IdentificazioneStadi critici

Piano Contigenza e Recupero (bozza)

Definizione e conduzione test

Piano Contingenza e Recupero

Formazione e diffusione idee

Sviluppo Procedure Manutenzione

Miglioramento e Attualizzazione

Evoluzione del business

Vincoli nella Economia IT

1. Bassi costi,

2. Velocità,

3. Sicurezza

1 + 2

1 + 3

2 + 3

Sceglierne solo due

or

Capacity Planning

● Pianificazione strategica / analisi evolutiva● Modello geografico e connettività● Tipo di business● Modello di amministrazione (centrica/delegata)● Numero utenti● Numero e tipo servizi● Uso infrastruttura di rete, Uso risorse di rete● Analisi dei Costi● Make / Buy – Insourcing / Outsourcing

Capacity Planning

A priori Sul campo

Stima e definizione requisiti

n. Utenti / n. e tipo servizi

Traffici: sincroni e asincr.

Tipi Bound: CPU / NET / DISK

Dimensione oggetti e transaz.

Tipo rete / Banda – Latenza

Simulazioni

Modelli

What-if

Contingency plan (su fault)

Baselining

Individ. Bottlenecks

Analisi traffico

Analisi Banda/Latenza

Analisi storiche

Campionamenti statistici

Iniezione carico e misure

Definiz. Transaz. Campione

Benchmarking a vari livelli(anche in degraded mode)

Numeri Utili

Banda passante utile di una connessione (non peak – 2005)● 9600bps (gsm) ~ 1Kb/sec

● 2Mbit ~ 200Kb/sec

● Ethernet Lan 10Mbit: ~ 650 Kb/sec

● Ethernet Lan 100Mbit: ~ 7 Mb/sec

● Ethernet Lan 1000Mbit: ~ 70Mb/sec

Dispositivi storage (non peak - 2005):● Testina LTO/SDLT: ~24Mb/sec

● dischi locali raid5: ~30Mb/sec

● dischi SAN raid5: ~80Mb/sec

● dischi NAS raid5/su gbit-eth: ~70Mb/sec

Servizi IT canonici● Directory services per utenti e sistemi

● Host, terminal servers

● File and print

● Email, groupware, fax,

● Doc & KW mgmt

● RDBMS / ERP / CRM / DWH

● E-Banking services

● Web intra / extra

● Application & Logic Services

● Middleware and gateway services

● Intranet Networking and Routing

● Accesso remoto, servizi VPN● Antivirus / Security / Net mgmt● Storage management● Backup● Wireless and mobile services● Virtualization services

Sistemi di monitoraggio

● Connettività, raggiungibilità, disponibilità servizi● Indicatori qualità del servizio (es: latenza, banda)● Stato operativo server e applicazioni (es: spazio disco)● Controllo stato ed efficienza dei sistemi di riserva, e

relativi failover test periodici● Monitoraggio storage centrale, ed eventuali mirror

offsite● Collaudi periodici Backup e Restore, e tape-policy check● Sistemi di controllo accessi e Intrusion Detection● Sistemi di malware detection (antivirus)

Es: Controllo spazi Storage● mail server

Sistemi Ridondati

● Dischi in RAID, sistemi Hot Standby, resilient HW● Storage Mirroring (sync-async)● Storicizzazione modifiche (snapshots/checkpoint)● Clusterizzazione sistemistica● Clusterizzazione applicativa● Immagini e Virtualizzazione server● Load distribution e server farming● Modalità di failover● Multipath routing (tcp-ip, fiberchannel, ecc…)● Dual data center

Es: connessione Internet ridondata

Win32 client per servizi finanziari

Provider 1ISP

Win32 client

Provider 2ISP

XTRA ISP 2

FIREWALLISP 2

ANTIVIRUSHTTP/ FTP

PROXYSOCKS

DMZ

Http/Ftp Proxy

ROUTER+

NAT

Win32 clientper servizi finanziari

Provider 1ISP

Win32 client

Provider 2ISP

XTRA ISP 1 XTRA ISP 2

FIREWALLISP 1

ANTIVIRUSHTTP/ FTP

PROXYSOCKS

FIREWALLISP 2

ANTIVIRUSHTTP/ FTP

PROXYSOCKS

PROXYwithACL

DMZ

upstreamupstream

Socks Proxy Http/Ftp Proxy

Da Così A Così

Semplice SCSI Cluster

Architet. Veritas ClusterMain production giga-eth (bridged and fault tolerant)

Service giga-eth network (bridged and fault tolerant)

A B C

Oracle Server A. Veritas Volume Mgr

Veritas Cluster

Oracle Server B. Veritas Volume Mgr

Veritas Cluster

Fileshare area

Exchange area

Snapmirror async mirroredaccessed via ethernet cifs share

Snapmirror sync mirroredaccessed via ethernet iscsi

Q: quorumA-data

A-log(B-data)

(B-log)

Sw-mirrored from Veritas Volume Mgr(syncronous mirroring - double write)

accessed via fiberchannel

Free-space

(Fileshare area)

(Exchange area)

Q: quorum(A-data)(A-log)B-dataB-log

Free-space

Verita

s

Mirr

oring

Netap

p

SnapM

irror

Backup ServerVeritas NetbackupVeritas Volume MgrVeritas Cluster

Tape Library

Intra-Switch-Link

Intra-Switch-Link

Intra-Switch-Link

Netapp FILER A Netapp FILER B

Fiberchannel Fiber LInk

Fiberchannel Intra-Switch-Link

Gigaethernet Link (main)

Gigaethernet Link (service)

D

Exchange servernetbackup agent

Email ClusterCkpoint / Sparc

+ stonebeat

Reti DMZ

Def.

Nokia intranet fw cluster

XXXXXXSCHEMA DI RETE target del sistema e-mailFebbraio 2004

referenti: XXXXXXXXXXXXX

Ing. Marco Guardigli, TomWare [email protected]

Storage network (Giga)10.99.99.0/24

Ret

i de

i clie

nt:

1 s

ubn

et /

24

per

og

ni a

rma

dio

laye

r 3

sw

itchi

ng

.254

NetworkPrinter

nf-h1nf-h2 3600

2 head, 2 jbod

Router (LoadBalancer)

.18 (i2)

172.18.13.0/24 (statica sui srv)

W2kD004

2cpu,2GbHD: 2x36Gb

W2kD005

2cpu, 2GbHD:2x36

.1

.19 (i2)

.2

.1 (i3) .2

.254

.241

Nokia intranet fw cluster(vs client)

default

Client in DHCP

Client in DHCP

Client in DHCPdefault

default

Nokia intranet fw cluster

Nokia perimetral fw cluster

default

router

Telecom interbusiness

4Mbit/

sec

Subnet esposta:xxxxxxxx

Domino/lx, +revprox

.33

SN

AT

.62

MX

1

default

Rete protetta dei server: 172.18.8.0/24

10.196.82.28

I client sono circa 3000 e accedono ai servizi email tramite Web Browser. Viene utilizzato il template Inotes R6 in italiano, dopo opportune personalizzazioni.

Lo storage domino del cluster è situato su due distinti volumi della NAS, posti uno su ciascuna testa. Uno dei volumi ha attivi I checkpoint.

La soluzione Antivirus sui sistemi di email è Symantec-Norton per lotus domino (SAV) v 3.x. Essa supporta pienamente il domino clustering su release R6.

Il file share offerto dalla NAS per I client è operativo sull’indirizzo 10.251.1.2

I server indicati in giallo sono domino R6.

10.251.1.0/24.2

172.18.13.0/24

W32 Legato Backup srv

.9

.1 (i1)

.2 (i1)x

.1

.254

Core Sw/rtrextreme

Core Sw/rtrextreme netw.

backbone

link

link

Questa rete non è firewallata fra client e server

.32

Domino/lx, +revprox

SN

AT

MX

2

I due server interni non dialogano con internet.Essi scaricano in relay SMTP/NRPC sui server perimetraliI server perimetrali insistono su un dominio notes diversoI server perimetrali (domino 6.5.1 su piattaforma linux) hanno in essere settaggi antispam e antirelay specifici.Un sistema di raccolta e analisi traffico rete è costantemente in esecuzione sui server perimetrali.

Un client itinerante può accedere alla sua webmail tramite I servizi di reverse proxying erogate dai due server linux in DMZ.

Oracle RAC Cluster

Firewall Cluster

def

xxxxxxxxx

Referente Tecnico:Ing. Marco Guardigli, Direttore tecnico, Gruppo [email protected]

.68

Intranet 1

Domino Mail server esposto R 6.5.1+ fax srv esker

W2k

internet

Router (telecom)

Telecom HDSL2Mbit/sec

Antivirus norton corp.

editionW2k

.10

DNS telecom: 151.99.125.1

Rtr cisco 1300

Doppino in rame (350mt)

W2k filesrv+ DHCP +

tapebk

Rtr cisco 1300

Intranet 2

Extranet: xxxxxx.64 = subnet.95 = bcastutili da .65 a .94

.68

Adsl 2mbit modem

Adsl 2mbit modem

.65

Tcp:80Tcp:25

Def.

xxxx+

clienti

.72.70

Network .PS

printer

.172

Brooktrout 2 bri fax board

.24 .26

W2k R&D Filesrv +

SQLSrv + FTP

.98

ftp

Rtr cisco 26xx8x ISDN Bri

Access pointWireless con

WEP


WEP

W2kSrv telemanut

SQL-srvIIS, FTP

W2k filesrv + DC + DHCP

W2k filesrv

.? .26 .18


WEP

@xxxx.itMX (dns in gestione telecom)

Rete cliente

Eth router… clienti remoti ... Xxxserver

default

clie

nti

default

def

isdn

… 60 client...

...100 client...

xxxxx

AS400 a AS400 b

.11 .12

Domino Mail+app interno R 5.0.9

W2k, DC,WINS, tapebk

.23

Reti elettricamente collassate

FW1 deb Linuxsquid, ntop, p0f, iptraf

FW1 deb Linuxsquid, ntop, p0f, iptraf

Eth3mboard

Eth3mboard

eth2

eth1eth0 eth0eth1

eth2.91.92

….

…. notebook in

lan, ip dhcp mac-based

DMZ192.168.254.0/24

172.23.3.0/24

N A T

Firewall cluster active-passive, 4 nic x server, ids, traffic analysis, routing, remote access, vpn

.220.221

IDSIDS

Storage Cluster SAN

Doppio CED ISCSI Cluster

APP clusternodo A

-

LVS cluster nodo A

LVS cluster nodo B

APP clusternodo B

DB clusternodo A

DB clusternodo B

Storage clusternodo A

Storage cluster nodo B

Tutte le reti sono ethernet vlan realizzate su una coppia di switch con 16 porte gibit cadauno

Blade chassis A Blade chassis B

Syncronous mirroring

Iscsi vlan

Backup clusternodo B

Library clusternodo A

Library clusternodo B

Backup clusternodo A

Virtual Hot Standby Clustering

● In questa architettura i sistemi server di produzione hanno un “gemello” virtuale, ordinariamente spento

● Tutto lo storage sta su rete (tipicamente NAS, via CIFS, NFS o ISCSI)

● Al failover, un server di virtualizzazione lancia l’immagine del server che si è guastato

● Un singolo server di virtualizzazione, unito ad un adeguato storage, può dare sicurezza e continuità per molti sistemi.

● Si ottiene un significativo risparmio in licenze, e in hardware

● Le immagini vanno aggiornate ad ogni variazione di configurazione sui server di produzione. Si possono usare tool automatici (es: platespin powerconvert).

Virtual Hot Standby Clustering

Client network

Aux server giga-eth (fault tolerant)

Storage giga-eth network (fault tolerant)

Main server giga-eth (fault tolerant)

Storage giga-eth network (fault tolerant)

Offsite Virtualization Server

(Blades)

Offsite Address Resolution and directory server

Production Data

Tape Library

Offsite Backup server

Production servers

Main Network storage

OffsiteProduction Data

Offsite Network storage

MirroringSync/Async/Semi-Sync

Tape Library

Backup server

Virtual srv ImagesVirtual srv ImagesAsync Mirroring

Address Resolution and directory server

Provisioning& P2V

conversion ServerProvisioning

& P2V conversion Server

Advanced RoutingCluster

AdvancedRoutingCluster

Client network

FWMultiprotocol Client 2 LAN vpn Multiprotocol LAN 2 LAN vpn Emergency Web AccessEmergency Terminal ServicesEmergency pdf printing Services

internet

DMZ

Xtra1

Xtra2

GeneralPurpose

Access Servers

GeneralPurpose

Access Servers

GeneralPurpose

Access Servers

XTRA

DMZ

internet

XTRA

Riferimenti

● Holistic Disaster recovery. Una fonte di informazioni generali soprattutto mirate a trattazione generale, su disastri naturali, gestione territorio,protezione civile. Vasta bibliografia. http://www.colorado.edu/hazards/holistic_recovery/

● What is risk: http://www.jwhs.co.uk/what_is_risk.htm

● http://www.continuitycentral.com

● Molti riferimenti su disastri naturali, per il recupero di materiali e dati http://palimpsest.stanford.edu/bytopic/disasters/

● http://www.disasterrecovery.com/

● Managed hosting and high availability: http://www.akamai.comhttp://www.availability.sungard.com

● Disaster recovery planning with IBM Tivoli Storage Manager(redbook) http://www.redbooks.ibm.com/abstracts/SG246844.html?Open

http://www.colorado.edu/hazards/holistic_recovery/

http://www.jwhs.co.uk/what_is_risk.htm

http://www.continuitycentral.com/

http://www.availability.sungard.com/

Riferimenti● Design

Designing Large scale LANs, Dooley, OreillyPractical Computer Networks Analysis and design, McCabe, Morgan-KaufmanManagement dei sistemi informativi, Kenneth e Jane Laudon, Prentice-HallThe Process of Network Security, Wadlow, Addison-Wesley

● Networking: Internetworking with tcpip, Douglas ComerTCP-IP Illustrated, Richard Stevens , vol 1,2,3Ethernet howto, TLDP, www.tldp.orgNetwork Analysis and troubleshooting, J. Scott Haugdahl, Addison-wesleyNetwork troubleshooting tools, Sloan, Oreilly

● SecurityDigital Evidence and computer crime, Casey, Academic PressComputer Forensics, Kruse-Heiser, Addison-WesleyStealing the network: How to own (the box/the continent) (2 voll), Syngress

● Performance managementThe Art of computer systems performance analysis, Jain, WileyThe Practical Performance Analyst, Neil J. Gunther, Authors Choice PressProgramming Pearls, 2’ ed, Bentley, Addison-WesleySystem Performance Tuning, Musumeci – Loukides, Oreilly

http://www.tldp.org/

Riferimenti● www.traceroute.org● Strumenti utili per Windows:

www.sysinternals.comInside Windows 200x, Mark Russinovich, Bryce Cogswell, Microsoft press

● Appunti Linux, Daniele Giacomini● Wikipedia: www.wikipedia.org● www.slac.stanford.edu (computing/computing at

slac, Les Cottrell, pinger project)www.columbia.edu

http://www.sysinternals.com/

http://www.columbia.edu/

Disaster Recovery e Business Continuity nella IT

La gestione delle emergenze nei Sistemi Informativi

FINE

Marco Guardigli

Direttore Tecnico [email protected]

L'autore:● Marco Guardigli è ingegnere elettronico, e si occupa di informatica da oltre 20 anni.

● Progettista esperto di tecnologie, ha lavorato in numerosi contesti della IT, dal software design alla progettazione di impianti e reti. E' imprenditore, contitolare e direttore tecnico di TomWare. Si occupa di progettazione e di system integration su grandi reti italiane ed internazionali, in realtà industriali, informatiche, della grande distribuzione, banche ed enti pubblici. Ha progettato e realizzato software in molti differenti ambienti operativi e con parecchi differenti linguaggi di sviluppo. Attualmente apprezza molto lavorare con linguaggi di scripting e di rapid prototyping, primariamente perl.

● Svolge attività di coordinamento progetti sistemistici ed applicativi, in vari ambienti e con vari strumenti. Si occupa anche di sicurezza informatica, e svolge attività di consulenza in informatica forense. Nel corso degli anni, ha tenuto parecchie decine di corsi, in italia ed all'estero, su Lotus Domino, Windows, OS/2, UNIX, Perl, TCP-IP, networking LAN e WAN, network management, e-business e security.

● E' titolare di un brevetto relativo alla strong authentication e alla identity management.Ha pubblicato due libri, sull'ambiente Lotus Notes/Domino, per l'editore Hoepli.Occasionalmente collabora con varie riviste.

Email: [email protected]

Date post:	18-Nov-2014
Category:	Documents
Upload:	marco-guardigli
View:	1,180 times
Download:	3 times

Sogei - Guardigli Disaster Recovery E Business Continuity Nella It Nov 2006v2

Documents