Information Technology e DNA, dal 1953 a oggi" by Patricia Rodriguez Tomé

Post on 30-Jun-2015

1,884 views 3 download

transcript

Dr.ssa Patricia Rodriguez-Tomé

prtome@crs4.it

Information Technology e DNA

dal 1953 ad oggi

1850 1900 1950 2000 2010200519751960 1990

1953

2

original papers

NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature 397© 2003 Nature Publishing Group

25 Aprile 1953Nature p:737-741

original papers

398 NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature© 2003 Nature Publishing Group

original papers

400 NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature© 2003 Nature Publishing Group1953 scoperta

della struttura del DNA

1850 1900 1950 2000 2010200519751960 1990

Facciamo un passo indietro...

3

1953 scoperta della struttura del

DNA

1850 1900 1950 2000 2010200519751960 1990

Eredità biologica

4

1850 1950 2000 2010200519751960 19901900 5

Come si trasmettono i caratteri ereditarida una generazione a un’altra?

1850 1950 2000 2010200519751960 19901900

•Frate agostiniano, laureato in matematica e scienze

•Abate del monastero di Brno (ora Rep. Ceca)

•Appassionato di botanica

1865 Leggi di Mendel

Mendel

6

Gregor Mendel (1822 - 1884)Leggi dell'Ereditarietà di Mendel (1865)“L’origine delle specie” di Darwin (1859)

1953 scoperta della struttura del

DNA

1850 1950 2000 2010200519751960 19901900

Mendel

7

Il lavoro di Mendel è stato inizialmente ignoratoSolo dopo 35 anni è stato riscoperto e apprezzato

1900 riscoperta Leggi

di Mendel

1865 Leggi di Mendel

1850 1950 2000 2010200519751960 19901900 8

Dove si trovano i geni?

1900 riscoperta Leggi

di Mendel

1850 1900 1950 2000 2010200519751960 1990

Cromosomi

9

1927 I geni sono localizzati sui cromosomi

Cellula vegetale in telofase

Il moscerino della frutta:Drosophila melanogaster

1850 1900 1950 2000 2010200519751960 1990

Morgan e collaboratori

10

1927 I geni sono localizzati sui cromosomi

Alfred H. Sturtevant (1891 - 1970) studente del laboratorio di Morgan

Thomas Hunt Morgan (1866 - 1945) genetista e biologo - 1933 Premio Nobel Medicina

Hermann Joseph Muller (1890 - 1967) collaboratore di

Morgan medico e genetista 1946 Premio Nobel Medicina

Columbia University

1850 1950 2000 2010200519751960 19901900 11

Di cosa sono fatti i geni?

1927 I geni sono localizzati sui cromosomi

1850 1900 1950 2000 2010200519751960 1990

DNA

12

La molecola di DNA contiene l’informazione genetica

1952 L’informazione genetica è contenuta nel DNA

Alfred Hershey (1908 - 1997) (1969: nobel per la medicina)Martha Chase (1927 - 2003)

Virus sulla superficie di Escherichia coli

Cold Spring Harbor, Washington

1850 1950 2000 2010200519751960 19901900 13

Come può la molecola del DNA contenere tanta informazione?

1952 L’informazione genetica è contenuta nel DNA

1850 1900 1950 2000 2010200519751960 1990

doppia elica (Cambridge)

14

1953: Watson & Crick

James Watson (1928 -) biologo molecolare e geneticoFrancis Crick (1916 - 2004) fisico che diventò biologo molecolare, biofisico e neuroscienziato

Scoperta della struttura a doppia elica del DNA

1953 scoperta della struttura del

DNA

1865 Leggi di

Mendel

Watson e Crick interpretarono le informazioni che già esistevano, prodotte da esperimenti e studi di altri ricercatori, ma ebbero l’intuizione giusta prima di tutti gli altri.

1850 1900 1950 2000 2010200519751960 1990

The Eagle

15

Il pub del “DNA” a Cambridge

1850 1900 1950 2000 2010200519751960 1990

1953

16

original papers

400 NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature© 2003 Nature Publishing Group

original papers

398 NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature© 2003 Nature Publishing Group

original papers

NATURE | VOL 421 | 23 JANUARY 2003 | www.nature.com/nature 397© 2003 Nature Publishing Group

Franklin & Gosslin

Wilkins

Watson & Crick

25 Aprile 1953Nature p:737-741

1953 scoperta della struttura del

DNA

1850 1900 1950 2000 2010200519751960 1990

Premio Nobel

17

1962Premio Nobel in Fisiologia e Medicina

1953 struttura del

DNA

1962 Premio Nobel per Watson e Crick

1850 1900 1950 2000 2010200519751960 1990

DNA

18

il DNA è un polimero composto da milioni di piccole unità chiamate NUCLEOTIDI, costituite da tre componenti fondamentali

Gruppo fosfato

zucchero pentoso

Basa azotata

DeoxyriboNucleic Acid = acido desossiribonucleico

1953 scoperta della struttura del

DNA

1850 1900 1950 2000 2010200519751960 1990

ATCG

19

Adenine

Cytosine

Thymine

Guanine

Le basi azotate sono quattro: Adenina, Timina, Citosina, Guanina

1953 scoperta della struttura del

DNA

1850 1900 1950 2000 2010200519751960 1990

ATCG

20

Adenine

1850 1900 1950 2000 2010200519751960 1990

ATCG

21

Thymine

1850 1900 1950 2000 2010200519751960 1990

ATCG

22

Cytosine

1850 1900 1950 2000 2010200519751960 1990

ATCG

23

Guanine

1850 1900 1950 2000 2010200519751960 1990 24

DNA

1953 scoperta della struttura del

DNA

http://www.youtube.com/watch?v=qYsW0jIFH5A

1850 1900 1950 2000 2010200519751960 1990 25

Leggere la sequenza dei nucleotidi per conoscere le

informazioni genetiche codificate

1953 scoperta della struttura del

DNA

1850 1900 1950 2000 2010200519751960 1990

sequenziamento

1975: sviluppo del metodo della terminazione della catena per il sequenziamento del DNA.

1977: prima sequenza di DNA di un genoma completo, del Fago Φ-X174

26

1955: sequenza di una proteina - l’insulina

Frederick Sanger (1918 - ) è un biochimico britannico

1980: premio Nobel per la chimica

1958 : premio Nobel per la chimica

1975 Metodo di Sanger per il

sequenziamento

1850 1900 1950 2000 2010200519751960 1990

metodo di Sanger

27

1975 Metodo di Sanger per il

sequenziamento

1850 1900 1950 2000 2010200519751960 1990 28

1975 Metodo di Sanger per il

sequenziamento

1850 1900 1950 2000 2010200519751960 1990 29

1975 Metodo di Sanger per il

sequenziamento

http://www.snv.jussieu.fr/vie/dossiers/sequencage/lectureATGC1.swf

1850 1900 1950 2000 2010200519751960 1990

SQ Sequence 1859 BP; 609 A; 314 C; 355 G; 581 T; 0 other; aaacaaacca aatatggatt ttattgtagc catatttgct ctgtttgtta ttagctcatt 60 cacaattact tccacaaatg cagttgaagc ttctactctt cttgacatag gtaacctgag 120 tcggagcagt tttcctcgtg gcttcatctt tggtgctgga tcttcagcat accaatttga 180 aggtgcagta aacgaaggcg gtagaggacc aagtatttgg gataccttca cccataaata 240 tccagaaaaa ataagggatg gaagcaatgc agacatcacg gttgaccaat atcaccgcta 300 caaggaagat gttgggatta tgaaggatca aaatatggat tcgtatagat tctcaatctc 360 ttggccaaga atactcccaa agggaaagtt gagcggaggc ataaatcacg aaggaatcaa 420 atattacaac aaccttatca acgaactatt ggctaacggt atacaaccat ttgtaactct 480 ttttcattgg gatcttcccc aagtcttaga agatgagtat ggtggtttct taaactccgg 540 tgtaataaat gattttcgag actatacgga tctttgcttc aaggaatttg gagatagagt 600 gaggtattgg agtactctaa atgagccatg ggtgtttagc aattctggat atgcactagg 660 aacaaatgca ccaggtcgat gttcggcctc caacgtggcc aagcctggtg attctggaac //

sequenza di DNA

30

1975 Metodo di Sanger per il

sequenziamento

1850 1900 1950 2000 2010200519751960 1990 31

1975 Metodo di Sanger per il

sequenziamento

1850 1900 1950 2000 2010200519751960 1990

software

32

1850 1900 1950 2000 2010200519751960 1990 33

software

1850 1900 1950 2000 2010200519751960 1990 34

software

1850 1950 2000 2010200519751960 19901900

ICT

35

•Linguaggi–BASIC–PASCAL

•Calcolatori–Personal computer (PC)

•MS-DOS, Windows

1850 1950 2000 2010200519751960 19901900

sequenziamento genomico

•1981: DNA mitocondriale umano - 16 569 basi

•1984: Epstein-Barr virus 170 000 basi

•1986: DNA cloroplasto del tabacco - 155 844 basi

1986: prima macchina semi automatica CalTech

1987: primo sequenziatore commerciale diApplied Biosystems ABI370

36

1977 Primo genoma completo sequenziato del Fago

1987 Primo sequenziatore commerciale

1850 1900 1950 2000 2010200519751960 1990

sequenziatori

37

1850 1900 1950 2000 2010200519751960 1990

sequenziatori

38

1850 1900 1950 2000 2010200519751960 1990 39

500 sequenze di ~700 basi al giorno

un genoma umano = 3 109 basi

8572 giorni = 23 anni

350 000 basi al giorno

sequenziatori

1850 1900 1950 2000 2010200519751960 1990

il risultato

40

1850 1900 1950 2000 2010200519751960 1990

SQ Sequence 1859 BP; 609 A; 314 C; 355 G; 581 T; 0 other; aaacaaacca aatatggatt ttattgtagc catatttgct ctgtttgtta ttagctcatt 60 cacaattact tccacaaatg cagttgaagc ttctactctt cttgacatag gtaacctgag 120 tcggagcagt tttcctcgtg gcttcatctt tggtgctgga tcttcagcat accaatttga 180 aggtgcagta aacgaaggcg gtagaggacc aagtatttgg gataccttca cccataaata 240 tccagaaaaa ataagggatg gaagcaatgc agacatcacg gttgaccaat atcaccgcta 300 caaggaagat gttgggatta tgaaggatca aaatatggat tcgtatagat tctcaatctc 360 ttggccaaga atactcccaa agggaaagtt gagcggaggc ataaatcacg aaggaatcaa 420 atattacaac aaccttatca acgaactatt ggctaacggt atacaaccat ttgtaactct 480 ttttcattgg gatcttcccc aagtcttaga agatgagtat ggtggtttct taaactccgg 540 tgtaataaat gattttcgag actatacgga tctttgcttc aaggaatttg gagatagagt 600 gaggtattgg agtactctaa atgagccatg ggtgtttagc aattctggat atgcactagg 660 aacaaatgca ccaggtcgat gttcggcctc caacgtggcc aagcctggtg attctggaac //

sequenza di DNA

41

1850 1900 1950 2000 2010200519751960 1990 42

1987 Primo sequenziatore commerciale

1850 1950 2000 2010200519751960 19901900

ICT

43

•Linguaggi–FORTRAN–C

•Calcolatori–server, multi user

• VMS (MicroVAX2)• UNIX (HP, SGI, DEC...)

–PC/Mac per la grafica

1956: FORTRAN

1972:C1979: C++

1850 1900 1950 2000 2010200519751960 1990 44

software

1850 1900 1950 2000 2010200519751960 1990 45

software

1850 1950 2000 2010200519751960 19901900

Progetto Genoma Umano

46

•1986: prime idee e si discute

•1990: proposte e inizio

•1994: prima mappa genetica

•1998: prima mappa fisica

•2003: Homo sapiens - 3 10⁹ basi

1850 1950 2000 2010200519751960 19901900 47

Progetto Genoma Umano

Considerando che un organismo adulto è composto di circa 100 000 miliardi di cellule, si può dire che l’estensione complessiva in lunghezza di tutte le molecole di DNA presenti in un individuo umano è sufficiente a coprire circa 1.000 volte la distanza Terra-Sole (circa 150 milioni di km).

Nel nucleo di ogni cellula somatica sono presenti 46 cromosomi, se si prende come riferimento il genoma aploide (23 cromosomi) si stima un totale di oltre 3 miliardi di basi.

Se disteso, il DNA contenuto in ognuna delle nostre cellule è lungo circa 2 m.

1850 1950 2000 2010200519751960 19901900 48

costo totale: 2.7 miliardi di dollari

20 centri di sequenziamento in 6 paesi: – USA (60.8%), UK (28.9%), – Giappone (4.9%), Francia (2.8%), – Germania (1.5%), Cina (0.7%).

prima evidenza: ~ 25 000 geni nel genoma umano

Progetto Genoma Umano

1850 1900 1950 2000 2010200519751960 1990 49

Généthon

Progetto Genoma Umano

1850 1900 1950 2000 2010200519751960 1990

MAPPE

50

http://www.youtube.com/watch?v=UhQgSAIMs_s&feature=player_embedded

1850 1900 1950 2000 2010200519751960 1990

mappa genetica

51

1990-1996

1850 1900 1950 2000 2010200519751960 1990

mappa fisica

52

1990 - 2001

1850 1900 1950 2000 2010200519751960 1990 53

Progetto Genoma Umano

mappa fisicamappa genetica

1850 1900 1950 2000 2010200519751960 1990 54

Progetto Genoma Umano

http://www.hhmi.org/biointeractive/dna/DNAi_human_genome_seq.html

1850 1900 1950 2000 2010200519751960 1990

La prima stampa del Genoma Umano presentata come una raccolta di libri, esposta alla Wellcome Collection a Londra

55

Progetto Genoma Umano

1850 1950 2000 2010200519751960 19901900

ICT

56

•Linguaggi–C, C++–JAVA–Perl

•Calcolatori–server UNIX (HP, SUN, COMPAQ)–PC/ Mac, workstations: per la parte grafica

•Statistica, matematica1995 Java1987 Perl

1850 1950 2000 2010200519751960 19901900

ANALIZZARECONFRONTAREVISUALIZZARE

57

software

1850 1900 1950 2000 2010200519751960 1990 58

software

1850 1900 1950 2000 2010200519751960 1990 59

software

1850 1950 2000 2010200519751960 19901900

DATABASE

Memorizzazione, archiviazione e gestione dei dati

Europa: EMBL-Bank (EBI, UK)

USA: GenBank (NIH genetic sequence database)

Giappone: DDBJ (DNA Data Bank of Japan)

60

1982- 1986

1850 1950 2000 2010200519751960 19901900 61

DATABASE

1850 1900 1950 2000 2010200519751960 1990

ICT

62

1850 1900 1950 2000 2010200519751960 1990

ICT

63

1850 1900 1950 2000 2010200519751960 1990

ICT

64

1850 1900 1950 2000 2010200519751960 1990

ICT

65

1850 1900 1950 2000 2010200519751960 1990

ICT

66

1850 1900 1950 2000 2010200519751960 1990

ICT

67

1850 1950 2000 2010200519751960 19901900 68

• Rete Università - Ricerca–BITNET in US (1981)–European Academic Research Network - EARN (1984) diventa poi TERENA (1995)

1981 BITNET 1984 EARN 1995 TERENA

1982-1986: basi di dati

INTERNET

1850 1950 2000 2010200519751960 19901900

INTERNET

• 1991: protocolli–WAIS (Wide Area Information Server)–GOPHER –WWW

• 1993: primo browser (Mosaic)• 1993: WWW per la biologia

–agosto 1993: ExPAsY (Svizzera)–settembre 1993: Généthon (Francia)

69

1982- 1986: basi di dati

1991 WWW 1993 Mosaic 2004 firefox

1994 IE

1850 1950 2000 2010200519751960 19901900 70

siti web

accounts – geni– proteine– organismi– patologie

1850 1950 2000 2010200519751960 19901900

•Siti WEB–CGI, HTML, XML, Perl, PHP, Ruby on Rails, JEE

•Basi di dati:–Ingres, Sybase, Oracle, MySQL, PostgreSQL

71

1993 CGI1995 Ruby1995 PHP

1997 XML

linguaggi

2004 Ruby on Rails

1850 1950 2000 2010200519751960 19901900 72

siti web

1850 1950 2000 2010200519751960 19901900

Ricerca

73

DOVE SIAMO OGGI?

1850 1900 1950 2000 2010200519751960 1990

differenze

1-2%0,1%

10-30%Sha

re M

ater

ial

1850 1950 2000 2010200519751960 19901900

il genoma a 1000 $

75

•primo gruppo a fare 100 genoma Umani

•in un massimo 10 giorni

•per meno di 10 000 $ per genoma

•vince $ 10 M

http://genomics.xprize.org/

A $10 MILLION PRIZE FOR THE FIRST TEAM TO SUCCESSFULLY SEQUENCE 100 HUMAN GENOMES IN 10 DAYS

1850 1950 2000 2010200519751960 19901900

sequenziamento

76

I sequenziatori di nuova generazione sono in grado di leggere miliardi di basi in una singola corsa di circa 6 giorni(la tecnologia precedente: circa 350 kbasi al giorno)

Tre produttori:•454 by Roche •SOLID by Applied Biosystems•Genome Analyzer by Illumina

1850 1900 1950 2000 2010200519751960 1990

@ CRS4

2009

77

1850 1900 1950 2000 2010200519751960 1990 78

@ CRS4

2010

1850 1900 1950 2000 2010200519751960 1990 79

@ CRS4

2010

1850 1900 1950 2000 2010200519751960 1990 80

@ CRS4

1850 1900 1950 2000 2010200519751960 1990 81

@ CRS4

1850 1900 1950 2000 2010200519751960 1990 82

@ CRS4

1850 1900 1950 2000 2010200519751960 1990

1 TB (1 TeraByte) = 1 000 USB keys of 1 GB

83

immagine (foto) 32 TBanalizza automaticamente

“intensity data”: prima analisi

2 TB si può conservare

base call / quality data

250 GB 250 GB

allineamento 6TB 1.2 TB

per ogni esperimento: 1.45 TB

@ CRS4

1850 1950 2000 2010200519751960 19901900

ICT

84

•Linguaggi–C, C++–JAVA–Perl–Python–R

•Calcolatori: calcolo parallelo •Statistica, matematica, algoritmica, data mining

1993: R

1989 python

1850 1900 1950 2000 2010200519751960 1990 85

@ CRS4

1850 1900 1950 2000 2010200519751960 1990 86

Le prestazioni dei processori, e il numero di transistor ad esso relativo, raddoppiano ogni 18 mesi. Legge di Moore 1:

1850 1950 2000 2010200519751960 19901900

• studiare il genoma• individuare il substrato genetico di patologie multifattoriali

• terapie personalizzate

87

@ CRS4

1850 1950 2000 2010200519751960 19901900

i progetti CNR-CRS4

• sequenziamento del genoma dei sardi

• ricerca dei tratti genetici connessi a patologie con alta frequenza nell’Isola

• studio del loro funzionamento

• studio di nuove terapie

88

1850 1950 2000 2010200519751960 19901900 89

INFRASTRUTTURE E STRUMENTI

• potenza di calcolo

• spazio per archiviazione dati

• database

• software di analisi e visualizzazione

COMPETENZE SCIENTIFICHE

•informatica, bioinformatica

•statistica

•sviluppo web

@ CRS4

1850 1950 2000 2010200519751960 19901900

LIMS

90

•Laboratory Information Management System –gestione integrata di dati e processi di un laboratorio

–gestisce “oggetti” e “eventi”•campioni, strumentazione del laboratorio, materiale, utenti

•seminario di Gianfranco Frau il 7 settembre 2011

1850 1950 2000 2010200519751960 19901900 91

1850 1900 1950 2000 2010200519751960 1990

Grazie

92