For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Confidence Intervals in PCA based on
Bootstrapping
CAC–2010
Hamid Babamoradi, Frans van den Berg, Åsmund Rinnan
Quality & Technology GroupDepartment of Food Science
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
NIR spectra of 2-Propanol and Water mixtures
41 samples (40 thorough 60 mole percent of 2-Propanol) +2 samples (50%) with 1-Ethanol2 samples (50%) with 1-Propanol
Data set
NIR spectra at 30oC
Sample(45)
Wavelength
(Impure samples)
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Data set
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Results:X = TPT + E
Principal Component Analysis (PCA)
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
x = 100.0
xLo = E(x ) xUp
10 numbers:
100.1
98.6
101.5
97.0
102.2
99.8
99.3
100.7
102.9
97.9
xLo and xUp are called Confidence Limits (CLs)
98 98.5 99 99.5 100 100.5 101 101.5 1020
0.1
0.2
0.3
0.4
0.5
0.6
0.7
xlo xup
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
original numbers
100.1
98.6
101.5
97.0
102.2
99.8
99.3
100.7
102.9
97.9
boostrap sample1
98.6 object 2
97.9 object 10
97.9 object 10
99.3 object 7
101.5 object 3
102.2 object 5
97.9 object 10
98.6 object 2
102.9 object 9
100.7 object 8
boostrap sample 2
100.1 object 1
102.9 object 9
102.9 object 9
99.3 object 7
100.1 object 1
102.9 object 9
101.5 object 3
102.2 object 5
100.1 object 1
100.1 object 1
boostrap sample 1000
102.2
102.9
100.1
98.6
100.1
97.9
102.2
100.7
99.8
102.2
. . .
x*1 = 99.8 x*2 = 101.6 x*1000 = 100.9. . . x = 100.0
There are 1000 bootstrap estimates of the mean.
The Bootstrap
Wehrens R, Putter H, Buydens LMC. The bootstrap: a tutorial. Chemom. Intel. Lab. Syst. 2000; 54: 35–52
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Percentile is one the methods to build CIs from bootstrap estimates.
Order the bootstrap estimates of M:
M*1 M*2 . . . M*999 M*1000
The lower and upper CLs are Bth and B(1-)th ordered elements.In this case 25th and 975th ordered elements.
Bootstrap Percentile CI = [98.85 101.04] 95% confidence level
Bootstrap CIs
98 98.5 99 99.5 100 100.5 101 101.5 1020
10
20
30
40
50
60
70
80
90
Abu
ndan
ce
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Bootstrap CIs in PCA
T*1P*1
X*1
T*BP*B
X*B
TP
X PCA
PCA
PCA
PCA
.
.
.
.
.
.
.
.
.
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Re-sampling
2. semi-parametricAn appropriate PCA model is fitted to X, then re-sampling is done by random replacement from rows of E.
3. parametricRe-sampling procedure is similar to semi-parametric, but a specific distribution is assumed for E.
1. non-parametricBootstrap samples are constructed by random replacement from rows (samples) of X.
Bootstrap CIs in PCA
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Bootstrap CIs in PCA
For techniques that pre-process samples together, e.g., MSC
Order: 1. Re-sampling 2. Pre-processing
Mean-centeringIt must be done after re-sampling and pre-processing.
Pre-processing
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Bootstrap CIs in PCA
T*1P*1
X*1
T*BP*B
X*B
TP
X PCA
PCA
PCA
Rotational ambiguity
PC1
PC2
PC1 *
PC2 *
.
.
.
.
.
.
.
.
.
X = TPT + EX = TQQ-1PT + E
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Bootstrap CIs in PCA
Orthogonal Procrustes Rotation
USVT = T*bT TQ = UVT
1. Rotation using T
2. Rotation using P
3. Rotation using a combination of T and P
Rotational ambiguityX = TPT + E
X = TQQ-1PT + E
PC1
PC2
PC1 *
PC2 *
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Bootstrap CIs methods
1. Percentile
2. Studentized (bootstrap-t)
3. Bias-corrected and accelerated (BCa)
Estimates the distribution of t directly from the data (two nested bootstrap loops).Second-order accurate (rate 1/n)Not transformation respecting
First-order accurate (coverage errors of CIs go to zero at rate 1/n)Transformation respecting (CIs transform correctly if is changed to f())
is changed to some function of and
Second-order accurate (rate 1/n)Transformation respecting
BCa is the modified version of Percentile method. This method uses two parameters called bias-correction and acceleration.
Bootstrap CIs in PCA
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
40 45 50 55 60
-0.4
0
0.4
Mole percent of 2-Propanol
PC
1 (9
3.7%
)
40 45 50 55 60
-0.1
0
0.1
One-component PCA model with 95% BCa CIs (B = 1999)
Mole percent of 2-Propanol
PC
1 (9
3.7%
)
1170 1180 1190 1200 1210-0.2
0
0.2
Wavelength (nm)
Load
ing
with
CIs
1170 1180 1190 1200 1210
-0.01
0
0.01
Wavelength (nm)
CIs
for L
oadi
ng (z
ero
mea
n)
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
1170 1180 1190 1200 1210
-0.5
-0.4
-0.3
-0.2
Ethanol
1-Propanol
2-Propanol
Water
Pure spectra
Wavelength (nm)
1170 1180 1190 1200 1210-0.2
0
0.2
Wavelength (nm)
Load
ing
with
CIs
1170 1180 1190 1200 1210
-0.01
0
0.01
Wavelength (nm)
CIs
for L
oadi
ng (z
ero
mea
n)
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
NIR spectra of 41 pure samples in 30oC and 40oC
Second Data set
NIR spectra at 30oC
sample(41)
Wavelength
NIR spectra at 40oC
sample(41)
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Conclusions
The bootstrap is a potential method to estimate CIs in PCA.
There are many options for bootstrapping, but not all of them are real options.
Bootstrap ideas generally are hard to implement since they come from pure statistics.
A good combination of options could provide reliable CIs.
For at ændre ”Enhedens navn” og ”Sted og dato”:
Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.Indføj ”Sted og dato” i feltet for dato og ”Enhedens navn” i Sidefod
Thank you for your attention
Hamid Babamoradi, Frans van den Berg, Åsmund [email protected] & Technology GroupDepartment of Food Science