دانشگاه صنعت آب و برق 1
چندگانهرگرسیونMultiple Regression
موسوی ندوشنی1387بهار
مدل چند متغیره در رگرسیون چند متغیره رابطه به شرح زیر
است:
که می توان آن را مانند یک متغیره برایحالت چند متغیره نوشت:
که درŷ برآورد مقدار y است. اگر مشاهده همان b0اول برابر واحد فرض شود، مقدار
مقدار ثابت )در حالت خطی برابر عرض از مبداء( است.
دانشگاه صنعت آب و برق 2
0 1 1 2 2 m my x x xb b b b e= + + + + +L
0 1 1 2 2ˆ 1
m mY b b X b X b X= ´ + ´ + ´ + + ´L
عملیات رگرسیون با نشان گذاری ماتریسی
معادله رگرسیون را می توان به صورت زیرنوشت:
:که نمایش ماتریسی آن به صورت زیر است
دانشگاه صنعت آب و برق 3
11 12 13 1
21 22 23 2
31 32 33 3
1 2 3
1
1
1
1
m
m
m
n n n nm
X X X X
X X X X
X X X XX
X X X X
é ùê úê úê úê ú= ê úê úê úê úê úë û
L
L
L
M M M M O M
L
1 1n n m mY X b
´ ´ ´=
ماتریس واریانس-کوواریانس در این ماتریس متقارن، عناصر قطری
واریانس و بقیه عناصر کوواریانس هستند.
دانشگاه صنعت آب و برق 4
1 12 13 1
21 2 23 2
31 32 3 3
1 2 3
m
mT
m
m m m m
V C C C
C V C C
C C V CX X
C C C V
é ùê úê úê úê ú= ê úê úê úê úê úë û
L
L
L
M M M O M
L
دنباله عملیات رگرسیون با نشان گذاری ماتریسی
فرم ماتریسیCiY یعنی کوواریانس بین Xi و Y.به صورت زیر است
بنابراین برآورد مقادیر.به صورت زیر است
دانشگاه صنعت آب و برق 5
1
2
3
Y
YT
Y
mY
C
C
CX Y
C
é ùê úê úê úê ú= ê úê úê úê úê úë û
M
( ) ( )1ˆ T Tb X X X Yb
-= =
عملیات رگرسیون با نشان گذاری ماتریسی روش دوم
.اگر معادله رگرسیون به صورت زیر باشد
.اگر ماتریس داده های خام به صورت زیر باشد
معادله فوق را می توان با استفاده از ضرایبهمبستگی حل نمود.
دانشگاه صنعت آب و برق 6
0 1 1 2 2ˆ
k kY b bX bX bX= + + + +L
11 12 13 1
21 22 23 2
1 2 3
k
k
n n n nk
X X X X
X X X X
X X X X
é ùê úê úê úê úê úê úê úë û
L
L
M M M O M
L
دنباله عملیات رگرسیون با نشان گذاری ماتریسی روش دوم
دستگاه معادالت زیر را می توان به صورتزیر داشت.
که در آنαi ،ضرایب rij همبستگی های میان همبستگی های بین ryjمتغیرهای مستقل و
Yمتغیرهای مستقل و متغیر وابسته یعنی دانشگاه صنعت آب و برقاست. 7
1 12 2 13 3 1 1
21 1 2 23 3 2 2
1 1 2 2 3 3
k k y
k k y
k k k k yk
r r r r
r r r r
r r r r
a a a a
a a a a
a a a a
+ + + + =
+ + + + =
+ + + + =
L
L
M
L
دنباله عملیات رگرسیون با نشان گذاری ماتریسی روش دوم
اگر دستگاه معادالت را به فرم ماتریسی بنویسید نتیجه وRijαj=Ryjمی شود.
برای محاسبهbj.از فرمول زیر استفاده می شود
bjضرایب رگرسیون
syانحراف معیار متغیر وابسته
sjانحراف معیار متغیرهای مستقل
ضمنا رابطهR2 و rykها
دانشگاه صنعت آب و برق 8
11 12 13 1 1 1
21 22 23 2 2 2 1
1 2 3
k y
k yj ij yj
k k k kk k yk
r r r r r
r r r r rR R
r r r r r
a
aa
a
-
æ öæ ö æ öç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷= Þ =ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷ç ÷ç ÷ ç ÷è øè ø è ø
L
L
L L L O L M M
L
yj j
j
sb
sa=
2.123 1 1 2 2y k y y k yk
R r r ra a a= + + +L
L
دنباله عملیات رگرسیون با نشان گذاری ماتریسی روش دوم
و سرانجام مقدار ثابت معادله به صورت زیراست.
همانطور که قبال نیز مشاهده شد، ضریبتعیین به شرح زیر است.
دانشگاه صنعت آب و برق 9
0 1 1 2 2 k kb Y bX bX bX= - - - -L
2 reg reg
reg res t
ss ssR
ss ss ss= =
+
دنباله عملیات رگرسیون با نشان گذاری ماتریسی
باقی مانده به صورتe=y- ŷ.است متوسط خطاها یعنیE(e)ē=0 و واریانس
است.Var(e)=eTeخطا برابر با ( واریانس ضرایب:عبارتست از )
به ازاء یکX خاص می توان یک مقدار برای Y.پیشگویی نمود
دانشگاه صنعت آب و برق 10
1ˆVar( ) ( )( )T Te e X Xb -=
ˆp p
Y X b=
فاصله اطمینان برای ضرایب معادله
فاصله اطمینان 100(1-) برای ضرایب j عبارتست از:
که در آنCjj( عناصر قطری XTX)-1 است و واریانس خطای برآورد برابر است با:
کهm.تعداد ضرایب برآورد شده است
دانشگاه صنعت آب و برق 11
( /2, )j j n m e jjb t S C
ab
-Î ±
2 2
1
ne
e e ii
SSS SS e
n m =
= =- å
فاصله اطمینان برای مقادیر برآورد شده
100فاصله اطمینان(1-) برای یک مقدار y0 که توسط یک نقطه x0 در فضای چند بعدی
است ŷ0تولید شده و مقدار برآورد شده آن که عبارتست از:
دانشگاه صنعت آب و برق 12
10 0 ( /2, ) 0 0
ˆ 1 ( )T Tn m e
y y t S x X X xa
--
Î ± +
1مثال .به داده های زیر توجه کنید
X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4
X2: 4,4,4,3,6,6,3,4,3,3,5,5,9,8,6,7,5,5,7,7
Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10 معادله رگرسیون حاصل از داده ها به شرح
زیر است:
ضریب تعیین برابرR2=0.5054.است آزمونF :
دانشگاه صنعت آب و برق 13
1 2ˆ 0.1027 0.6771 0.3934Y X X= + +
2
1
2
2
11
8.685reg
res
ssR
df kss R
n kdf
F-- -
= = =
1تحلیل رگرسیون در مثال وقتی بیش از یک متغیر در معادله رگرسیون
قرار دارد، آنگاه تحلیل رگرسیون پیچیده تر می شود.
اولین بررسی آنچه را کهX1 و X2 با هم و( جدا از هم( به رگرسیون می افزایند به وضوح
نشان می دهد. آیا اضافه کردنX2 به معادله رگرسیون
را به طرز معنی داری باال Yپیش بینی می برد؟
اکنون فقط متغیرX1 .در نظر گرفته می شود
.که معنی دار است
دانشگاه صنعت آب و برق 14
2.1
0.454 14.943y
R F= =
دنباله تحلیل رگرسیون در مثال 1
اکنون فقط متغیرX2.در نظر گرفته می شود
0.08 معنی دار نمی شود. اما در سطح حدود 0.05در سطح مرسوم معنی دار است. بنابراین می توان موضوع را دنبال نمود.
با بررسی جداگانهX1 و X2 معلوم شد که X1 بسیار بهتر از X2 متغیر را پیش بینی می کند. Yوابسته یعنی
اما یک سوال را می توان مطرح کرد و راجع به آن تامل نمود. سوال این پیش بینی را باال می برد. قبال مالحظه شد X1 بر X2است: آیا اضافه کردن
R2که y.1=0.45 و R2
y.12=0.51 است. بنابراین، با اضافه کردن X2 بر X1، R2 باال می رود. با این وجود این مشارکت اضافی در 0.0518به مقدار
رگرسیون به لحاظ آماری معنی دار نیست. اما به تفاوت دقت کنید. در رگرسیونY تنها بر X2، R2 به 0.16 به مقدار
باال 0.05 را فقط X1، dR2 بر X2دست می آید. در حالی که اضافه کردن برد. این تفاوت یکی از خصوصیات مهم رگرسیون چندگانه را نشان
می دهد. دانشگاه صنعت آب و برق 15
2.2
0.156 3.320y
R F= =
بیان بعضی از مالحظات درباره رگرسیون چندگانه
اگر همبستگی بینX1 و X2 معادل صفر X2 بین r2 را می توان بر Y و X1 بین r2باشد،
R2 افزود و Yو y.12.را بدست آورد
ولی، این حالت کمتر رخ می دهد.کههمبستگی بین دو متغیر، معادل صفر باشد.
دانشگاه صنعت آب و برق 16
2 2 2.12 .1 .2y y y
R r r= +
تجزیه و تحلیل مدل رگرسیون stepwise
همانطور که قبال نیز اشاره شد در رگرسیون از مدل زیراستفاده می شود.
اما این که کدامیک ازXi ها مهم تر هستند معلوم نیست. البتهدر یک سیستم علت و معلولی کامال معین، این سوال مطرح
نیست. ولی در هیدرولوژی قضیه همیشه روش نیست. جریان ماهانه در یک ایستگاه را در نظر بگیرید، این جریان
می تواند متاثر از بارندگی این ماه باشد اما با توجه به سیستم تاخیر بارندگی-رواناب، بارندگی ماه قبل نیز
می تواند در ایجاد رواناب موثر واقع شود. هدف از رگرسیونstepwise این است که معادله پیشگویی
را بر اساس متغیرهای موثرتر بسط دهیم.
دانشگاه صنعت آب و برق 17
0 1 1 2 2ˆ 1
m mY b b X b X b X= ´ + ´ + ´ + + ´L
2مثال .به داده های زیر توجه کنید
X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4
X2: 5,4,5,3,6,4,6,4,3,3,3,6,9,8,9,6,4,5,8,9
X3: 1,2,4,4,5,6,3,3,7,7,8,9,5,4,5,5,7,8,8,7
Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10:معادله رگرسیون حاصل از داده ها به شرح زیر است
ضریب تعیین برابرR2=0.6637.است با آزمونF=10.526<3.239.رگرسیون معنی دار است
دانشگاه صنعت آب و برق 18
1 2 3ˆ 2.0045 0.6184 0.6240 0.1873Y X X X=- + + +
2تحلیل رگرسیون در مثال در آزمون آماری معنی دار بودن دو شیوه ذکر
می شود.( F )یا نسبت های tاولین روش از نسبت های •
استفاده می کند. سود Fها و نسبت های R2دومین روش از •
می جوید. در باره کاربرد نسبتt برای آزمون معنی دار
بودن آماری وزن های رگرسیون سوال مهمی پیش می آید: آیا رگرسیون متغیر وابسته بر یک متغیر مستقل معین، پس از به حساب آوردن تاثیرات متغیرهای مستقل دیگر، به
لحاظ آماری معنی دار است؟ دانشگاه صنعت آب و برق 19
دنباله تحلیل رگرسیون در مثال 2
خطای استاندارد برآورد
خطای استاندارد ضریب هایb را می توان به چند روش محاسبه نمود که یکی از آن ها به شرح زیر است.
کهSEbj خطای استاندارد j امین وزن b.است
SE2est.مجذور خطای استاندارد است
ssxj مجموع مجذورات متغیر j.است R2 مجذور همبستگی چند متغیری بین متغیر j )متغیر وابسته(
و بقیه متغیرهای مستقل است.دانشگاه صنعت آب و برق 20
55.48661.823
1 20 3 1res
est
ssSE
n k= = =
- - - -
2
2(1 )est
bj
xj
SESE
ss R=
-
دنباله تحلیل رگرسیون در مثال 2
:در مورد ضریب اول می توان نوشت
برای بدست آوردنR2j مجذور همبستگی(
امین متغیر مستقل و jچند متغیری بین متغیرهای مستقل دیگر است.( می توان
نوشت.rjj مقادیر واقع روی قطر وارون ماتریس
همبستگی میان متغیرهای مستقل است. نسبتt دارای n-k-1دانشگاه صنعت آب و برق درجه آزادی 21
2
1 21 1.23(1 )
estb
x
SESE
ss R=
-
2 11
jjj
Rr
= -
jj
bj
bt
SE=
دنباله تحلیل رگرسیون در مثال 2
R2 های الزم به صورت زیر محاسبه می شوند.
اکنونSEbj.به صورت زیر محاسبه می شوند
دانشگاه صنعت آب و برق 22
2 21 1.23
2 22 2.13
2 23 3.12
11 0.1427
1.16651
1 0.02181.0223
11 0.1248
1.1426
R R
R R
R R
= = - =
= = - =
= = - =
2
1
1.86220.1732
134.95(1 0.1427)bSE = =
-
دنباله تحلیل رگرسیون در مثال 2
اولین نسبتt:عبارتست از
دومین نسبتt:عبارتست از
دانشگاه صنعت آب و برق 23
11
1
0.61843.5719
0.1732b
bt
SE= = =
2
2
1.86220.2042
85(1 0.0218)bSE = =
-
22
2
0.62403.0555
0.2042b
bt
SE= = =
2
3
1.86220.2066
92.8(1 0.1248)bSE = =
-
دنباله تحلیل رگرسیون در مثال 2
سومین نسبتt:عبارتست از
ضریب هایb1 و b2 0.05 در سطح 16 با درجه آزادی در این سطح معنی دار نیست.b3معنی دار هستند ولی
معنی دار بودن آماری متغیرهای اضافه شده به معادلهرگرسیون
یعنی اولین و دومین متغیر X2 و X1فرض کنید که فقط • مورد نظر قرار گیرد و یک Yمستقل و متغیر وابسته،
تحلیل رگرسیون برای داده ها انجام شود. در این صورت شاخص های آماری ضروری به شرح زیر است.
دانشگاه صنعت آب و برق 24
33
3
0.18740.907
0.2066b
bt
SE= = =
دنباله تحلیل رگرسیون در مثال 2
معادله رگرسیون مقدارF و R2
y.12:عبارتست از
با توجه بهF در سطح 17 و 2 با درجه آزادی های معنی دار است.0.05
وقتی هر سه متغیر مستقل در معادله بودندR2 و F به قرار زیر بدست آمدند.
اکنون باید به این سوال پاسخ داد: آیا اضافه کردنX3 دقت پیش بینی را به طرز معنی داری باال می برد؟ برای
دیگر محاسبه Fپاسخ به این سوال باید یک نسبت شود.
دانشگاه صنعت آب و برق 25
1 2ˆ 1.2356 0.6737 0.6183Y X X=- + +
2.12
0.6464 10.526y
R F= =
2.123
0.6637 10.526y
R F= =
دنباله تحلیل رگرسیون در مثال 2
فرمول نسبتF:چنین است
نسبتF ،حاصله معنی دار نیست. بنابراین را به طرز معنی داری Y پیش بینی X3متغیر
باال نمی برد. ،برای نشان دادن تعمیم پذیری آزمون مزبور
که حایز اهمیت است، معادله دارای شکل زیر است.
دانشگاه صنعت آب و برق 26
2 2.123 .12
1 2
2.123
0.6637 0.64643 2
1 0.6637120 3 1
1
0.824y y
y
R R
k k
R
n k
F
--
- ---
- -- -
= = =
2 2.12 .121 2
1 2
2.12 1
1
1
1
y k y k
y k
R R
k k
R
n k
F
-
-
-
- -
=L L
L
دنباله تحلیل رگرسیون در مثال 2
اکنون اضافه شدن متغیرX2 را بر X1 آزموده به شرح زیر است:Fمی شود. نسبت
نسبتF درجه آزادی، در 17 و 1 حاصله، با معنی دار است. بنابراین، متغیر 0.05سطح
، رگرسیون را به طرز معنی داری باال 2می برد.
دانشگاه صنعت آب و برق 27
2 2.12 .1
1 2
2.12
1
0.6464 0.45362 1
1 0.6464120 2 1
1
9.269y y
y
R R
k k
R
n k
F
--
- ---
- -- -
= = =