+ All Categories
Home > Data & Analytics > Big Data and Machine Learning Workshop - Day 1 @ UTACM

Big Data and Machine Learning Workshop - Day 1 @ UTACM

Date post: 21-Apr-2017
Category:
Upload: amir-sedighi
View: 1,637 times
Download: 1 times
Share this document with a friend
164
1 ۱۳۹۵ ﺗﺎﺑﺴﺘﺎ ﺻﺪﯾﻘﯽﻣﯿﺮ ﻣﺎﺷﯿﻦ ﮔﯿﺮ ﯾﺎ ﺑﺰ ﻫﺎ ﻫﺎﺑﺮ ﮐﺎ ﺑﺮ ﮔﺬ@amirsedighi :ﺘﺮ4 ﺗﻮ:ﯾﻤﯿﻞ [email protected] ﺑﺎﻧﻈﺎ ﻫﺎ ﻣﺎﺷﯿﻦ، ﮔﯿﺮ ﯾﺎ-
Transcript

1

تابستانن ۱۳۹۵

اامیر صدیقی

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین

@amirsedighi تو4تر: [email protected]اایمیل:

ررووزز ااوولل - یاددگیریی‌ماشین، ررووشش‌هایی بانظاررتت

2

قبل اازز شرووععگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

UTACMBDML :یک گرووهه تلگراامی ددررست کنید براایی ااینکه ددرر طولل ددووررهه با هم ددرر ااررتباطط باشیم

ااسالید‌ها بعد اازز هر جلسه میرهه رروویی ااسالیدشر وو میتونید دداانلودد کنید

فرضض ما ااینه که با برنامه‌نویسی آآشنا هستید، ددرر هر جلسه کمی ددست به آآچارر می‌شویم

فرضض ما ااینه که سریع یادد می‌گیرید

لطفا موبایل‌هارروو خاموشش یا ساکت کنید

لطفا صندلی‌هایی نزددیک ددرر کالسس رروو براایی ااوونایی که ااحتماال ددیرتر می‌ررسن خالی بذااررین

یک کارر کوچک براایی تویی خونه ددااررید که اانجامم میدین وو قبل اازز کالسس بعدیی براامم اایمیل می‌کنید

ززمانن کالسس به همه بچه‌ها تعلق ددااررهه. پرسش‌هایی غیر بحراانی رروو بعد اازز کالسس یا ددرر گرووهه مطرحح کنیمددرر طولل کالسس کو4ز‌هایی کوچک دداارریم که ددرر ااسالید با Q مشخص شدهه‌ااند

ااگر ووااژژهه‌اایی بکارر می‌برمم که نامانوسس بگوشش میرسه، لطفا ررااهنما4م کنید

3

آآنچه ددرر ااین ددووررهه می‌آآموززیمگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

با برخی مفاهیم وو ررووشش‌هایی یاددگیریی‌ماشین آآشنا می‌شیم با مفاهیم پرددااززشش ِمه‌ددااددهه (بیگ‌ددیتا/کالنن‌ددااددهه/ددااددهه‌هایی بزررگگ) وو کارربردد‌ها آآشنا می‌شیم

با اابزاارر‌هایی متن‌بازز پرددااززشش ددااددهه‌هایی بزررگگ وو یاددگیریی ماشین (تواامم) آآشنا میشیم با ررووشش توسعه ررااهه‌حل‌هایی قابل ااعتمادد براایی پاسخ به نیازز‌هایی پیچیدهه ‌باززاارر وو صنعت آآشنا می‌شیم

اامیر صدیقی

موسس:

4

معرفی

http://recommender.ir http://helio.ir http://commentum.ir

@amirsedighi تو4تر: [email protected]اایمیل:

5

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

خوشش آآمدید

6

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

18 June 1886 – 8 or 9 June 1924

George Mallory

7

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

18 June 1886 – 8 or 9 June 1924

George Mallory

Q"Why did you want to climb Mount Everest?"

8

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

18 June 1886 – 8 or 9 June 1924

George Mallory

Q"Why did you want to climb Mount Everest?"

"Because it's there"A

9

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

حل کرددنن بسیارریی اازز مسائل ددنیایی ووااقعی، توسط االگورریتم‌هایی ااختصاصی، ااگر

غیر ممکن نباشد، بسیارر سخت ااست.

10

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

11

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

کداامم تومورر‌ها بدخیم‌ هستند؟

12

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

کداامم ملک باززگشت سرمایه بهتریی دداارردد؟

13

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ااین موشک هنگامم پرتابب منفجر می‌شودد یا به پروواازز ددرر‌می‌آآید؟

14

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ااین کارربر کداامم کلیپ‌ها رراا ددووست دداارردد؟

15

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

تشخیص چهرهه…

16

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

17

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

18

ددرر ااطراافف ما مسائل پیچیدهه ززیاددیی ووجودد ددااررههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بپر!

19

سیر تکامل ررووشش‌هایی حل مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیم

20

سیر تکامل ررووشش‌هایی حل مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طرااحی وو تعریف االگورریتم‌هایی ااختصاصی براایی حل هر مسئله، عملی وو مقروونن به

صرفه نیست

براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیم

21

سیر تکامل ررووشش‌هایی حل مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طرااحی وو تعریف االگورریتم‌هایی ااختصاصی براایی حل هر مسئله، عملی وو مقروونن به

صرفه نیست

به ماشین یاددبدهیم که یاددبگیردد

براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیم

22

سیر تکامل ررووشش‌هایی حل مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طرااحی وو تعریف االگورریتم‌هایی ااختصاصی براایی حل هر مسئله، عملی وو مقروونن به

صرفه نیست

ماشین یاددبگیردد که یاددبگیردد

براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیم

به ماشین یاددبدهیم که یاددبگیردد

23

سیر تکامل ررووشش‌هایی حل مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طرااحی وو تعریف االگورریتم‌هایی ااختصاصی براایی حل هر مسئله، عملی وو مقروونن به

صرفه نیست

ماشین یاددبگیردد که یاددبگیردد

براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیم

بشر به سمت اابدااعع ررووشش‌هایی یونیفرمم وو فرااگیر براایی حل اانوااعع مسائل پیش می‌رروودد

به ماشین یاددبدهیم که یاددبگیردد

24

سیر تکامل ررووشش‌هایی حل مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طرااحی وو تعریف االگورریتم‌هایی ااختصاصی براایی حل هر مسئله، عملی وو مقروونن به

صرفه نیست

بشر به سمت اابدااعع ررووشش‌هایی یونیفرمم وو فرااگیر براایی حل اانوااعع مسائل پیش می‌رروودد

ماشین یاددبگیردد که یاددبگیردد

براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیمMachine Learning

به ماشین یاددبدهیم که یاددبگیردد

25

سیر تکامل ررووشش‌هایی حل مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طرااحی وو تعریف االگورریتم‌هایی ااختصاصی براایی حل هر مسئله، عملی وو مقروونن به

صرفه نیست

بشر به سمت اابدااعع ررووشش‌هایی یونیفرمم وو فرااگیر براایی حل اانوااعع مسائل پیش می‌رروودد

ماشین یاددبگیردد که یاددبگیردد

براایی هر مسئله االگورریتمی ااختصاصی طرااحی وو پیاددهه ساززیی کنیمMachine Learning

Deep Learning

به ماشین یاددبدهیم که یاددبگیردد

26

یاددگیریِی ماشین - تعریفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یاددگیریِی ماشینMachine Learning

27

یاددگیریِی ماشین - تعریفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

“[Machine Learning is the] field of study that gives computers the ability to learn without being explicitly programmed.” - Arthur Samuel, 1959

28

یاددگیریِی ماشین - تعریفگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

“A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.” - Tom Mitchell, 1997

29

یاددگیریِی ماشین - مثاللگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

So if you want your program to predict, traffic patterns at a busy intersection (task T), you can run it through a machine learning algorithm with data about past traffic patterns (experience E) and, if it has successfully “learned”, it will then do better at predicting future traffic patterns (performance measure P).

Experience E Task T

30

یاددگیریِی ماشین - شما جواابب بدینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

31

یاددگیریِی ماشین - شما جواابب بدینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

32

یاددگیریِی ماشین - شما جواابب بدینگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

33

یاددگیریِی ماشین - پاسخگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

TEP

34

اانوااعع یادد‌گیریی - با‌نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Supervised machine learning: The program is “trained” on a pre-defined set of “training examples”, which then facilitate its ability to reach an accurate conclusion when given new data.

35

اانوااعع یادد‌گیریی - با‌نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Supervised machine learning: The program is “trained” on a pre-defined set of “training examples”, which then facilitate its ability to reach an accurate conclusion when given new data.

Most Popular

36

اانوااعع یادد‌گیریی - با‌نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Supervised machine learning: The program is “trained” on a pre-defined set of “training examples”, which then facilitate its ability to reach an accurate conclusion when given new data.

Most PopularRight Answers are Given

37

اانوااعع یادد‌گیریی - بی‌نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Unsupervised machine learning: The program is given a bunch of data and must find patterns and relationships therein.

38

اانوااعع یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Supervised Learning ) یاددگیریی با نظاررتت

ررگرااسیونن

(Classification) سامانه‌هایی یاددگیریی ماشین طبقه‌بندیی

39

اانوااعع یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چقدرر؟ چند تا؟

(Supervised Learning ) یاددگیریی با نظاررتت

ررگرااسیونن

(Classification) سامانه‌هایی یاددگیریی ماشین طبقه‌بندیی

40

اانوااعع یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چقدرر؟ چند تا؟

آآیا بیمارر ااست؟ کیفیتش خوبه؟

(Supervised Learning ) یاددگیریی با نظاررتت

ررگرااسیونن

(Classification) سامانه‌هایی یاددگیریی ماشین طبقه‌بندیی

41

اانوااعع یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چقدرر؟ چند تا؟

آآیا بیمارر ااست؟ کیفیتش خوبه؟

(Supervised Learning ) یاددگیریی با نظاررتت

ررگرااسیونن

(Classification) سامانه‌هایی یاددگیریی ماشین طبقه‌بندیی

42

یاددگیریی با نظاررتت یا یاددگیریی نظاررتت‌شدههگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یاددگیریی با نظاررتت

43

اانوااعع یادد‌گیریی - بانظاررتت - ررگرااسیوننگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

h(x) ددرر ااغلب کارربردد‌هایی یاددگیریِی ماشین بانظاررتت، هدفف نهایی توسعه تابع پیش‌بینی

ااست که به آآنن “فرضیه” (Hypothesis) می‌گویند.

“یاددگیریی” حاوویی بهرهه‌بردداارریی اازز االگورریتم‌هایی پیچیدهه رریاضی‌ به منظورر بهینه ساختن ااین تابع به ااززاایی مقداارر ووررووددیی x ااست.

44

اانوااعع یادد‌گیریی - بانظاررتت - ررگرااسیوننگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

h(x) ددرر ااغلب کارربردد‌هایی یاددگیریِی ماشین بانظاررتت، هدفف نهایی توسعه تابع پیش‌بینی

ااست که به آآنن “فرضیه” (Hypothesis) می‌گویند.

“یاددگیریی” حاوویی بهرهه‌بردداارریی اازز االگورریتم‌هایی پیچیدهه رریاضی‌ به منظورر بهینه ساختن ااین تابع به ااززاایی مقداارر ووررووددیی x ااست.

x = مساحت ملک به متر مربعh(x) = بهایی ملک ددرر باززاارر

45

اانوااعع یادد‌گیریی - بانظاررتت - ررگرااسیوننگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

h(x) ددرر ااغلب کارربردد‌هایی یاددگیریِی ماشیِن بانظاررتت، هدفف نهایی توسعه تابع پیش‌بینی

ااست که به آآنن “فرضیه” (Hypothesis) می‌گویند.

“یاددگیریی” حاوویی بهرهه‌بردداارریی اازز االگورریتم‌هایی پیچیدهه رریاضی‌ به منظورر بهینه ساختن ااین تابع به ااززاایی مقداارر ووررووددیی x ااست.

x = مساحت ملک به متر مربعh(x) = بهایی ملک ددرر باززااررPredictor

46

اانوااعع یادد‌گیریی - بانظاررتت - ررگرااسیوننگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ددرر عمل معموال x بیانگر نقاطِط ددااددهه‌اایی متعدددیی‌‌ست:

x1 : مساحت بر حسب متر مربع x2 : تعداادد ااطاقق خواابب x3 : تعداادد سروویس بهدااشتی x4 : طبقه x5 : سالل ساخت x6: کد پستی

47

یاددگیریِی‌ بانظاررتت - پیش‌بینیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک تابع پیش‌بینی ساددهه:

ثابت هستندوو

هدفف ما پیداا کرددنن مقاددیر ااست به شکلی که h(x) بهینه شودد.وو

48

یاددگیریِی‌ بانظاررتت - آآموززششگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بهینه ساززیی تابع پیش‌بینی h(x) توسط مثالل‌هایی آآموززشی اانجامم می‌شودد.

49

یاددگیریِی‌ بانظاررتت - آآموززششگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بهینه ساززیی تابع پیش‌بینی h(x) توسط مثالل‌هایی آآموززشی اانجامم می‌شودد.

به ااززاایی هر مثالل آآموززشی یک x_train دداارریم که مقداارر خرووجی y رراا براایی ما تولید می‌کند.

50

یاددگیریِی‌ بانظاررتت - آآموززششگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بهینه ساززیی تابع پیش‌بینی h(x) توسط مثالل‌هایی آآموززشی اانجامم می‌شودد.

y رراا می‌شناسیم

به ااززاایی هر مثالل آآموززشی یک x_train دداارریم که مقداارر خرووجی y رراا براایی ما تولید می‌کند.

51

یاددگیریِی‌ بانظاررتت - آآموززششگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بهینه ساززیی تابع پیش‌بینی h(x) توسط مثالل‌هایی آآموززشی اانجامم می‌شودد.

براایی هر مثالل مقاددرر تفاووتت بین h(x_train) وو مقداارر اازز پیش تع�ن شدهه y رراا میابیم.

به ااززاایی هر مثالل آآموززشی یک x_train دداارریم که مقداارر خرووجی y رراا براایی ما تولید می‌کند.

52

یاددگیریِی‌ بانظاررتت - آآموززششگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بهینه ساززیی تابع پیش‌بینی h(x) توسط مثالل‌هایی آآموززشی اانجامم می‌شودد.

به کمک مثالل‌هایی آآززمایشی کافی، ااین ااختالفف‌ها ررووشی مفید براایی محاسبه ناددررستی (wrongness) تابع h(x) بدست می‌ددهند.

به ااززاایی هر مثالل آآموززشی یک x_train دداارریم که مقداارر خرووجی y رراا براایی ما تولید می‌کند.

براایی هر مثالل مقاددرر تفاووتت بین h(x_train) وو مقداارر اازز پیش تع�ن شدهه y رراا میابیم.

53

یاددگیریِی‌ بانظاررتت - آآموززششگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بهینه ساززیی تابع پیش‌بینی h(x) توسط مثالل‌هایی آآموززشی اانجامم می‌شودد.

براایی هر مثالل مقاددرر تفاووتت بین h(x_train) وو مقداارر اازز پیش تع�ن شدهه y رراا میابیم.

به کمک مثالل‌هایی آآززمایشی کافی، ااین ااختالفف‌ها ررووشی مفید براایی محاسبه ناددررستی (wrongness) تابع h(x) بدست می‌ددهند.

ووپس می‌تواانیم با ااختیارر کرددنن مقاددیر مناسبی براایی اازز میزاانن خطا بکاهیم.

به ااززاایی هر مثالل آآموززشی یک x_train دداارریم که مقداارر خرووجی y رراا براایی ما تولید می‌کند.

54

یاددگیریِی‌ بانظاررتت - آآموززششگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بهینه ساززیی تابع پیش‌بینی h(x) توسط مثالل‌هایی آآموززشی اانجامم می‌شودد.

براایی هر مثالل مقاددرر تفاووتت بین h(x_train) وو مقداارر اازز پیش تع�ن شدهه y رراا میابیم.

به کمک مثالل‌هایی آآززمایشی کافی، ااین ااختالفف‌ها ررووشی مفید براایی محاسبه ناددررستی (wrongness) تابع h(x) بدست می‌ددهند.

ووپس می‌تواانیم با ااختیارر کرددنن مقاددیر مناسبی براایی اازز میزاانن خطا بکاهیم.

به ااززاایی هر مثالل آآموززشی یک x_train دداارریم که مقداارر خرووجی y رراا براایی ما تولید می‌کند.

55

یاددگیریِی‌ بانظاررتت - آآموززششگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بهینه ساززیی تابع پیش‌بینی h(x) توسط مثالل‌هایی آآموززشی اانجامم می‌شودد.

براایی هر مثالل مقاددرر تفاووتت بین h(x_train) وو مقداارر اازز پیش تع�ن شدهه y رراا میابیم.

به کمک مثالل‌هایی آآززمایشی کافی، ااین ااختالفف‌ها ررووشی مفید براایی محاسبه ناددررستی (wrongness) تابع h(x) بدست می‌ددهند.

ووپس می‌تواانیم با ااختیارر کرددنن مقاددیر مناسبی براایی اازز میزاانن خطا بکاهیم.

ووتا جایی که سیستم به بهترین مقاددیر همگراا شودد اادداامه می‌یابد…

به ااززاایی هر مثالل آآموززشی یک x_train دداارریم که مقداارر خرووجی y رراا براایی ما تولید می‌کند.

56

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

57

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

58

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

آآشوبب‌

59

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

منطقی حاکم ااست!

60

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

چه کنیم؟!!!

61

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Q چگونه می‌تواانیم ماشین رراا آآموززشش ددهیم تا ددقیقا،

میزاانن ررضایت یک کاررمند رراا پیش‌بینی کند؟

62

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Q

نمی‌تواانیم.A

چگونه می‌تواانیم ماشین رراا آآموززشش ددهیم تا ددقیقا،میزاانن ررضایت یک کاررمند رراا پیش‌بینی کند؟

63

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Q چگونه می‌تواانیم ماشین رراا آآموززشش ددهیم تا ددقیقا،

میزاانن ررضایت یک کاررمند رراا پیش‌بینی کند؟

نمی‌تواانیم.A هدفف یاددگیریی ماشین هرگز محاسبه

پیش‌بینی‌هایی مطلقا ددقیق نیست، چراا که ااصوال ددرر ددنیایی ووااقعی “ددقیقا” بی‌معنیست

64

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

هدفف یاددگیریی ماشین محاسبه پیشبینی‌هایی ااست کهددرر صنعت وو کسب‌وو‌کارر به ااندااززهه کافی مفید هستند.

65

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

“All models are wrong, but some are useful” - George E. P. Box

66

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ااستفاددهه اازز ددااددهه‌هایی تصاددفی ددرر مثالل‌هایی آآموززشی

67

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

آآموززشش ماشین با پرسنلی که حقوقق‌هایی باال می‌گیرند

ااستفاددهه اازز ددااددهه‌هایی تصاددفی ددرر مثالل‌هایی آآموززشی

68

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

آآموززشش ماشین با پرسنلی که حقوقق‌هایی باال می‌گیرندآآموززشش ماشین با پرسنلی که ددرر بخش مهندسی کارر می‌کنند

ااستفاددهه اازز ددااددهه‌هایی تصاددفی ددرر مثالل‌هایی آآموززشی

69

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

آآموززشش ماشین با پرسنلی که حقوقق‌هایی باال می‌گیرندآآموززشش ماشین با پرسنلی که ددرر بخش مهندسی کارر می‌کنند

ااستفاددهه اازز ددااددهه‌هایی تصاددفی ددرر مثالل‌هایی آآموززشی

70

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

آآموززشش ماشین با پرسنلی که حقوقق‌هایی باال می‌گیرندآآموززشش ماشین با پرسنلی که ددرر بخش مهندسی کارر می‌کنند

ااستفاددهه اازز ددااددهه‌هایی تصاددفی ددرر مثالل‌هایی آآموززشی

ااستفاددهه اازز ددااددهه‌هایی که جامعیت کافی ندااررند یا تصاددفی نیستند، رریسک یاددگیریی االگو‌هایی که ددرر ددااددهه‌هایی ووااقعی یافت نمی‌شوند رراا اافزاایش می‌ددهد

71

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

قانونن ااعداادد بزررگگ

72

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

73

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

74

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

75

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

76

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

77

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

27

78

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

27

79

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

80

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

81

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی۱۰۰ 1500

82

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

همگراا شدهه! Converged

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

همگراا شدهه! Converged

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنلگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

همگراا شدهه! Converged

Optimal Predictor

گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررضایت‌مندیی اازز صفر تا ۱۰۰

همگراا شدهه! Converged

Optimal Predictor

ررگرااسیونن خطی تک متغیر univariate linear

regression

یاددگیریِی‌ بانظاررتت - ررضایتمندیی پرسنل

87

پیچیدگیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

88

بهبودد ددرر محاسبه مقاددیر ثابتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چگونه می‌تواانیم ااطمینانن حاصل کنیم که مقاددیر ددرر هر گاممووبهتر شدهه‌ااند؟

Q

89

بهبودد ددرر محاسبه مقاددیر ثابتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چگونه می‌تواانیم ااطمینانن حاصل کنیم که مقاددیر ددرر هر گاممووبهتر شدهه‌ااند؟

Q

Aبه کمک محاسبه میزاانن خطا (ناددررستی) نسبت به گامم قبلی وو

محاسباتت ددیفراانسیل وو اانتگراالل.

90

کمینه ساززیی خطا(ناددررستی)گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

محاسبه خطا (ناددررستی - wrongness) یا تابع هزینه

91

کمینه ساززیی خطا(ناددررستی)گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

محاسبه خطا (ناددررستی - wrongness) یا تابع هزینه

: تمامی ضراایبی که ددرر تابع پیش‌بینی ااستفاددهه می‌کنیم

92

کمینه ساززیی خطا(ناددررستی)گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

محاسبه خطا (ناددررستی - wrongness) یا تابع هزینه

: تمامی ضراایبی که ددرر تابع پیش‌بینی ااستفاددهه می‌کنیم

93

کمینه ساززیی خطا(ناددررستی)گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

محاسبه خطا (ناددررستی - wrongness) یا تابع هزینه

: تمامی ضراایبی که ددرر تابع پیش‌بینی ااستفاددهه می‌کنیم

وو ااستفاددهه می‌کنیم.میزاانن خطایی تابع پیش‌بینی h(x) ووقتی اازز مقاددیر

94

کمینه مربعاتت خطیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

95

کمینه مربعاتت خطیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

96

کمینه مربعاتت خطیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

97

کمینه مربعاتت خطیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

مربع خطا رراا کمینه می‌کند

98

کمینه مربعاتت خطیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

99

کمینه مربعاتت خطیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

100

کمینه مربعاتت خطیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

101

کمینه مربعاتت خطی - مدلل عمومیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

مدلل خطی ززیر به ددست می‌آآید:

102

تابع هزینه (میزاانن ناددررستی)گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

به کمک کمینه مربعاتت میزاانن جریمه یک حدسس بد، به صوررتت نمایی (ددررجه ۲) اافزاایش می‌یابد.

ددرر اانتخابب مقاددیر ثابت به ددنبالل آآنن‌هایی هستیم که تابع رراا کمینه کنند. اازز ااختالفف مقداارریی که حدسس ززددیم وو جواابب صحیح، ااستفاددهه می‌کند.

متوسط هزینه

103

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

می‌خوااهیم براایی تابع پیش‌بینی h(x) بهترین مقاددیر ممکن براایی رراا بیابیم به شکلی که تابع هزینه آآنن یعنی کمینه باشد.

وو

104

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

فرضض کنید ااین ترسیمی اازز تابع هزینه یک مسئله ااست:

105

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

فرضض کنید ااین ترسیمی اازز تابع هزینه یک مسئله ااست:

ووتغ�رااتت تابع هزینه

ددرر قبالل تغ�رااتت مقاددیر رراا می‌بینیم

106

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

به ااززیی اانتخابب مقاددیر مختلف براایی وو گویی رروویی یک کاسه

حرکت می‌کنیم. حدااقل هزینه پا4ن ترین قسمت کاسه ااست.

107

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

باید مقاددیر وو ددرر گودد ترین قسمت تابع هزینه رراا

بیابیم.

108

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

باید مقاددیر وو ددرر گودد ترین قسمت تابع هزینه رراا

بیابیم.

چگونه؟Q

109

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

باید مقاددیر وو ددرر گودد ترین قسمت تابع هزینه رراا

بیابیم.

چگونه؟Q

حسابب ددیفراانسیل :)A

110

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

شیب تابع هزینه رراا که ددرر J( , ) ووااقع ززووجج مشتق‌هاییااست (یک بارر مشتق وو یکبارر

) رراا محاسبه می‌کنیم. به ااززاایی هر تتا. وو تتا۱ می‌تواانیم

شیب رراا محاسبه کنیم.

مقداارر J به ااززاایی مقاددیر مختلف تغ�ر می‌کند. مشتق J اازز میزاانن شیب

خبر می‌ددهد. بر ااساسس میزاانن شیب می‌تواانیم تصمیم بگیریم چگونه کمی به ااضافه کرددهه وو

اازز بکاهیم تا به قعر ددررهه سرااززیر شویم

111

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

مقداارر J به ااززاایی مقاددیر مختلف تغ�ر می‌کند. مقداارر J اازز میزاانن شیب

خبر می‌ددهد. بر ااساسس میزاانن شیب می‌تواانیم تصمیم بگیریم چگونه کمی به ااضافه کرددهه وو

اازز بکاهیم تا به قعر ددررهه سرااززیر شویم

112

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

مقداارر J به ااززاایی مقاددیر مختلف تغ�ر می‌کند. مقداارر J اازز میزاانن شیب

خبر می‌ددهد. بر ااساسس میزاانن شیب می‌تواانیم تصمیم بگیریم چگونه کمی به ااضافه کرددهه وو

اازز بکاهیم تا به قعر ددررهه سرااززیر شویم

113

(Gradient Descent) شیب نزوولیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

114

یاددگیریِی‌ بانظاررتت - ددنیایی ووااقعیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک ددوورر اازز آآموززشش رراا به پایانن برددیم!

115

یاددگیریِی‌ بانظاررتت - ددنیایی ووااقعیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک ددوورر اازز آآموززشش رراا به پایانن برددیم!

تابع پیش‌بینی ما حاال پیش‌بینی‌هایی بهتریی نسبت به قبل تولید می‌کند :)

116

یاددگیریِی‌ بانظاررتت - ددنیایی ووااقعیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک ددوورر اازز آآموززشش رراا به پایانن برددیم!

تابع پیش‌بینی ما حاال پیش‌بینی‌هایی بهتریی نسبت به قبل تولید می‌کند :)

ماشین ما حاال کمی باهوشش‌تر شدهه ااست!

117

یاددگیریِی‌ بانظاررتت - ددنیایی ووااقعیگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ررووشش شیب نزوولی با ااعمالل تغ�رااتی می‌توااند ددرر اانوااعع ررووشش‌هایی یاددگیریی با نظاررتت ااجراا می‌شودد. مفاهیم ااوولیه همانند آآنچه با هم ددیدیم ااست.

118

اانوااعع یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

(Supervised Learning ) یاددگیریی با نظاررتت

سامانه‌هایی یاددگیریی ماشین ررگرااسیونن

(Classification) سامانه‌هایی یاددگیریی ماشین طبقه‌بندیی

چقدرر؟ چند تا؟

آآیا بیمارر ااست؟ کیفیت ااستانداارردد رراا ددااررااست؟

119

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

120

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

میخوااهیم مطمئن شویم جنس کامل وو مرغوبب به ددست مشتریی می‌ررسد

121

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بیسکویت بد y = ۰ (red)

لیبل‌ها:

بیسکویت خوبب y = 1 (blue)

122

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

آآیا تابع پیش‌بینی ررگرااسیونن براایی حل ااین مسئله مناسب ااست؟

Q

بیسکویت بد y = ۰ (red)

لیبل‌ها:

بیسکویت خوبب y = 1 (blue)

123

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

آآیا تابع پیش‌بینی ررگرااسیونن براایی حل ااین مسئله مناسب ااست؟

Q

Aبیسکویت بد

y = ۰ (red)

لیبل‌ها:

بیسکویت خوبب y = 1 (blue)

ددرر طبقه‌بندیی معموال به یک تابع Predictor براایی ساختن گمانی بین ۰ وو ۱ نیازز دداارریم.

124

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بیسکویت بد y = ۰ (red)

لیبل‌ها:

بیسکویت خوبب y = 1 (blue)

125

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بیسکویت خوبب y = 1 (blue)

بیسکویت بد y = ۰ (red)

126

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

بیسکویت خوبب y = 1 (blue)

بیسکویت بد y = ۰ (red)

بد نیستفکرشو نکن

127

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Sigmoid function transforms our output into the range between 0 and 1

128

یاددگیریی با نظاررتت - تابع هزینه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طبقه‌بندیی (Classificatoin) ددرر محاسبه هزینه نیز اازز منطق متفاووتی بهرهه می‌گیردد:

129

یاددگیریی با نظاررتت - تابع هزینه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ااگر y براایی بیسکویتی 0 باشد وو ما 1 حدسس ززددهه باشیم، کامال ددرر ااشتباهیم! (y = 0, but h(x) = 1) !ااشتباهه فاحش، جریمه هنگفت ددرر بر دداارردد

طبقه‌بندیی (Classificatoin) ددرر محاسبه هزینه نیز اازز منطق متفاووتی بهرهه می‌گیردد:

130

یاددگیریی با نظاررتت - تابع هزینه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ااگر یک بیسکویت صفر باشد وو ما صفر حدسس ززددهه باشیم نباید هزینه‌اایی محاسبه کنیم.

ااگر y براایی بیسکویتی 0 باشد وو ما 1 حدسس ززددهه باشیم، کامال ددرر ااشتباهیم! (y = 0, but h(x) = 1) !ااشتباهه فاحش، جریمه هنگفت ددرر بر دداارردد

طبقه‌بندیی (Classificatoin) ددرر محاسبه هزینه نیز اازز منطق متفاووتی بهرهه می‌گیردد:

131

یاددگیریی با نظاررتت - تابع هزینه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ااگر یک بیسکویت صفر باشد وو ما صفر حدسس ززددهه باشیم نباید هزینه‌اایی محاسبه کنیم. (y = 1, but h(x) = 0.8) ااگر بیسکویت مطلوبب باشد وولی ما یقین ندااشته باشیم

باید هزینه‌ ااندکی ددرر نظر گرفته شودد

ااگر y براایی بیسکویتی 0 باشد وو ما 1 حدسس ززددهه باشیم، کامال ددرر ااشتباهیم! (y = 0, but h(x) = 1) !ااشتباهه فاحش، جریمه هنگفت ددرر بر دداارردد

طبقه‌بندیی (Classificatoin) ددرر محاسبه هزینه نیز اازز منطق متفاووتی بهرهه می‌گیردد:

132

یاددگیریی با نظاررتت - تابع هزینه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ااگر یک بیسکویت صفر باشد وو ما صفر حدسس ززددهه باشیم نباید هزینه‌اایی محاسبه کنیم. (y = 1, but h(x) = 0.8) ااگر بیسکویت مطلوبب باشد وولی ما یقین ندااشته باشیم

باید هزینه‌ ااندکی ددرر نظر گرفته شوددااگر حدسس ما ااشتباهه باشد وولی ااطمینانن ندااشته باشیم (y = 1 but h(x) = 0.3) باید

هزینه محسوسی بپرددااززیم وولی نه به ااندااززهه‌اایی که کامال ااشتباهه کرددهه‌اایم.

ااگر y براایی بیسکویتی 0 باشد وو ما 1 حدسس ززددهه باشیم، کامال ددرر ااشتباهیم! (y = 0, but h(x) = 1) !ااشتباهه فاحش، جریمه هنگفت ددرر بر دداارردد

طبقه‌بندیی (Classificatoin) ددرر محاسبه هزینه نیز اازز منطق متفاووتی بهرهه می‌گیردد:

133

یاددگیریی با نظاررتت - تابع هزینه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

طبقه‌بندیی (Classificatoin) ددرر محاسبه هزینه نیز اازز منطق متفاووتی بهرهه می‌گیردد:

134

یاددگیریی با نظاررتت - تابع هزینه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ااگر یک بیسکویت صفر باشد وو ما یک حدسس ززددهه باشیم، کامال ددرر ااشتباهیم.

ااگر یک بیسکویت صفر باشد وو ما صفر حدسس ززددهه باشیم نباید هزینه‌اایی محاسبه کنیم. (y = 1, but h(x) = 0.8) ااگر بیسکویت مطلوبب باشد وولی ما یقین ندااشته باشیم

باید هزینه‌ ااندکی ددرر نظر گرفته شوددااگر حدسس ما ااشتباهه باشد وولی ااطمینانن ندااشته باشیم (y = 1 but h(x) = 0.3) باید

هزینه محسوسی بپرددااززیم وولی نه به ااندااززهه‌اایی که کامال ااشتباهه کرددهه‌اایم.

(y = 0, but h(x) = 1) .ااشتباهه فاحش، جریمه هنگفتبینهایت

۰

۰.۰۹۶

۰.۵۲

طبقه‌بندیی (Classificatoin) ددرر محاسبه هزینه نیز اازز منطق متفاووتی بهرهه می‌گیردد:

135

یاددگیریی با نظاررتت - طبقه‌بندیی گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

136

یاددگیریی با نظاررتت - شما جواابب بدین گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

137

یاددگیریی با نظاررتت - شما جواابب بدین گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

138

پیاددهه ساززییگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

کد بنویسیم

139

مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

یک بنگاهه تخصصی ااررززیابی خوددرروو هایی ددست‌ددوومم براایی کنترلل صحت کیلومتر‌شمارر

(Odometer) به ما مرااجعه کرددهه

وو می‌خوااهد به کمک کامپیوتر وو ااتوماسیونن کیلومتر‌هایی

ددست‌کارریی شدهه رراا شناسایی کنیم.

140

مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

صاحب بنگاهه معتقد ااست ااگر خوددرروویی کمتر اازز میزاانن متعاررفف سن خودد ررااهه‌ررفته، باید به عنواانن

مورردد مشکوکک شناسایی شودد.(عقل سلیم)

141

مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

ااطالعاتت ۲۱ خوددرروو رراا ددرر ااختیارر ما قراارر ددااددهه که شامل ستونن‌هایی نوعع، سن، کیلومتر وو تخمین ددرر مورردد تقلب

ااست.

142

مسئلهگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

143

پیاددهه ساززیی - چه باید کردد؟گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چه االگورریتم‌هایی مناسبند؟ چه ززبانن‌هایی برنامه‌نویسی مناسبند؟

چه سیستم‌عاملی؟ چقدرر طولل می‌کشه ااوولین نمونه رروو بنویسم؟

ااگر ددیتا ززیادد بشه، مشکل کارراایی پیداا نمی‌کنم؟ چطورر می‌تونم مطمئن بشم رَروِوشم ددررسته؟

آآیا کدیی که مینویسم پایدااررهه؟ مرددمم میتونن ززندگیشونن رروو بسپرنن به کد من؟

144

پیاددهه ساززیی - چه باید کردد؟گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چه االگورریتم‌هایی مناسبند؟ چه ززبانن‌هایی برنامه‌نویسی مناسبند؟

چه سیستم‌عاملی؟ چقدرر طولل می‌کشه ااوولین نمونه رروو بنویسم؟

ااگر ددیتا ززیادد بشه، مشکل کارراایی پیداا نمی‌کنم؟ چطورر می‌تونم مطمئن بشم رَروِوشم ددررسته؟

آآیا کدیی که مینویسم پایدااررهه؟ مرددمم میتونن ززندگیشونن رروو بسپرنن به کد من؟

متقلب بوددنن یا نبوددننززبانن‌هایی متعددد …

اایدهه‌اایی ندااررممخیلی ززیادد :(

)))):باید بپرسم اازز متخصصین

نمی ددوونم ووااقعا. باید ززیر لودد برهه.وولش کن‌ ااصال به ززحمتش نمی‌ااررززهه

145

پیاددهه ساززیی - چه باید کردد؟گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چه االگورریتم‌هایی مناسبند؟ چه ززبانن‌هایی برنامه‌نویسی مناسبند؟

چه سیستم‌عاملی؟ چقدرر طولل می‌کشه ااوولین نمونه رروو بنویسم؟

ااگر ددیتا ززیادد بشه، مشکل کارراایی پیداا نمی‌کنم؟ چطورر می‌تونم مطمئن بشم رَروِوشم ددررسته؟

آآیا کدیی که مینویسم پایدااررهه؟ مرددمم میتونن ززندگیشونن رروو بسپرنن به کد من؟

متقلب بوددنن یا نبوددننززبانن‌هایی متعددد …

اایدهه‌اایی ندااررممخیلی ززیادد :(

)))):باید بپرسم اازز متخصصین

نمی ددوونم ووااقعا. باید ززیر لودد برهه.وولش کن‌ ااصال به ززحمتش نمی‌ااررززهه

146

یاددگیریی با نظاررتت به کمک آآپاچی ماهوتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

لجستیک ررگرااسیونن

یک مدلل آآمارریی ررگرسیونن براایی متغیرهایی وواابسته ددووسویی مانند: بیمارریی یا سالمت •مرگگ یا ززندگی •خرید یا عدمم خرید •ثبت نامم یا عدمم ثبت نامم •ووررشکسته شدنن یا ووررشکسته نشدنن•

147

پیاددهه ساززیی - به بزررگانن ااقتداا کنیمگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

“تنبلی فضیلت ااست” آآرراا آآبرااهامیانن

148

یاددگیریی با نظاررتت به کمک آآپاچی ماهوتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

One of Components on the Shelf:

https://builds.apache.org/job/Mahout-Quality/javadoc/org/apache/mahout/classifier/sgd/OnlineLogisticRegression.html

149

یاددگیریی با نظاررتت به کمک آآپاچی ماهوتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

LOGISTIC REGRESSION USING APACHE MAHOUT

Logistic regression is a supervised learning algorithm used to classify input data into a categories. If we have two possible categories, then we are using binary or binomial logistic regression and if we have more than three categories we are using multinomial logistic regression. For the binary logistic regression, the algorithm will find a mathematical function which best fits the training data. This function is the sigmoid function which takes values between 1 and 0. The classification algorithm will use the trained model function and will return the probability for a new input data to be in a category or another.

150

یاددگیریی با نظاررتت - کشف تقلب گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

DETECT CAR MILEAGE FRAUD USING LOGISTIC REGRESSION

small 10 100000 0 small 10 200000 0 small 8 30000 1 small 3 10000 1 small 5 10000 1 medium 6 60000 0 medium 4 10000 1 medium 4 200000 0 medium 5 50000 1family 2 60000 0

Model Age Milage Result Model Age Milage Resultfamily 5 10000 1 family 4 200000 0 family 7 70000 1 family 1 20000 0 family 2 10000 1 sport 6 50000 1 sport 4 100000 0 sport 2 20000 1 sport 3 30000 1 sport 10 5000 1sport 10 100000 1

151

یاددگیریی با نظاررتت - ملزووماتت گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Prerequisites:

• Linux or Mac • Java 1.7 • Apache Maven 3

152

CM - یاددگیریی با نظاررتتگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Create the Maven project:

mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=com.technobium -DartifactId=mahout-logistic-regression -DinteractiveMode=false

153

یاددگیریی با نظاررتت - تغpر نامم گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Rename the default created App class to LogisticRegression

mv mahout-logistic-regression/src/main/java/com/technobium/App.java mahout-logistic-regression/src/main/java/com/technobium/LogisticRegression.java

154

یاددگیریی با نظاررتت - وواابستگی‌ها گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Add the Mahout and SLF4J libraries to this project:cd mahout-logistic-regression nano pom.xml

<dependencies> ... <dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.9</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>1.7.7</version> </dependency> </dependencies>

155

یاددگیریی با نظاررتت - پالگین بیلد وو نسخه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Add ُthe build configuration:

<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <configuration> <source>1.7</source> <target>1.7</target> </configuration> </plugin> </plugins> </build>

156

یاددگیریی با نظاررتت - ددااددهه‌هایی آآموززشش گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

mkdir input

copy the file containing the training data, inputData.csv

157

یاددگیریی با نظاررتت - کد تر وو تمیز گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Edit the ClusteringDemo class file and add the following code:

158

یاددگیریی با نظاررتت -ااجراا گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Run the class by using the following command:

mvn compile mvn exec:java -Dexec.mainClass="com.technobium.LogisticRegression"

159

یاددگیریی با نظاررتت - نتایج گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

RESULT

Pass: 0, Learning rate: 0.1759, Accuracy: 0.9615 Pass: 10, Learning rate: 0.0511, Accuracy: 0.9712 Pass: 20, Learning rate: 0.0303, Accuracy: 0.9712 ------------- Testing ------------- Probability of not fraud (0) = 0.090 Probability of fraud (1) = 0.910

a family car which is 10 years old and was used for 100000 kilometers. For this input, the algorithm tells us that there is 91% chances that the mileage of the car was manipulated. The decision was based on the data given as input during the training phase.

160

یاددگیریی با نظاررتت -چگونه کارر کردد؟ گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

To automate the decision we will use the OnlineLogisticRegression algorithm from Apache Mahout. The input of the algorithm will be an array of Observation objects. Each Observation contains a vector with the car detail (type, age mileage) and the actual category according to the input data (1 manipulate or 0 not manipulated). The first element of the vector is the intercept term, which is important in order to obtain a accurate model and which has the value 1. You can see the intercept term in action also in simple linear regression. The model is trained 30 times and each 10th iteration we check its quality against the same input data set. If we had much more data available, we would have used a subset of the data for model quality check. The final step will be to use the model in order to predict the fraud probability for car data not present in the training data set.

How It Works?

161

یاددگیریی با نظاررتت - خالصه گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

Typical usages for logistic regression are fraud detection, manufacturing error detection, weather prediction, mail filtering (spam or ham) or in medicine for case classification. Very close to linear regression this classification algorithm is one of the most used machine learning algorithms.

CONCLUSION

162

یاددگیریی با نظاررتت - مخزنن گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

https://github.com/technobium/mahout-logistic-regression/

163

پیاددهه ساززیی - چه باید کردد؟گذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

چه االگورریتم‌هایی مناسبند؟ چه ززبانن‌هایی برنامه‌نویسی مناسبند؟

چه سیستم‌عاملی؟ چقدرر طولل می‌کشه ااوولین نمونه رروو بنویسم؟

ااگر ددیتا ززیادد بشه، مشکل کارراایی پیداا نمی‌کنم؟ چطورر می‌تونم مطمئن بشم رَروِوشم ددررسته؟

آآیا کدیی که مینویسم پایدااررهه؟ مرددمم میتونن ززندگیشونن رروو بسپرنن به کد من؟

164

مرجعگذرریی بر کارربردد‌هایی ددااددهه‌هایی بزررگگ وو یاددگیریی‌ماشین - تابستانن ACM - ۱۳۹۵ دداانشگاهه تهراانن

https://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)http://www.datavizualization.com/blog/an-introduction-to-machine-learning-theory-and-its-applications-a

https://en.wikipedia.org/wiki/Sigmoid_functionhttps://www.coursera.org/learn/machine-learninghttp://technobium.com/logistic-regression-using-apache-mahout/


Recommended