04 элементы business intelligence в работе аналитика ч2

Post on 15-Jun-2015

5,095 views 2 download

Tags:

description

Во второй части я продолжу говорить о еще более сложных вопросах BI . Поговорим о работе с данными разного объема и разной сложности, пробежимся по реляционной алгебре Кодда и на примере посмотрим, как задачки на анализ проблемы могут порождать составление аналитиком собственных моделей данных, ключевых показателей и сводных отчетов.

transcript

1

Элементы Business Intelligence в работе аналитика

Часть 2

Работа с данными, реляционные отношения

Москва, 2008

Свешникова Н.В.

2

• Операции над данными, формирование отчетов

• Табличное представление и реляционные отношения

• Реляционная алгебра Кодда

• Формирование собственных моделей данных

BI аналитикСегодня мы завершим рассмотрение оставшихся вопросов…

3

Работа аналитика часто связана с обработкой данных, уже структурированных и сложенных в хранилище.

Естественный распространенный способ структуризации – табличное представление, будь то таблицы MS Excel,

реляционные базы данных или списки MS SharePoint.

BI аналитик Источники данных

Data

Server

4

BI аналитик Обработка данных

В зависимости от объема и структуры данных меняются приемы обработки и математический аппарат:

• Пока данные умещаются на одном экране в табличке Excel, нам часто проще работать с каждой отдельной ячейкой. Это операции над скалярными величинами.

• Данные становятся динамичнее, количество строк в вашей таблице стремительно растет – Вы начинаете оперировать столбцами. Операции становятся векторными.

• Усложняется структура данных, вы сопоставляете данные нескольких таблиц с разным набором столбцов и сложными взаимосвязями. Это операции над множествами.

5

BI аналитик Обработка данных

Чтобы оперировать большими объемами сложно структурированных данных стоит знать основы

•Теория множеств

•Реляционная алгебра Кодда

6

Табличное представление является «житейской» интерпретациейреляционного отношения – базового понятия

реляционной модели данных

BI аналитикТабличное представление и реляционное отношение

Таблица = отношение

Заголовок = схема отношения

Столбец = атрибут

Строка = кортеж

7

• Отсутствие кортежей-дубликатов Первичный ключ – минимально множество атрибутов, составное значение которых уникально определяет кортеж отношения

• Отсутствие упорядоченности кортежей

• Отсутствие упорядоченности атрибутов

• Атомарность значений всех атрибутов Т.е. значение не содержит своей явной структуры

• Нормальна форма отношения

BI аналитикОсновные свойства отношений

8

• Нормальна форма отношения

BI аналитик 1я нормальная форма

Номер Имя Зарплата Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Номер Имя Зарплата Отдел

113 Иванов 25000 А

213 Петров 35000

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000

Ненормализованное отношение

9

BI аналитикРеляционная алгебра Кодда

Основана на традиционных теоретико-множественных операциях, дополненных некоторыми специальными операциями

Объединение

Пересечение

Разность

Декартово произведение

Ограничение

Проекция

Соединение отношений

Деление отношений

10

BI аналитикТеоретико-множественные операции: Объединение

Результат С объединения А и В содержит кортежи, содержащиеся или в отношении А или в отношении В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

№ Имя Зарп. Отдел

234 Васильева 40000 С

213 Петров 35000 А

134 Котова 19000 Б

123 Федотова 43000 В

421 Макаров 30000 С

Отношение С

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

234 Васильева 40000 С

134 Котова 19000 Б

421 Макаров 30000 С

11

BI аналитикТеоретико-множественные операции: Пересечение

Результат С пересечения А и В содержит кортежи, содержащиеся и в отношении А и в отношении В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

№ Имя Зарп. Отдел

234 Васильева 40000 С

213 Петров 35000 А

123 Федотова 43000 В

134 Котова 19000 Б

421 Макаров 30000 С

Отношение С

№ Имя Зарп. Отдел

213 Петров 35000 А

123 Федотова 43000 В

12

BI аналитикТеоретико-множественные операции: Разность

Результат С разности А и В содержит кортежи, содержащиеся в отношении А, но не содержащиеся в отношении В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

№ Имя Зарп. Отдел

234 Васильева 40000 С

213 Петров 35000 А

123 Федотова 43000 В

134 Котова 19000 Б

421 Макаров 30000 СОтношение С

№ Имя Зарп. Отдел

113 Иванов 25000 А

134 Сидоров 16000 Б

421 Пупкина 39000 В

13

BI аналитикТеоретико-множественные операции: декартово произведение

Кортежи результата С декартового произведения А и В есть объединение каждого кортежа А с каждым кортежом В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

Проект РМ

П1 Иванов

П2 Васин

Отношение С

№ Имя Зарп. Отд

Пр РМ

113 Иванов 25000 А П1 Иванов

213 Петров 35000 А П1 Иванов

134 Сидоров 16000 Б П1 Иванов

123 Федотова 43000 В П1 Иванов

421 Пупкина 39000 В П1 Иванов

113 Иванов 25000 А П2 Васин

213 Петров 35000 А П2 Васин

134 Сидоров 16000 Б П2 Васин

123 Федотова 43000 В П2 Васин

421 Пупкина 39000 В П2 Васин

14

BI аналитикСпециальные реляционные операции: ограничение

Результат С ограничения А по условию b есть набор кортежей, атрибуты которых удовлетворяют условию b

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В Отношение C

№ Имя Зарп. Отдел

213 Петров 35000 А

123 Федотова 43000 В

421 Пупкина 39000 В

Условие b

Заплата > 30000

Можно охарактеризовать,как «горизонтальную»

вырезку из таблицы

15

BI аналитикСпециальные реляционные операции: проекция

Результат С проекции А на множество атрибутов ai есть отношениес соответствующим набором атрибутов и удалением дубликатов

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Проекция на…

Отдел

Можно охарактеризовать,как «вертикальную»вырезку из таблицы

Отношение С

Отдел

А

Б

В

16

BI аналитикСпециальные реляционные операции: проекция и агрегирование

Модель показателей и классификатор, рассмотренная ранеедополняет операцию проецирования операцией агрегирования

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Проекция на…

Зарплату

Отношение С1

Зарплата

25000

35000

16000

43000

39000

Проекция с агрегированием на…

Зарплату

Отношение С2

Зарплата

158000

17

BI аналитикСпециальные реляционные операции: Соединение отношений по условию

Результат С соединения А и В по условию d есть ограничениепо условию декартового произведения А и В

Отношение А

№ Имя Зарп. Отдел

113 Иванов 25000 А

213 Петров 35000 А

134 Сидоров 16000 Б

123 Федотова 43000 В

421 Пупкина 39000 В

Отношение В

Отд Рук. Комн

А Петренко 211

Б Сидоренко 221

В Васильев 315

Отношение С

№ Имя Зарп. Отд Рук. Ком

113 Иванов 25000 А Петренко

211

213 Петров 35000 А Петренко

211

134 Сидоров 16000 Б Сидоренко

221

123 Федотова

43000 В Васильев 315

421 Пупкина 39000 В Васильев 315

Условие

Отдел из А = Отдел из В

18

BI аналитикСпециальные реляционные операции: деление отношений

Для выполнения операции А должно содержать все атрибуты ВРезультат С деления А на В есть множество кортежей А, которым

соответствуют каждый из кортежей В

Отношение А

№ Имя Зарп. Проект

113 Иванов 25000 П1

213 Петров 35000 П2

134 Сидоров 16000 П1

213 Петров 35000 П1

421 Пупкина 39000 П1

123 Федотова 43000 П2

421 Пупкина 39000 П2

Отношение В

Проект

П1

П2

Отношение С

№ Имя Зарп. Проект

213 Петров 35000 П2

421 Пупкина 39000 П1

19

Online Analytical Processing, or OLAP, is an approach to quickly provide answers to analytical

queries that are multi-dimensional in nature

BI аналитикИнструменты многомерногоанализа

Позволяет запрашивать данные из различных источников: баз данных, отдельных файлов, например, MS Excel.

Запросы составляются с помощью пользовательского интерфейса.

Широкие вычислительные возможности Связывание данных из различных запросов Поддержка разнообразных представлений данных:

таблицы, кросс-таблицы, графики, диаграммы.

20

Key Performance Indicators (KPI) are financial and non-financial metrics used to help an organization define and

measure progress toward organizational goals

BI аналитикФормирование собственных моделей данных

Как правило, отчетность – это средство представления Ключевых показателей эффективности

Эти показатели задают метрики, которые позволяют руководству проводить диагностику ситуации и принимать обоснованные решения.

Рассмотрим формирование показателей и отчетности на простом примере.

21

Пусть у нас есть задача проанализировать эффективность рекрутинговой деятельности отдела кадров.Для начала необходимо исследовать процесс

BI аналитик Эффективность рекрутинга

Поступление заявок от подразделений

Публикация вакансий Активный поиск

Обработка резюме, контакт с кандидатом

Проведение собеседования

Прием на работу

Отказ

Отказ

22

BI аналитик Что мы измеряем?

Высокоуровневые вопросы:

Сколько сотрудников удалось нанять? (Факт) Сколько сотрудников требовалось нанять за этот

период? (План)

Если факт совершенно не соответствует плану, какие возникнут дополнительные вопросы?

Сколько кандидатов рассматривалось вообще? Каким образом, на каких этапах и по каким причинам они

отсеивались?

23

BI аналитик Отчетная форма

Отвечая на эти вопросы, мы

получаем нашу первую

отчетную форму

24

BI аналитикКак собираются данные для отчета?

Для фиксированияплана нужно вести

журналпо поступающим

заявкам

25

BI аналитикКак собираются данные для отчета?

Для фиксированияфакта нужен

журнал по обработанным

резюме

26

BI аналитик Что можно получить еще?

Оптимизировать работу:

Какие источники поступления резюме наиболее эффективны?

Каковы причины отказов?

Далее информационную модель можно расширять, чтобы получать ответы на все новые вопросы…

Соответствует ли предложение спросу на рынке труда? Сколько времени уходит у сотрудника ОК на полную

обработку одного резюме? И т.п.

27

BI аналитик | Подведем итоги

BI аналитик

Обработкаданных

Реляционныеотношения

Реляционнаяоперации

Формированиемоделей данных

Сборданных

Формированиеотчетов и

показателей

28

BI аналитик | Заключение

• Вопросы?

29

Введение | Литература

www.wikipedia.org

С. Д. Кузнецов. «Основы баз данных. Курс лекций. Учебное пособие». – М.: Интернет-Университет Информационных технологий, 2005. – 488 стр.