How to-build-google

Post on 24-Jan-2017

27 views 0 download

transcript

Большой кравлинг

на фронтирахДенис Тимофеев. Скрапингхаб

Скрапингхаб

Scrapy

Инфраструктура

Архитектура

Requests + Beautifulsoup

Scrapy

Docker

MesosKubernetos

Swarm

Где хранить результаты?

Хочется процессинга

Фронтир готов!

Что же внутри?

СУБД

SQLAlchemy & RDBMSили

HBase

Почему HBase

Реализация BigTable

MapReduce

HyperTable Cassandra

Accumulo HBase

Очереди сообщений

ZeroMQили

Kafka

Почему Kafka

Вежливый обход

Топики и разделы

СмещенияОффсеты

Стратегии обхода

Состояния URLНе пройденоВ очереде

ПройденоОшибка

Переобход

Ограничение числа

страниц

Тематический обход

В реальном мире

DNS

Ключ в HBase

Лексографическая сортировка

И блочное чтение

ru. rannts/news/2016/8/meetup-12/

ru. rannts/news/2016/8/meetup-12/

crc32 md5↓↓

Локальный кэш

dict

4K & 1M

.es

70K доменов

46.5М страниц

1.5 месяца

8 серверов

24 CPU 160G RAM