Большой кравлинг
на фронтирахДенис Тимофеев. Скрапингхаб
Скрапингхаб
Scrapy
Инфраструктура
Архитектура
Requests + Beautifulsoup
Scrapy
Docker
MesosKubernetos
Swarm
Где хранить результаты?
Хочется процессинга
Фронтир готов!
Что же внутри?
СУБД
SQLAlchemy & RDBMSили
HBase
Почему HBase
Реализация BigTable
MapReduce
HyperTable Cassandra
Accumulo HBase
Очереди сообщений
ZeroMQили
Kafka
Почему Kafka
Вежливый обход
Топики и разделы
СмещенияОффсеты
Стратегии обхода
Состояния URLНе пройденоВ очереде
ПройденоОшибка
Переобход
Ограничение числа
страниц
Тематический обход
В реальном мире
DNS
Ключ в HBase
Лексографическая сортировка
И блочное чтение
ru. rannts/news/2016/8/meetup-12/
ru. rannts/news/2016/8/meetup-12/
crc32 md5↓↓
Локальный кэш
dict
4K & 1M
.es
70K доменов
46.5М страниц
1.5 месяца
8 серверов
24 CPU 160G RAM