Электронный архив в Научной библиотеке университета
DSpace в УрГУ
Негуляев Е. А.
Пятая международная конференция «Science Online»
Турция, г. Кемер, 14 мая 2005 г.
План доклада
1. Работа Научной библиотеки УрГУ над оцифровыванием фондов и сбором электронных ресурсов.
2. Попытки организации доступа к электронным ресурсам НБ УрГУ.
3. DSpace в УрГУ.
Хроника: январь 2001 г.
Начата самостоятельная оцифровка фондов библиотеки:
наиболее востребованные издания из фондов Отдела редких книг;
использование графического формата DjVu;
первая оцифрованная книга:Иеринг, Рудольф фон. Борьба за право. — М., 1874.
Технологический процесс
Представление оцифрованных изданий изданий в виде изображений:
высокая производительность; сохранение внешнего вида изданий; нет проблем с дореформенной русской
орфографией.
Хроника: июль 2001 г.
Начато формирование цифровой коллекции авторефератов и диссертаций:
договор между Уральским университетом и автором о передаче неисключительных авторских прав;
получение эл. копии от автора и перевод ее в PDF-формат (не сканирование!)
Хроника: конец 2002 г.
0
5000
10000
15000
20000
25000
монографии авторефераты
Январь, 2001
Июнь, 2001
Ноябрь, 2001
Май, 2002
Октябрь, 2002
Способы доступа
Ссылка в библиографической MARC-записи (856$u) — доступ через электронный каталог и любые внешние службы, использующие доступ к эл. каталогу по протоколу Z39.50:
невозможность объединения в коллекции; эл. копии невидимы для поисковых машин
(«невидимый веб»); нет полнотекстового поиска.
Способы доступа
Раздел «Цифровые коллекции» на сайте регионального библиотечного консорциума «Consensus Omnium: Корпоративная сеть библиотек Урала»:
статичный html-сайт — сложность поддержания в актуальном состоянии, низкая оперативность, минимальная функциональность.
Способы доступа
Локальный доступ на рабочих местах в Научной библиотеке УрГУ:
статичный html-сайт — сложность поддержания в актуальном состоянии, низкая оперативность, минимальная функциональность.
Способы доступа
Интерфейс доступа на сайте Научной библиотеки УрГУ:
динамический сайт (ASP + MySQL); простота поддержания в актуальном
состоянии; два вида сортировки (фамилия автора
и код специальности); совместимость с Google, Yandex и т. п.
Хроника: 2003 год
2 электронных коллекции учебных материалов («Введение в литературоведение» и «История отечественной журналистики»):
около 16 тыс. страниц каждая; PDF + распознанный текст в режиме
«текст под изображением» — возможность полнотекстового поиска.
Хроника: 2004 год
Совместная работа над электронной коллекцией учебных изданий по философии и обмен цифровыми копиями с Научной библиотекой Удмуртского государственного университета (около 15 тыс. страниц).
Объемы: рубеж 2004/2005 гг.
1
0
5000
10000
15000
20000
25000
30000
35000
40000
45000
Авторефераты и диссертации
Редкие издания
Учебные коллекции
Конференции, публикациисотрудников
Объемы: рубеж 2004/2005 гг.
Всего более 90 тыс. страниц. 2/3 имеют текстовую составляющую
(результат распознавания или изначально компьютерный текст), соответственно, пригодны для полнотекстового поиска.
Различные пути поступления (в том числе от авторов).
Это всего лишь ресурсы, созданные библиотекой! Ресурсы университета намного больше.
Выводы
Управление электронными ресурсами в таких объемах возможно только с помощью эффективного ПО, которое позволит организовывать и контролировать все основные этапы жизненного цикла электронных документов.
Хроника: февраль 2004 г.
Впервые в стенах НБ УрГУ произносятся слова «репозиторий» и «DSpace»:
4/02/2004 — письмо в дискуссионный лист «Электронные библиотеки» ([email protected]) с обзором статьи «DSpace vs. ETD-db: Choosing software to manage electronic theses and dissertations» (журнал «Ariadne», вып. 38, январь 2004 г.; http://www.ariadne.ac.uk/issue38/jones/)
Хроника: август 2004 г.
Пакет документов в рамках проекта НФПК «Совершенствование управлением библио-течными ресурсами в ВУЗах», в том числе:
профильный стандарт «Электронные информационные ресурсы: Структура, атрибуты, жизненный цикл»: «Все внутренние электронные ресурсы
архивируются в репозитории УрГУ, за исключением электронных изданий, которые не могут быть архивированы из-за особенностей технической или программной реализации».
Другие документы
«Технологическая схема контроля качества подготовки электронных информационных ресурсов».
«Интегрированный набор метаданных информационных ресурсов» (локальный профиль метаданных).
Схемы соответствий локального профиля метаданных для RUSMARC и Dublin Core.
Хроника: август-декабрь 2004
Тестовая инсталляция DSpace (вначале 1.2 beta 3, затем 1.2).
Русификация DSpace. Изучение и модификация схемы
метаданных. Определение структуры репозитория. Первичное наполнение репозитория.
Хроника: январь-апрель 2005
Запуск OAI-провайдера для DSpace. Пополнение репозитория новыми
поступлениями электронных документов (текущие поступления в электронную коллекцию авторефератов и диссертаций).
Переговоры о включении в архив материалов, прошедших через редакционно-издательский отдел университета (около 100 наименований в год, начиная с 2002 г.).
DSpace: основное
Репозиторий — архив электронных документов:
архивирование; хранение; поиск.
Open source. Первоначальная разработка: Hewlett-
Packard Research Labs + MIT Libraries.
DSpace: основное
В настоящее время переход к более открытой разработке.
Реализованная в DSpace модель больше всего подходит для крупного научного учреждения.
Более 70 архивов на основе DSpace в настоящее время.
Технические детали
Язык программирования — Java. СУБД — PostreSQL 7.0+, возможна
поддержка других СУБД, в т. ч. Oracle (добавлено в новых версиях).
Tomcat. 1,5–2 Gb на диске для полной
установки (без учета хранимых электронных документов).
Технические детали
OAI PMH 2.0. Handle — поддержка постоянных
идентификаторов. SRW — возможность переадресовать
запрос из Z39.50 среды и получить ответ.
Аппаратное обеспечение
НБ УрГУ: P-IV 1,4 Ghz, 512 Mb RAM,2х36 Gb Raid.
На 1 физическом сервере расположено 4 виртуальных сервера (http://lib.usu.ru, http://www.eril.ru, http://library.usu.ru, http://dspace.lib.usu.ru).
Желательно: выделенный двухпроцес-сорный сервер; объем RAM и дисковых массивов — в зависимости от задач.
Временные затраты
Установка ПО — 1 день для установки по умолчанию.
Русификация — в нашем случае 1,5–2 месяца.
Русификация
В НБ УрГУ выполнена русификация пользовательского интерфейса.
Интерфейс не представлен в виде отдельного модуля (это запланировано для версии 1.3), поэтому необходимо изменение основного программного кода.
Проблемы с сортировкой по алфавиту ит. п. для кириллических символов.
Internet
Naming Resources on the Net
The Solution
Name = Value(s)10.123/xyz = http://www.acme.com/chapter.pdf
Naming Service
http://www.acme.com/chapter.pdfwww.acme.com
Lannom, Larry. Handle System Overview // ERPANET Seminar on Persistent Identifiers. 17/06/2004. http://www.erpanet.org/events/2004/cork/presentations/ERPANET-CORK-LL.ppt
Internet
Naming Resources on the Net
The Solution
Name = Value(s)10.123/xyz = http://www.newbusiness.com/chapter.pdf
http://www.newbusiness.com/chapter.pdf
Naming Service
www.newbusiness.com
www.acme.com
Взаимодействие
ЭЛЕКТРОННЫЕ РЕСУРСЫ
ЭЛЕКТРОННЫЕ РЕСУРСЫ
РЕПОЗИТОРИЙ …РЕПОЗИТОРИЙ
УрГУ
ЭЛЕКТРОННЫЙ
КАТАЛОГ
РЕПОЗИТОРИЙ …
OAI
Z39.50
DSpace vs. E-Prints
DSpace E-Prints
Язык программирования Java Perl
СУБДPostreSQL, Oracle и др. MySQL
Система постоянных идентификаторов
+ —
Поддержка технических метаданных + —
Политика сохранности цифровых материалов + —
DSpace vs. E-Prints
DSpace E-Prints
Роли User, Submitter, Reviewer, Approver, Editor,
Administrator
User, Editor, Administrator
Настройка ролей и уровней доступа к каждой коллекции
+ —
Шаблоны метаданных + —
Схема метаданных Qualified Dublin Coreна основе
DC Library Application Profile
Dublin Core
Сложная иерархическая структура репозитория
+ —
DSpace: язык запросов
Слова: политическая культура. Отбрасывание окончаний:
политическая культур* Фраза: "политическая культура". Логические операторы:
политическая AND культура; политическая OR культура; политическая NOT культура.
Операторы включения/исключения: +политическая +элита –культура.
DSpace: язык запросов
Сложные логические выражения: (политическая OR экономическая) AND (этика OR история) политическая этика; политическая история; экономическая этика; экономическая история.
Ограничение поиска рамками отдельного сообщества или коллекции.
Поиск по полному тексту и по полям метаданных.
Спасибо за внимание!
Негуляев Е. А.Электронный архив в Научной библиотеке
университета: DSpace в УрГУ
Доклад на V Международной конференции «Science Online: электронные информационные ресурсы для науки и образования» (Турция, г. Кемер, 12–15 мая 2005 г.)
Работа опубликована под Creative Commons Attribution-NonCommercial-NoDerivs 2.0 License, http://creativecommons.org/licenses/by-nc-nd/2.0/