Библиотека Конгресса открыла миру свои каталоги - вот почему это важно

  • 13-11-2020
  • комментариев

Библиотека Конгресса находится в Вашингтоне, округ Колумбия. Olivier Douliery-Pool / Getty Images

Представьте, что вы хотите найти книги или журнальные статьи по определенной теме. Или найдите рукописи конкретного автора. Или найдите сериалы, музыку или карты. Вы можете использовать каталог библиотеки, который включает в себя такие факты, как название, автор, дата публикации, предметные заголовки и жанр.

Эта и многое другое хранится в сокровищнице библиотечных каталогов.

Трудно переоценить важность этой информации каталога библиотеки, тем более что объем информации увеличивается с каждым днем. Благодаря этой информации ученые и библиотекари могут находить нужные вещи предсказуемым образом. Это из-за описательных фактов, систематически представленных в записях каталога.

Но что, если бы вы также могли поэкспериментировать с данными в этих записях, чтобы изучить другие виды исследовательских вопросов - например, тенденции в предмете, семантику в заголовках или закономерности в географическом источнике работ по данной теме?

Теперь это возможно. Библиотека Конгресса предоставила 25 миллионов записей в цифровом каталоге для бесплатного использования. В бесплатный набор данных входят записи с 1968 по 2014 год.

Это самый крупный выпуск записей цифрового каталога в истории. Эти записи являются частью экосистемы данных, которая насчитывает десятилетия и идет параллельно с развитием информационных технологий.

В своем исследовании авторских прав и библиотечных коллекций я полагаюсь на такие записи для получения информации, которая может помочь определить статус авторских прав на произведения. Данные в этих записях уже включены в библиотечные каталоги. Новым является бесплатный доступ к организованному набору данных для новых видов запросов.

Решение отражает новое отношение к данным, которыми обменивается Библиотека Конгресса США. Это символическое и практическое проявление лидерства библиотеки в соответствии с ее миссией общественного обслуживания.

Чтобы понять значение этой новости, полезно немного узнать об истории записей библиотечного каталога.

Сегодня поисковые системы позволяют нам легко находить книги, которые мы хотим взять в библиотеках или купить из любого количества источников. Еще не так давно это казалось волшебством. Поисковые системы используют данные о книгах - такие как название, автор, издатель, дата публикации и тематика - для идентификации конкретных книг. Эта описательная информация на протяжении многих лет собиралась библиотекарями в записях библиотечного каталога.

Действия библиотеки проливают свет на эту невидимую, но важную сеть. Эта инфраструктура невидима для большинства из нас, поскольку мы пользуемся библиотеками, покупаем книги или используем поисковые системы.

Для многих идея библиотечного каталога вызывает в воображении образ карточных каталогов. Описания, содержащиеся в записях каталога, являются «метаданными» - информацией об информации. Ранние каталоги датируются 1791 годом, сразу после Французской революции. Революционное правительство использовало игральные карты, чтобы задокументировать конфискованную собственность у церкви. Идея заключалась в том, чтобы сделать национальную библиографию библиотечных фондов, конфискованных во время революции.

Многие годы фонды библиотеки организовывались индивидуально. По мере роста количества книг и библиотек возросшая сложность требовала более последовательного подхода. Например, когда Библиотека Конгресса США приобрела личную библиотеку Томаса Джефферсона в 1815 году, она организовала свои коллекции вокруг личной системы Джефферсона, организованной по темам памяти, разума и воображения. (Джефферсон основал это на собственной модели Фрэнсиса Бэкона.) Библиотека стремилась организовать свои коллекции по этой модели в 19 веке.

По мере роста количества книг и библиотек требовался более систематический подход. Десятичная система Дьюи появилась в 1876 году, чтобы решить эту проблему. Он сочетал последовательные числа («классы») с определенными темами. Каждый класс может быть дополнительно разделен для более подробного описания.

В 1890-х годах библиотека разработала Классификационную систему Библиотеки Конгресса. Он все еще используется сегодня для предсказуемого управления миллионами элементов в библиотеках по всему миру.

К 1960-м годам систематические описания сделали переход от аналоговых карточек к системам онлайн-каталогов естественным шагом. Записи машинно-считываемой каталогизации (или MARC) были разработаны для электронного чтения и интерпретации данных в записях библиографической каталогизации. Структурированная категоризация естественно совпала с использованием компьютеров.

Теперь записи MARC тоже уходят, уступая место более современным и гибким стандартам.

Библиотека Конгресса остается основным, но не единственным источником каталожных записей. Отдельные библиотеки создают записи каталога, которые собираются и распространяются через такие организации, как OCLC. OCLC объединяет библиотеки по всему миру и предлагает онлайн-каталог. WorldCat координирует записи каталогов из многих библиотек в единый онлайн-ресурс. Такие группы, как эти, взимают с библиотек плату за доступ к собранным данным через членские взносы. Однако библиотеки, как правило, не взимают плату за создаваемые ими записи каталога, вместо этого работая совместно через такие организации, как OCLC. Это может развиваться по мере того, как больше совместных усилий и краудсорсинговые ресурсы могут быть объединены с данными библиотеки таким образом, чтобы улучшить поиск и запросы. Примеры включают SHARE и Википедию.

За короткое время, прошедшее с момента публикации данных Библиотеки Конгресса, мы видим признаки того, что может произойти. На мероприятии Hack-to-Learn в мае исследователи продемонстрировали первые эксперименты с данными, включая масштабируемый список из девяти миллионов уникальных названий и интерфейс с данными на естественном языке.

Со своей стороны, я обдумываю, как использовать данные библиотеки, чтобы узнать больше об истории публикации. Например, можно было бы увидеть, есть ли тенденции в датах публикации, местонахождении издателей и закономерностях в тематике. Было бы полезно сопоставить данные об авторских правах, хранящиеся в Бюро регистрации авторских прав США, чтобы увидеть, можно ли связать определенные работы с их информацией об авторских правах, такой как регистрация, продление и изменение прав собственности. Однако эти записи остаются в форматах, которые по-прежнему сложно найти или изменить. Записи до 1978 г. еще не доступны онлайн в Бюро регистрации авторских прав США.

Коллеги из библиотеки Мичиганского университета изучают недавно выпущенные записи, чтобы практиковаться в создании карт и изучать географические закономерности с визуализацией на основе данных. Они думают о том, чтобы извлечь места из предметных метаданных, а затем составить карту того, как эти места меняются во времени.

Растут ожидания того, что данные такого рода должны быть доступны бесплатно. Об этом свидетельствует рост числа инициатив в области открытых данных, от институциональных репозиториев, таких как Deep Blue Data здесь, в Библиотеке Мичиганского университета, до data.gov правительства США. Целевая группа Великобритании по открытым данным только что выпустила отчет, в котором обсуждаются технические, инфраструктурные, политические и культурные вопросы, которые необходимо решить для поддержки открытых данных.

Мелисса Левин - ведущий специалист по авторскому праву и библиотекарь Мичиганского университета. Эта статья изначально была опубликована в The Conversation. Прочтите оригинальную статью.

комментариев

Добавить комментарий