theme-icon
logo
logo
Menu icon
Point.md logo
Поделиться новостью
Скопировать ссылку
Ссылка скопирована
30 Августа 2014, 11:35
1 816
Скопировать ссылку
Ссылка скопирована

Миллионы исторических изображений выложены в Интернет

Американский исследователь создает гигантскую базу данных из 12 миллионов исторических изображений, предоставляя возможность пользоваться ей по своему усмотрению любому желающему.

Оцифрованные изображения заканчиваются 1923 годом: все, что опубликовано раньше, не подпадает под закон об авторских правах.
Оцифрованные изображения заканчиваются 1923 годом: все, что опубликовано раньше, не подпадает под закон об авторских правах.

К этому моменту Калев Литару выложил 2,6 млн изображений в социальную сеть Flickr. Благодаря автоматически проставляемым ярлыкам база данных позволяет проводить поиск по всем картинкам.

Фотографии и рисунки взяты из более чем 600 млн книжных страниц, отсканированных в библиотеках организацией Internet Archive.

До сего дня получить доступ к подобным изображениям было довольно затруднительно.

Как говорит Литару, до сих процесс оцифровывания концентрировался в основном на текстах и игнорировал изображения.

"Все эти годы все библиотеки оцифровывали свои книги, однако их выкладывали в формате PDF или текстовых файлов с возможностью поиска по ним, - рассказал он в интервью Би-би-си. - Они сосредотачивались на книгах как на массивах слов. Мы же видоизменяем этот подход".

"Погружаясь на полтысячелетия в историю, удивительно наблюдать весь набор визуальных образов и как изображение предметов менялось с течением времени", - признается ученый.

По словам Литару, большинство иллюстраций, сохранившихся в книгах, уже не найти ни в одной галерее в мире, поскольку оригиналы давным-давно утрачены.

Выкладываемые на Flickr изображения охватывают период с 1500 до 1922 года, то есть до времени, с которого начинаются ограничения в связи с авторскими правами.

Калев Литару начал работу над своим проектом во время изучения технологии коммуникаций в Джорджтаунском университете в Вашингтоне по программе, спонсируемой интернет-гигантом Yahoo, которому принадлежит фотохостинг Flickr.

Для достижения своей цели Литару сам разработал программное обеспечение, чтобы видоизменить тот способ, которым книги оцифровывались первоначально.

Миллионы исторических изображений выложены в Интернет

Internet Archive ранее пользовалась программой оптического распознавания символов для анализа каждой из 600 млн отсканированных книжных страниц - чтобы перевести изображение каждого слова в электронный текст, пригодный для поисковых систем.

Архивные работники говорят, что весьма впечатлены этим проектом.

"Обнаружение картинок внутри текста и снабжение тегами обширных коллекций изображений - невероятно трудное дело, - признается старший архивариус Университета Кембриджа доктор Алисон Перн. - Это очень умный способ обеспечить одновременно и количество, и возможность для поиска. И замечательно, что это доступно бесплатно и для для всех".

В амбициозных планах Литару - связать свой проект с самой известной энциклопедией в интернете. Он намерен заняться этим в следующем году, как только завершит работу над проектом. По его словам, он хотел бы, чтобы этими картинками были проиллюстрированы статьи в Википедии.

"Возьмите наугад любую статью об историческом событии, и есть большие шансы, что вы найдете в этой коллекции картинку, которая так или иначе связана с этим событием или с местом, где оно произошло, - говорит исследователь. - Возможности обогатить их таким образом были бы колоссальными".

Он также собирается предоставить исходный код своей программы для пользования всем желающим.

"Любая библиотека могла бы воспроизвести этот процесс у себя, - объясняет он. - На самом деле, я очень надеюсь, что библиотеки по всему миру воспользуются подобным процессом для своих оцифрованных книг, чтобы неуклонно расширять эту вселенную изображений".

Источник
Поделиться новостью
Скопировать ссылку
Ссылка скопирована