Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Follow @ruarxive to stay updated with the latest infoculture and httpsruarxiveorg trends and news
Пока нет отзывов. Будьте первым, кто поделится своим опытом!
Последние посты
Национальный цифровой архив
12 мая 2026 г., 19:32
ЦРУ закрыло The World Factbook — справочник по странам мира, который существовал с 1971 года и был одним из самых полезных публичных ресурсов агентства. Никаких объяснений не последовало.
Решение выглядит странно не только по сути, но и по исполнению. Все страницы сайта, включая архивы предыдущих версий, теперь перенаправляют на страницу с объявлением о закрытии. При этом Factbook всегда распространялся как public domain — ничто не мешало оставить архивную версию с пометкой о прекращении обновлений.
Саймон Уиллисон скачал последний официальный архив за 2020 год и выложил его на GitHub Pages. Полные архивы также сохранились в Internet Archive.
https://simonwillison.net/2026/Feb/5/the-world-factbook/#atom-everything
1,460
16
0
Национальный цифровой архив
12 мая 2026 г., 19:32
📷 Photo
https://www.nature.com/articles/d41586-026-00502-2 что Microsoft продвинулись в https://www.microsoft.com/en-us/research/project/project-silica/ с сохранением данных в стекле и обещают что потенциально это может позволить сохранять данные до 10 тысяч лет. На кусок стекла 12x12x0.2 сантиметра записали 4.8TB данных. Запись идет долго, около 150 часов.
Про то когда это будет доступно для кого-то кроме исследователей Microsoft пока нет новостей.
#storage #digitalpreservation
1,220
28
Национальный цифровой архив
12 мая 2026 г., 19:32
📷 Photo
Anna’s Archive решила создать резервную копию Spotify
🎵Проектом заархивированы метаданные и музыкальные файлы платформы Spotify. Архив занимает ~300 ТБ, распространяется через торренты и включает около 86 миллионов музыкальных файлов
Это первый подобный открытый «архив сохранения» музыки такого масштаба, доступный для зеркалирования и резервирования любым пользователем с достаточным дисковым пространством.
https://annas-archive.li/blog/backing-up-spotify.html
🏴☠️ Anna’s Archive - некоммерческая метапоисковая система для теневых библиотек с открытым исходным кодом, созданная командой анонимных архивистов Pirate Library Mirror и запущенная как прямой ответ на усилия правоохранительных органов по закрытию Z-Library в 2022 году. Проект ставит себе целью «каталогизацию всех существующих книг и отслеживание прогресса человечества на пути к тому, чтобы сделать все эти книги легкодоступными в цифровой форме».
В статье « https://annas-archive.li/blog/critical-window.html» они объяснили , что делают это потому, что текст обладает самой высокой плотностью информации. Но их миссия (сохранение знаний и культуры человечества) не делает различий между типами носителей. Иногда появляется возможность работать вне текстовой среды. Копирование Spotify - это именно такой случай.
Национальный цифровой архив
12 мая 2026 г., 19:32
Где узнать больше о цифровых архивах, цифровой архивации, инструментах, курсах и так далее? Подборка каталогов ресурсов:
- http://github.com/ruarxive/awesome-digital-preservation. - список инструментов и ресурсов посвященных цифровой архивации, преимущественно ссылки на открытый код и открытые сервисы и наиболее известные платформы (от https://ruarxive.org/)
- https://github.com/digipres/awesome-digital-preservation аналогичный список от https://digipres.club/ сообщества по цифровой архивации, множество ссылок на существующие инструменты и сервисы
- https://github.com/iipc/awesome-web-archiving - список инструментов и ресурсов по веб-архивации, созданы и поддерживается Международным консорциумом сохранения интернета (IIPC)
- https://wiki.archiveteam.org/ большой вики проект от команды ArchiveTeam посвященный веб архивации и архивационным кампаниям для сохранения гибнущих онлайн ресурсов.
- https://ruarxive.org/kb/intro база знаний по цифровой и веб архивации на русском языке от проекта Ruarxive, инструкции по использованию инструментов и сервисов
#webarchives #digitalpreservation #readings
5,160
16
Национальный цифровой архив
12 мая 2026 г., 19:32
📷 Photo
Большое обновление сайта http://Ruarxive.org/. Добавили много новых статей, лучше структурировали сам сайт, добавили поиск, обновили до последней версии Docusaurus'а (движка на котором сайт построен).
В том числе можно обратить внимание на статьи:
- https://ruarxive.org/kb/guides/quick-start-5min
- https://ruarxive.org/kb/instruments/howto-collect/make-copy-website
- https://ruarxive.org/kb/guides/emergency-archiving
- https://ruarxive.org/kb/course
И многие другие, включая статьи по использованию конкретных инструментов и обзоры наиболее известных сервисов.
Новое содержимое сайта собрано из публикаций в телеграм канале , других публикаций об исчезновении интернет-ресурсов, презентаций курса по цифровой архивации и других материалов.
Среди других изменений:
- обновлена главная страница для большей понятности содержания сайта
- добавлен поиск по контенту
Да, структура сайта ещё не идеальна, а поскольку многие статьи преобразованы из презентаций, то там больше буллетов чем текста, и они ещё будут обновляться.
Если у Вы найдете какие-либо ошибки, если возникли идеи или если Вы готовы дополнить и расшрить материалы, пишите в https://t.me/ruarxivechat и в https://github.com/ruarxive/ruarxive.github.io на github
P. S. Сейчас в работе систематизация всех собранных ранее сайтов и других результатов архивных кампаний. Все это будет собрано в единый набор данных с базой архивов и далее доступно или через специальный интерфейс или на http://hubofdata.ru/ (там уже есть раздел с архивами сайтов и другими архивами).
#digitalpreservation #webarchives #knowledgebase
Национальный цифровой архив
12 мая 2026 г., 19:32
К вопросу про российский мессенжер Max, помимо достаточно очевидных проблем с тем что он "как бы государственный, но не государственный", с его довольно бесцеремонным продвижением используя административный ресурс и массой других уже написанных многими проблем, я подниму ещё одну тему о которой не пишут.
Это архивация. В сравнении с телеграмом у Max'а есть два очень существенных отличия:
1. Отсутствует возможность просматривать содержание каналов онлайн без авторизации
2. Отсутствует возможность делать data takeout хотя бы для своих данных, а в идеале и для любых каналов и чатов
Первое влияет на то что содержание из Max не индексируется поисковиками и Интернет Архивом (они собирают только общедоступные матералы доступные через https/http). К примеру, в телеграм можно смотреть без авторизации, вот так выглядит там мой телеграм канал https://t.me/s
Второе на то что невозможно сделать архив ни своих чатов, ни своих каналов, ни читаемых каналов. Просто не предусмотрено.
В итоге Max - это закрытое контролируемое не архивируемое пространство где даже чтение постов прошедших авторизацию каналов идет только под контролем (только после авторизации) даже в веб клиенте.
Вопрос остается в том будет ли там хоть что-то полезное, не продублированное в Телеграм'е? Насколько реально велик риск блокировки телеграма в ближайшее время и переход части авторов каналов туда?
Если велик, то видимо надо заморачиваться придумыванием организации архивации материалов в Max'е для чего документированного API не наблюдается и нужен дотошный разработчик готовый такой инструмент разработать.
#digitalpreservation #thoughts
Национальный цифровой архив
12 мая 2026 г., 19:32
📷 Photo
Объявлен приём заявок на Премию « https://humawards.ru/
АНО «Инфокультура» приглашает студентов, аспирантов, преподавателей, исследователей и сотрудников вузов и научных организаций принять участие в конкурсе проектов, способствующих развитию открытой науки в гуманитарной сфере.
📌 Что можно подать:
– результаты научных исследований,
– цифровые проекты, связанные с гуманитарными дисциплинами,
– дипломные и курсовые проекты,
– иные работы, представляющие гуманитарные данные в открытом доступе.
📚 Номинации Премии:
• История
• Филология
• Культура
• Искусство
• Иные гуманитарные науки
Номинировать проект может как сам автор (или коллектив авторов), так и любой человек или организация, знакомые с проектом. Год публикации работы не имеет значения.
🏅 Лауреаты получат памятные награды, сертификаты и специальные призы от организаторов и партнёров Премии.
📝 Приём заявок уже открыт!
🔗 https://humawards.ru/
#opendata #openaccess #humanitarian #contest
1,060
Национальный цифровой архив
12 мая 2026 г., 19:32
📷 Photo
Кстати, как человек любящий не только цифровые архивы, но и исторические книжки тоже не могу не упомянуть про очень интересный проект от Банка России с https://library.cbr.ru/media/virtual_exhibitions/br/ по истории Банка. Мало какие центральные банки в мире делают такие проекты, так что это хорошо что такое появляется (если знаете аналогичные проекты в других странах, то напишите плз). Я знаю только https://www.federalreservehistory.org/ в США.
Но интересность материалов и их доступность омрачает то что материалы есть, а можно ли их использовать? В основном нет.
Вот самые очевидные проблемы:
1. Нет нигде явным образом указанных условий использования материалов. Можно ли использовать их на своём сайте? Можно ли на их основе писать учебные материалы? Можно ли цитировать и тд. Понятно что у разных материалов может быть разный статус, но не надо забывать насколько это важно можно ли использовать такие материалы.
2. Просмотр материалов только на сайте - это никуда не годится. Возможность скачать исторические книжки нужна для бесконечного числа задач: внутренних библиотек университетов, таких проектов как https://finlibrary.ru/, возможность почитать книги оффлайн, возможность обучить на них ИИ, возможность создать наборы данных и многое другое.
Если делать хорошо, то делать до конца, не надо останавливаться на полпути.
#digitalpreservation #books #finances #digitalhumanities #openaccess
Национальный цифровой архив
12 мая 2026 г., 19:32
https://www.niemanlab.org/2025/10/the-wayback-machines-snapshots-of-news-homepages-plummet-after-a-breakdown-in-archiving-projects/ заметка в Nieman Labs о том что с мая 2025 года в Интернет Архиве наблюдается сбой из-за которого резко сократилась архивация как минимум главных страниц ведущих медиа изданий в мире. Иногда вплоть до того что страницы не сохранялись вовсе. Марк Грехэм из Интернет архива это подвердил и упомянул что этот сбой уже был исправлен.
Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.
При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.
#webarchives #digitalpreservation #data
970
12
Национальный цифровой архив
12 мая 2026 г., 19:32
📷 Photo
Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода http://beladm.ru/ не индексировался с конца марта 2022 года.
Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть http://beladm.gosuslugi.ru/, а редирект идет на http://belgorod-r31.gosweb.gosuslugi.ru/ что выглядит как-то, через одно место.
Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.
Масштабы потерь пока сложно измерить, скорее всего они весьма велики.
#russia #opendata #digitalpreservation #webarchives #closeddata
954
Национальный цифровой архив
2 апр. 2026 г., 19:31
Не про цифровые архивы,но про доступ к обычным архивам.В России ограничили доступ к архивным делам репрессированных,теперь их предоставляют только родственникам https://www.rbc.ru/politics/02/10/2025/68dd692a9a7947ce9062c969
1,220
26
0
Национальный цифровой архив
2 апр. 2026 г., 19:31
Новый сайт журнала «Квант» — https://www.kvant.digital/ !
7 октября 2025 года, Москва. Лаборатория популяризации и пропаганды математики Математического института им. В. А. Стеклова РАН запустила новый современный сайт журнала «Квант» со сканами высокого качества и возможностями поиска: https://www.kvant.digital/ . Журнала, в котором собраны бесценные материалы, журнала, тиражи которого в 1970-х годах доходили до 385 000 экземпляров в месяц (история журнала, неразрывно связанная с историей нашей страны, представлена в разделе https://www.kvant.digital/about/history/).
Старые номера журнала отсканированы заново, по возможности исправлены типографские огрехи. Сайт позволяет искать по автоматически распознанным изображениям представленных номеров журнала. Попробуйте на странице « https://www.kvant.digital/issues/» ввести интересующее вас словосочетание. В качестве примера: https://www.kvant.digital/issues/?query=кубик+Рубика. По клику на номер с жёлтым фоном открывается страница номера с подсвеченными найденными словами. А если вы школьником отправляли решения в «Задачник „Кванта“», то можете попробовать найти свою фамилию в списках читателей, приславших решения.
Возможности нового сайта кратко описаны на странице « https://www.kvant.digital/about/site/#workflow».
Цель проекта: представить уникальные материалы журнала в удобном для пользователя виде – в том числе, в виде выверенных html/TeX-текстов. В качестве примера – первые номера журнала и новый номер, некоторые другие материалы. Полистать журнал — занятие увлекательное, затягивающее и полезное: находишь для себя много нового интересного. Предлагаем пользователям совместить изучение материалов с участием в создании html-версии опубликованных материалов: представить в формате TeX понравившиеся тексты. В частности, это может быть школьный проект или студенческая практика. Так постепенно все статьи будут переведены в формат, которым действительно удобно пользоваться, в том числе, с мобильных устройств.
Неизменная с 1970 года надпись на обложке журнала «Квант»: научно-популярный физико-математический журнал. Интересных открытий!
Национальный цифровой архив
2 апр. 2026 г., 19:31
📷 Photo
Рукопись как данные: что нужно исследователю
Что важно учесть в процессе оцифровки архивных документов и подготовке электронных публикаций? Какая аудитория у подобных проектов и какие у них потребности в изучении архивов?
Приглашаем принять участие в опросе о практиках подготовки, организации доступа и публикации материалов и данных архивов в цифровой среде.
Опрос проводится студентами магистратуры НИУ ВШЭ «Цифровые методы в гуманитарных науках».
Пройти опрос: https://docs.google.com/forms/d/e/1FAIpQLSdSsW8tMpG6dF1yIIHhaiUpnpt3jkFCLlYL0o-Bihuz2GVKIw/viewform?usp=dialog.
1,360
12
Национальный цифровой архив
2 апр. 2026 г., 19:31
Важный вопрос, как для развития http://Ruarxive.org/, так и для сообщества по цифровой архивации в том как мы могли сообщество развивать и поддерживать? Как можно было бы сделать текущую работы по архивации более полезной, удобной и востребованной? Для чего обязательно проведём опрос тут в телеграм канале, но прежде это хотелось бы обсудить.
У инициатив по архивации, увы, немного ресурсов и удаётся сохранить далеко не всё что хотелось бы
Вот неполный список идей которые "витают в воздухе":
1. Обновить сайт http://ruarxive.org/ и выложить туда в более удобном виде все накопленные архивы.
2. Сделать форум для обсуждений который бы дополнял чат https://t.me/ruarxivechat и дал бы возможность не терять трэды обсуждения.
3. Больше интегрироваться с http://Archive.org/ и ArchiveTeam и ориентироваться на них в архивных задачах. Например, делать обязательную копию всего в Интернет архив
4. Организовать курсы/семинары по обучению самостоятельной архивации (материалы есть, они даже использовались для курсов в одном из университетов).
5. Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента
6. Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые
7. Организовать конкурс на создание инструментов архивации типовых сайтов/соц сетей/иных цифровых источников данных, может быть добавить конкурс на создание гайдов и курсов по архивации от сообщества
Возможно какие-то ещё идеи? Предлагаю обсудить их в чате https://t.me/ruarxivechat и все их выставим на голосование в ближайшее время
#ideas #community
Национальный цифровой архив
2 апр. 2026 г., 19:31
[poll]
2,880
5
0
Национальный цифровой архив
2 апр. 2026 г., 19:31
📷 Photo
С 25 августа https://www.theverge.com/news/713125/google-url-shortener-links-shutdown-deadline короткие ссылки в сокращателе ссылок от Google, сам сервис перестал работать с 2019 года, но ранее созданные ссылки действовали, теперь же и ссылки действовать перестанут. Чем вызвана такая срочность и закрытие непонятно, у корпорации однозначно были и есть ресурсы сервис поддерживать.
Команда ArchiveTeam https://wiki.archiveteam.org/index.php/Goo.gl этих ссылок и всего собрано https://archive.org/details/archiveteam_googl?tab=collection. Прогресс архивации можно отследить в https://tracker.archiveteam.org/goo-gl/ и там же присоединиться к архивации развернув собственный экземпляр ArchiveTeam Warrior, специальной виртуальной машины для выполнения задач в рамках проектов с распределенной архивацией цифровых материалов.
#opendata #digitalpreservation #webarchive
5,610
Национальный цифровой архив
30 мар. 2026 г., 15:17
📷 Photo
Проект «Цифровой архив госфинансов и госуправления» запускает регулярные посты в телеграм-канале
Наш телеграм-канал был создан весной 2024 года - одновременно с запуском веб-сайта проекта. Все это время мы разрабатывали наш сайт, создавали наборы открытых данных и накапливали базу документов, агрегируя общедоступные источники. И вот сейчас наступил тот самый момент, когда мы наконец определили, каким этот канал должен быть, и готовы делиться нашими обновлениями, находками в книгах и инсайтами в данных.
Большинство постов в канале будут базироваться на коллекции книг и документов «Цифрового архива госфинансов и госуправления (ЦАГГ)». Мы будем рассказывать о редких и уникальных изданиях, об авторах книг и государственных деятелях, будем публиковать интересные факты и данные. Наши творческие планы уже сейчас содержат порядка десяти тематических направлений, но начнем мы с трех основных — «Книги», «Персоны» и «Датасеты». Кроме этого, мы будем рассказывать о работе с финансовыми данными, о найденных особенностях исторической финансовой системы и многом другом.
Откроем регулярные публикации в Телеграм-канале мы текстом о Сергее Юльевиче Витте — министре путей сообщения (1892), министре финансов (1892-1903), а впоследствии и премьер-министре (1903-1906) России.
И, конечно, напоминаем ссылку на сайт нашего проекта, в котором собрано уже более 8 тыс. документов и 175 наборов данных: http://finlibrary.ru/
Национальный цифровой архив
30 мар. 2026 г., 15:17
📷 Photo
Похоже организаторы конференции Dialog по компьютерной лингвистике продолбали потеряли сайт с материалами конференций с 2008 по 2022 годы - http://www.dialog-21.ru/, вместо сайта теперь заглушка, на новом сайте http://dialogue-conf.org/ есть материалы только за 2025 год.
Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?
#webarchives
2,700
7
Национальный цифровой архив
30 мар. 2026 г., 15:17
📷 Photo
Для тех кто работает с веб архивами я обновил инструмент https://github.com/datacoon/metawarc [1] это утилита для извлечения метаданных из файлов WARC (формат файлов веб архива).
Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл https://cdn.ruarxive.org/public/webcollect2019/gov2019/minsport.gov.ru-2019-04-08-d8919777/minsport.gov.ru-2019-04-08-d8919777-00000.warc.gz, он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.
Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.
А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.
Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.
Ссылки:
[1] https://github.com/datacoon/metawarc
#opensource #webarchives