• Актуальное
  • Право и СМИ
  • Полезное
  • Направления и кампании
  • Обзоры и мониторинги
  • Полная версия сайта — по-белорусски Рекомендации по безопасности коллег

    Из Корпуса белорусского языка убрали публикации независимых медиа

    Спустя полгода бездействия частично возобновил работу Беларускі N-корпус. Официальной причиной прекращения работы назывались технические проблемы, но похоже, что проект стал жертвой политической цензуры. Из корпуса исчезло почти 90% текстов, включая публикации независимых белорусских СМИ, пишет «Наша Ніва».

    Беларускі N‑корпус неожиданно прекратил свою работу в июле 2023 года. На соответствующей странице было размещено сообщение о том, что у разработчиков «возникли проблемы с корпусом»:

    «К сожалению, получилось так, что мы не можем его поддерживать дальше по разным причинам. Двигатель корпуса остается под свободной лицензией. Остальные проекты будут продолжаться как и раньше».

    Более точных объяснений не было ни на самом сайте, ни в соцсетях, хранили публичное молчание и языковеды-создатели Корпуса.

    Как стало впоследствии известно, официальной причиной была названа «недостаточная мощность серверов». Но, по-видимому, одной этой причиной прекращение работы не ограничивается.

    Корпус состоял из нескольких подкорпусов: основного, неразобранных текстов, газет и сайтов, белорусских Википедий обоих правописаний. Таким образом Корпус включал огромное количество современных текстов на белорусском языке, в том числе публикации белорусскоязычных СМИ, продукция большинства из которых была признана режимом Лукашенко «экстремистскими» материалами. Именно подкорпус газет и сайтов первым исчез из выдачи еще до полного отключения Корпуса. 

    Неустанное расширение «запрещенной» продукции продолжало значительно сокращать круг современных текстов на белорусском языке, которые можно использовать в Корпусе, а конвейерность признания всего «экстремистским», делала невозможным постоянное отслеживание и внесение соответствующих изменений в огромную базу. 

    Крамольную для режима по смыслу и подаче информацию могли содержать и тексты без «экстремистского» статуса. Цензурирование содержания текстов не является задачей Корпуса и противоречит его сущности, физически и технически невозможно выявить опасные фрагменты в миллиарде словоупотреблений. 

    В таком случае прекращение работы Корпуса из соображений собственной безопасности выглядит вполне логичным.

    Работа Корпуса была возобновлена 19 января, но в сильно сокращенном виде. Если в начале 2023 года в общей сложности Корпус насчитывал около 1 млрд слов, то сегодня осталось лишь 124 млн, или 12%. 

    С одной стороны это хорошо ложится в официальную версию о мощности серверов. Но в восстановленном Корпусе не просто сократились, а полностью исчезли целые подкорпусы: Корпус необработанных текстов (907 млн слов), включавший тексты с сайтов kamunikat.org (465 млн слов) и knihi.com (432 млн слов), конкорданс белорусского языка XIX в., включавший практически все сохранившиеся произведения художественной литературы, написанные в указанный период на белорусском языке (287 тыс. слов), и Корпус обеих белорусских Википедий (124 млн слов).

    Эти изменения легко объяснить: Википедия остается свободным и неподцензурным ресурсом, конкорданс XIX в. содержит антироссийские произведения Дунина-Марцинкевича, Богушевича, Каратынского и других деятелей, которые либо признаны экстремистскими, либо являются объектом нападок пророссийских блогеров, а сайт kamunikat.org заблокирован по решению Министерства информации.

    Возрожденный корпус веб-ресурсов сегодня включает лишь сайты государственных «БелТА», газеты «Звязда», Белтелерадиокомпании и официальный сайт Лукашенко, полностью игнорируя огромный и разнообразный массив текстов, который десятилетиями создавался независимыми медиа. Всего получилось 106 млн слов — капля на месте бывшего моря.

    Возможно, корпус еще будет дополнен другими материалами, но многие туда уже не вернутся из-за идеологии сегодняшнего белорусского режима. 

    Читайте еще:

    Искусственный интеллект пока не заменит журналистов, но может им помочь. Предлагаем лайфхаки

    Среди 20 белорусских экспертов, в отношении которых открыто «спецпроизводство», — трое представителей медиасферы

    В Беларуси решили бороться с VPN, чтобы ограничить доступ к независимым источникам информации

    Самые важные новости и материалы в нашем Telegram-канале — подписывайтесь!
    @bajmedia
    Самое читаемое
    Новости

    Белорусскую пропагандистку Марию Петрашко взяли работать на российское телевидение

    22.08.2024
    Акцэнты

    Telegram показал, как передает данные пользователей властям разных стран. Проверено Беларусь (и не только)

    Telegram начал подробно отчитываться о том, как предоставлял данные пользователей властям разных стран. «Зеркало» изучило отчеты о Беларуси и других странах, где живет много беларусов — рассказываем, что мы узнали.
    03.10.2024
    Акцэнты

    «Форум, напечатанный на бумаге». Как создавались и почему закрылись детские журналы «Каламбур» и «Один дома»

    В августе 2024 года о закрытии объявили легендарные детские журналы «Каламбур» и «Один дома». По этому поводу на портале Onliner.by вышел большой ностальгический текст о любимых журналах нескольких поколений белорусских подростков. В нем — интервью с последним главным редактором Геной Олейником и отзывы и истории самих читателей. 
    02.09.2024
    Каждый четверг мы рассылаем по электронной почте вакансии (гранты, вакансии, конкурсы, стипендии), анонсы мероприятий (лекции, дискуссии, презентации), а также самые важные новости и тенденции в мире медиа.
    Подписываясь на рассылку, вы соглашаетесь Политикой Конфиденциальности