• Актуальнае
  • Медыяправа
  • Карыснае
  • Кірункі і кампаніі
  • Агляды і маніторынгі
  • Рэкамендацыі па бяспецы калег

    Как нейросеть помогает независимым журналистам собирать данные о потерях России на войне c Украиной

    Российские власти скрывают потери своей армии в полномасштабной войне. Оценками занимаются только независимые журналисты и исследователи. Редакция «Важных историй» решила поделиться своей базой с другими журналистами и исследователями, чтобы общество получило как можно больше правдивой информации о войне.

    «Важные истории» рассказывают о работе над нейросетью, которая теперь помогает оценивать потери армии РФ. Иллюстрация предоставлена «Важными историями»

    В третью годовщину полномасштабной войны российское независимое медиа в изгнании «Важные истории» выпустило проект «Харон» — базу данных о российских потерях, в основе которой обученная журналистами нейросеть.

    Алгоритм собирает все доступные публичные сообщения о погибших и пропавших на войне солдат армии России. Данными о потерях «Важные истории» готовы делиться со всеми желающими журналистами и исследователями. Пока проект доступен только на русском языке, но в ближайшее время его переведут на английский.

    Редакторка дата-отдела «Важных историй» Катя Бонч-Осмоловская рассказывает, как шёл процесс обучения нейросети, какие данные «Харон» научился собирать, и почему журналистам стоит учиться работать с нейросетями.

    Катя Бонч-Осмоловская —  редакторка дата-отдела «Важных историй». До 2022 года работала в дата-отделе «Новой газеты». Лауреатка премий «Редколлегия», Sig­ma Awards. Выпустила серию материалов о депортации детей из Украины в Россию. После публикации ЕС ввёл ряд новых санкций.

    Как журналисты считают потери армии РФ

    Отсутствие официальных данных было проблемой в России в течение многих лет. Впервые мы, как журналисты, столкнулись с ней во время пандемии COVID-19: российские власти не смогли отследить все потери и предоставить реальные цифры. За них это делали независимые журналисты.

    В следующий раз проблема возникла, когда Путин начал полномасштабное вторжение. С самого начала российские власти скрывали реальные цифры потерь. Поэтому независимые журналисты снова начали выполнять эту работу за них.

    Чтобы получить хоть какое-то представление о потерях российской армии на войне, независимые журналисты нашли разные способы оценки. Например, по реестру наследственных дел («Медиазона» и «Медуза»), с помощью официальной статистики по смертности («Важные истории»). Кроме того, есть способ не только оценить потери, но и собрать данные о погибших. Для этого нужно собирать некрологи, которые родственники военных публикуют в соцсетях. По таким открытым данным подсчёты ведут команда «Медиазоны», «Русской службы Би-би-си» и волонтёров, а также другие волонтёрские проекты и Телеграм-каналы.

    Благодаря поиску с помощью ИИ «Важным историям» удалось найти дату смерти или исчезновения 56 500 погибших и 4 900 пропавших без вести. Здесь погибшие и пропавшие без вести нанесены на временную шкалу, которая показывает, что российские войска понесли самые большие потери в январе 2023 года. Изображение: Скриншот, «Важные истории»

    Дата-отдел «Важных историй» начинал считать потери по открытым данным с начала полномасштабного вторжения. У нас была отдельная страница, которую мы обновляли сначала раз в день, затем раз в неделю. Со временем начался такой вал некрологов, что мы перестали с ним справляться: весь отдел не мог заниматься только этой работой.

    Но также мы понимали, что важно иметь поимённый список погибших с максимально полной информацией (регион, возраст, дата смерти и так далее) — такая база данных требуется практически для любого исследования по теме войны.

    Мы стали искать способ оптимизации сбора данных — и решили обучить свою нейросеть. В процессе работы мы начали называть ее «Харон», по аналогии с персонажем древнегреческой мифологии, который перевозил души умерших через реку Стикс. В мифах через Харона проходили души всех умерших. Так же работает и наша нейросеть: пропускает через себя все публичные сообщения о погибших и пропавших на войне в Украине.

    Как обучали ИИ

    Работу над алгоритмом мы начали с формирования списка ключевых слов, по которым парсер должен искать сообщения о погибших военных. Вывели его опытным путём, изучив сотни онлайн-некрологов.

    Проблема была в том, что мы не могли ограничить поиск только сообщениями с упоминанием войны: её в постах могли упоминать по разному («война», «СВО», «спецоперация» — и т.д.), либо не упоминать совсем (например, указывая «погиб, защищая нашу родину»).

    Так мы решили собирать вообще все сообщения о смерти и затем обучить нейросеть выбирать те, что относятся именно к полномасштабной войне. Для этого мы, сотрудники дата-отдела, сами просматривали сотни некрологов и размечали, на войне погиб человек или нет. На этом массиве обработанных данных и тренировался «Харон».

    Процесс обучения «Харона» занял у нас около года. На первых этапах работы в выборке регулярно появлялись «мусорные» сообщения. Например, нейросеть считала, что актер Алан Рикман тоже погиб на войне в Украине. К осени 2024-го мы довели алгоритм до финальной версии.

    Сейчас «Харон» умеет не просто определять, что человек погиб на войне. Он отличает случаи гибели на войне от ситуаций, когда человек был в Украине, но погиб уже на гражданке и смерть с войной не связана.

    Как нейросеть помогает независимым журналистам собирать данные о потерях России на войне c Украиной

    Используя инструмент ИИ «Харон», «Важные истории» составили карту российских военных потерь по регионам страны. Изображение: Скриншот, «Важные истории».

    Как работает обученный ИИ

    Нейросеть идёт по списку сообщений о смерти людей, маркируя их «да, погиб на войне» и «нет, погиб не на войне». Следующим шагом она проходится по сообщениям из списка «да» и определяет атрибуты погибшего из текста некролога: его возраст, дату отправки на фронт, регион и т.д. Если каких-то данных в некрологе нет, поля таблицы остаются пустыми.

    После этого начинается ручная проверка. Мы проверяем заполненные «Хароном» данные и добавляем недостающие сведения, в том числе по утечкам из баз данных.

    Да, бывает, что в сообщении о гибели есть ошибки в имени или фамилии и мы это пропустили, или автоматизация неправильно сработала на каком-то из этапов. Мы эти ограничения понимаем, поэтому просим писать нам о таких ошибках, чтобы мы могли их исправить.

    Стоило ли тратить год на обучение ИИ? Да, потому что перепроверить данные и добавить недостающие быстрее, чем собирать их вручную.

    Как нейросеть помогает независимым журналистам собирать данные о потерях России на войне c Украиной

    «Харон» смог нанести на карту места гибели и исчезновения 11 000 российских солдат на территории Украины, вплоть до конкретного региона. Изображение: Скриншот, «Важные истории».

    Насколько это полные данные о российских потерях

    По оценкам наших коллег, в публичный доступ попадает 40–60% сведений о погибших. Пока с этим ограничением мы ничего не можем поделать. Мы можем работать только с тем, что находится в публичном доступе.

    Думаю, из них мы охватываем большую часть опубликованного. «Харон» находит информацию о людях, которые не были учтены другими проектами. Я сравнивала с другими источниками, которые публикуют поименные списки погибших. Если в начале обучения нейросети из 100 сообщений о погибших у нас была информация про одного ранее неучтённого человека, то сейчас мы находим примерно 30 ранее неучтённых сообщений.

    Какие данные нам удаётся собирать

    Под военными потерями обычно понимают погибших, пропавших без вести, попавших в плен, тяжело раненых и дезертиров. Последние три категории сейчас оценить сложно. Поэтому обычно по публичным сообщениям оценивают только число погибших россиян.

    «Харон» же позволяет «Важным историям» отслеживать не только погибших россиян, но и:

    • Погибших на войне жителей оккупированных регионов Украины, где после февраля 2022 прошла массовая насильственная мобилизация. Эту категорию потерь, кроме нас, никто особо не считает.
    • Пропавших без вести. С этими данными работать сложнее из-за высокого уровня неопределённости. Может человек жив, и его в яму посадили? Может погиб, и его тело с поля боя не забрали? Но это тоже характеризует потери российской армии. Более того, по нашим оценкам, примерно 20% из списка пропавших со временем переходят в категорию погибших. Если мы узнаём о таких случаях, переводим информацию о человеке из категории «пропал без вести» в категорию «погиб». Так мы снижаем недооценку числа погибших, потому что мы уже считаем этого человека как потерю, которая потом меняет свой статус.
    • Иностранцев, воевавших на стороне России.

    На 24 февраля 2025 годам нам удалось установить имена 103 864 погибших и пропавших без вести. При этом огромный массив данных, несколько десятков тысяч сообщений, мы обработать ещё не успели.

    К третьей годовщине полномасштабного вторжения в Украину «Важные истории» идентифицировали по именам 103 864 погибших и пропавших без вести российских военных. Но другие оценки (справа) с таких сайтов, как «Медуза» и «Медиазона», которые включали информацию о наследовании, предполагают, что общая цифра может быть почти на 60 000 выше. Изображение: Скриншот, «Важные истории».

    Для понимания масштаба: около 50 000 сообщений о пропавших без вести и 10 000 сообщений о подтверждённых смертях всё ещё не рассмотрены. Плюс, мы даже не начали анализировать недавние сообщения за последние недели. Некоторые имена могут там встречаться по несколько раз. Но всё равно необработанных данных очень много. Мы продолжим обновлять страницу проекта по мере его доработки.

    Но главное — мы готовы делиться нашей базой с другими журналистами и исследованиями.

    Почему мы хотим делиться данными

    Учитывая, какой массив данных собирает «Харон», наша база — отличное поле для исследований. Если мы будем держать данные только для себя, мы никогда не доберёмся до всей глубины, которая в них зарыта. Поэтому мы решили делиться базой с другими журналистами и исследователями.

    Мы верим, что чем больше умных людей сможет изучить данные, тем больше мы узнаем о войне и тем больше пользы для общества это принесет.

    Сейчас и сайт проекта, и вся база доступны только на русском языке. Но мы работаем над её переводом на английский.

    Если вы хотите получить доступ к данным, напишите на bonchosmolovskaya@istories.media.

    Выводы «Важных историй» о работе с ИИ

    ИИ позволил нам создать свою базу потерь армии РФ на войне без необходимости посвящать этому вообще всё время работы целого отдела редакции. Так что для себя я обозначаю этот опыт как успешный.

    Мне кажется, что сейчас наступило время, когда всем редакциям стоит, если не бежать и внедрять ИИ в работу, то хотя бы лежать в этом направлении. Иначе есть риск сильно отстать.

    Уверена, что в каждой редакции есть какая-то повторяющаяся задача с понятным алгоритмом действий. Поэтому гораздо эффективнее отдать техническую часть ИИ, а свое время и мозг направить на решение более важных задач.

    Первоначально этот материал был опубликован Глобальной сетью журналистов-расследователей и перепечатывается здесь с ее разрешения. Произведение защищено лицензией Международная лицензия Cre­ative Com­mons Attri­bu­tion-NoDeriv­a­tives 4.0.

    Самыя важныя навіны і матэрыялы ў нашым Тэлеграм-канале — падпісвайцеся!
    @bajmedia
    Найбольш чытанае
    Кожны чацвер мы дасылаем на электронную пошту магчымасці (гранты, вакансіі, конкурсы, стыпендыі), анонсы мерапрыемстваў (лекцыі, дыскусіі, прэзентацыі), а таксама самыя важныя навіны і тэндэнцыі ў свеце медыя.
    Падпісваючыся на рассылку, вы згаджаецеся з Палітыкай канфідэнцыйнасці