Бузин А.Ю., Гришин Н.В., Калинин К.О., Коган Д.Л., Коргунюк Ю.Г., Михайлов В.В., Овчинников Б.В., Шалаев Н.Е., Шень А.Х., Шпилькин С.А., Шукшин И.А.
Политологи и математики обсуждают возможности математических методов по выявлению электоральных фальсификаций. Дискутируются вопросы соответствия итогов голосования распределению Гаусса; критериев, которым должны удовлетворять методы выявления аномалий; надежности методов количественной оценки фальсификаций; различение аномалий, вызванных фальсификациями и естественными факторами; реакции государственных органов на сообщения об аномалиях, выявленных математическими методами.
Дискуссия по поводу математических методов выявления фальсификаций имеет в России давнюю историю. Первые публикации на эту тему А.А.Собянина и В.Г.Суховольского в 1994–1995 гг. [38; 37; 36] были встречены критикой как со стороны официальных лиц, так и со стороны ряда правоведов и политологов [19; 27; 35]. Дискуссия возобновилась с новой силой в 2008 г. [18; 16; 22; 24; 26; 39; 43], и с того времени она обостряется после каждого цикла федеральных голосований.
При этом обычно повторяется стандартный сценарий. Приверженцы математических методов публикуют свой анализ уровня фальсификаций на прошедших выборах. В ответ их критики стараются доказать, что используемые методы не имеют научной основы. Критикуемые иногда вяло отвечают. Последним примером такой дискуссии является доклад РОИИП, выпущенный в сентябре 2020 г. [13], и его критическая оценка А.Ю.Бузиным [14] и А.Х.Шенем [42].
Однако, как отметил еще в 2008 г. А.Ю.Бузин [18], «спорщики не только говорят на разных языках, но еще и находятся в разных помещениях». Впрочем, в 2018 г. были две попытки собрать оппонентов за одним круглым столом, но полноценной дискуссии не получилось [25; 28].
Редакция журнала «Электоральная политика» хотела бы продолжить эту дискуссию и придать ей по возможности научный характер. В связи с этим мы обратились к большому числу политологов и социологов, использующих математические методы анализа, а также математиков, применяющих свои знания для анализа электоральной статистики в качестве гражданских активистов. Мы задали шесть групп вопросов, которые обычно обсуждаются в ходе подобных дискуссий.
Мы получили ответы от 11 исследователей. Среди них нет явных противников использования математических методов выявления фальсификаций. Тем не менее у каждого свой взгляд, и знакомство с различными ответами дает достаточно ясную картину состояния дел и мнений в данной сфере.
На этом дискуссию, безусловно, нельзя считать завершенной. Мы готовы ее продолжить и предоставить возможность высказать свое мнение оппонентам.
Михайлов В.В.
Нет никакого сомнения, что итоги подчиняются определенным статистическим закономерностям и их анализ полезен для проверки чистоты выборов. Многие параметры в итоговом протоколе служат материалом для поиска различных новых связей, которые особенно ярко проявляются при сравнении результатов в разных УИК и ТИК одного региона или разных регионов. Электоральная статистика оперирует законами статистической науки и при этом учитывает этнические, политические, социальные и другие особенности.
Гришин Н.В.
Математические методы могут играть вспомогательную роль в оценке результатов голосования. Вероятно, математически можно выявить только некоторые эффекты, возникающие при подсчете официальных результатов голосования. О том, какие именно эффекты могут свидетельствовать о массовых нарушениях и фальсификациях и о том, как их отличить от статистических эффектов обобщения больших данных, могут судить только математики.
Шалаев Н.Е.
Разумеется, вполне поддаются. Прежде всего, по крайней мере в странах Восточной Европы, мы можем наблюдать стабильное воспроизведение колоколообразной формы распределения участков по уровням явки (и избирателей по уровням явки). Это не вполне нормальное распределение, но и не сильно от него отличающееся: унимодальное, с высокой степенью симметрии. Находит своё подтверждение и гипотеза о равенстве пропорций, в которых распределяется между участниками выборов поддержка электората на разных уровнях явки. Эти свойства воспроизводятся из года в год, в разных странах, на разных типах выборов [40].
Коргунюк Ю.Г.
Разумеется, поддаются! Раз это цифры, имеющие определенную логику, значит, они должны поддаваться математическому анализу. Настораживать должно как раз отсутствие выраженных закономерностей. Этого не может быть, если цифры «настоящие». Отсутствие закономерностей – один из признаков фальсификации данных.
Думаю, этих закономерностей достаточно много, но я остановлюсь на тех, которыми занимаюсь сам, то есть тех, которые касаются электоральных размежеваний. Если данные не фальсифицированы, то факторный анализ результатов участников (в моем случае партий) в разных территориальных единицах должен выявлять размежевания, которые можно проинтерпретировать политически и социально. Я вслед за А.С.Ахременко называю их электоральными размежеваниями, но на самом деле точнее будет называть их факторами территориального разброса результатов различных участников.
Шпилькин С.А.
Поскольку количественного анализа без математических методов не существует, ответ на первую часть вопроса, безусловно, утвердительный. Что касается закономерностей, то цель анализа, собственно, состоит в двух вещах: применении к результатам выборов известных математических фактов и в выявлении эмпирических закономерностей, относящихся конкретно к явлению выборов, в том числе конкретно к российским выборам.
Популярная среди противников математического исследования выборов идея, что «поведение людей не описывается математикой», если ее принять, делает невозможным существование опросной социологии, которая полностью опирается на методы математической статистики и традиционно использует выборки размером с типичный избирательный участок.
Шень А.Х.
Математическая статистика полезна для анализа разных природных и общественных явлений, и выборы тут не исключение. В частности, изучая результаты выборов, можно отвергнуть некоторую гипотезу или класс гипотез, если простое или указанное до начала исследования событие, которому все гипотезы этого класса приписывают малую вероятность, произошло [20: приложение 1]. Кроме того, математическая обработка результатов и их графическое представление могут быть полезны для более подробного изучения общественных явлений (скажем, изменение результатов со временем или географическое распределение результата).
Овчинников Б.В.
Да, поддаются. Помимо простых «арифметических» закономерностей (вроде равной вероятности появления последних цифр в абсолютных или относительных результатах), есть и закономерности статистические. Во-первых, результаты голосования по участкам являются суммой индивидуальных решений многих сотен людей, на каждого из которых в свою очередь влияет огромное количество факторов, что делает большое отклонение результатов голосования на участке от средних по городу/стране менее вероятным, чем маленькое отклонение. Во-вторых, предпочтения избирателей достаточно устойчивы во времени – соответственно, следует ожидать небольшие и согласованные между похожими участками изменения уровня их оппозиционности/лояльности власти от выборов к выборам.
Шукшин И.А.
Бесспорно, итоги голосования поддаются анализу. Люди голосуют независимо, и сложение миллионов случайно определённых голосов, где каждый зависит от тысяч причин, распределяется, как и полагается случайной величине, устремляясь к нормальному распределению в пределе. Но закономерностям подвержены не только результаты голосования, но и привычки людей выбирать время для голосования. Например, в последние часы дня голосования в России обычно голосуют наименее активно, и когда избирком Приморья в 2018 г. отчитывается о 309 голосующих за 10 часов дня голосования и 833 за последние 2 часа, как это было на УИК № 1944, это практически официальное приглашение следователя к обыску у всех членов комиссии.
Бузин А.Ю.
Вопрос «Поддаются ли итоги голосования на выборах математическому анализу?» представляется мне сродни вопросу: можно ли итоги голосования описывать русским или испанским языком?
Математика не является наукой об отдельных природных явлениях (включая и явления социальные, поскольку их тоже можно рассматривать как часть природы), а представляет собой язык, инструментарий описания природы (включая социальные явления). Математика – это просто язык, на котором с той или иной степенью точности описываются природные явления.
Конечно, у каждого языка есть определенный арсенал слов, средств. В африканских языках нет слова «снег», зато одно негритянское племя имеет сотни слов для обозначения коричневого цвета, поскольку оно живет в коричневой пустыне. Также и разные математические модели в той или иной степени могут быть удобны для описания разных явлений. Например, математические модели «теории игр» появились только в связи с математическим описанием социальных процессов.
Более определенно вопрос может быть поставлен так: какие математические модели в большей степени описывают итоги голосования и могут быть наилучшим образом использованы для исследования этих итогов? При этом надо понимать, что никакие математические модели не идентичны природным явлениям, в том числе выборам.
Калинин К.О.
В основе исследований фальсификаций лежит идея об искажающем эффекте манипуляций в отношении официальных данных голосования. Вследствие него данные перестают следовать определенным математическим принципам и при статистическом анализе проявляются в виде разнообразных аномалий. Природа искажений лежит в плоскости человеческой психологии – люди не способны интуитивным образом генерировать случайные числа.
Коган Д.Л.
Разумеется. Математическому анализу поддаются все явления, имеющие числовое измерение. Но задача разделения сигнала (реального волеизъявления граждан) и шума (фальсификаций) имеет существенное отличие от обычных задач такого рода в матстатистике и бизнесе – мощность шума может значительно превосходить мощность сигнала, и он не вполне случайный.
Для итогов выборов известны три главные закономерности.
1. Распределение голосов за главных кандидатов по избирательным участкам унимодально.
2. Результаты главных кандидатов не зависят от явки.
Эти две закономерности типичны, но не абсолютны. Их нарушения являются аномалиями, которые могут быть вызваны как искусственными (фальсификации), так и естественными причинами (этническая или религиозная неоднородность и т.д.). Каждая такая аномалия является поводом для детального исследования ее причин.
3. Распределения голосов на уровне страны или крупного региона являются непрерывными, то есть гладкими и не содержащими больших групп участков с одинаковыми результатами.
Эта закономерность абсолютна. Ее нарушение не может быть вызвано никакими естественными причинами.
Михайлов В.В.
Мой краткий ответ: итоги голосования хорошо, но не точно, соответствуют распределению Гаусса. Значительные отклонения от него указывают на давление и фальсификации.
Гришин Н.В.
Вероятно, об этом могут свидетельствовать не отклонения как таковые, а масштаб этих отклонений.
Коргунюк Ю.Г.
Если речь идет о явке, то нормальное распределение – это то, чего и следует ожидать. Наоборот, появление всяких вторых «горбов» – очевидный показатель ненормальности. Если почему-то обнаруживается кластер территорий, где при отсутствии независимого наблюдения вдруг резко подскакивают и явка, и голосование за власть, это не может не вызывать подозрений. Во всяком случае это уже повод для того, чтобы повнимательнее разобраться с организацией процедуры голосования на этих территориях.
Вполне может оказаться, что в этих территориях всё было нормально, и жители просто голосовали за популярного начальника. Но чтобы это доказать, нужно привести какие-то веские аргументы: например, видеозапись в режиме нон-стоп процесса как самого голосования, так и подсчета голосов и т.п.
Шпилькин С.А.
Итоги голосования – это многомерный набор целых чисел. Применение к нему некоторых типовых процедур обработки данных (например, построение гистограммы голосов по явке) действительно приводит к наборам чисел, напоминающим нормальное распределение, иногда почти до неразличимости в пределах статистической погрешности (например, распределение голосов по явке на выборах в Москве в 2013 г. для общегородских участков). В то же время применимость нормального распределения к таким ситуациям не постулируется (для этого нет достаточных оснований) и не используется при анализе выборов (хотя можно представить себе процедуру обработки, в которой нормальное распределение было бы полезной аппроксимацией). На практике речь идет о том эмпирическом факте, что распределение голосов по явке в ситуациях, которые не вызывают подозрения в фальсификациях, как правило, является простым одногорбым (унимодальным), для чего достаточно значительно более слабых условий, чем для применимости центральной предельной теоремы, ведущей к распределению Гаусса. Надо подчеркнуть, что унимодальность распределения явки – это не закон природы, а эмпирическое правило, с одной стороны, имеющее под собой разумное обоснование, а с другой – неоднократно подтвержденное опытом на примерах разных стран. Отклонения от этого правила тоже существуют, и они имеют под собой понятные материальные объяснения; как правило, это наличие единичного сильнодействующего фактора, превосходящего по силе суммарное действие остальных влияющих на явку факторов: например, резкое разделение участков по национальному признаку (курдские районы в Турции).
В современных российских условиях, как показывает опыт, практически единственным сильнодействующим фактором, способным нарушить унимодальность распределения голосов по явке, является манипуляция голосами избирателей при подсчете, подтверждаемая как математическими (вероятностные индикаторы вроде «пилы Чурова» или распределения последних цифр), так и нематематическими (сообщения наблюдателей, просмотр видеозаписей) методами. Поэтому отклонение распределения голосов по явке от простой колоколообразной формы на российских выборах – это «красный флаг», с большой вероятностью указывающий на фальсификации.
Овчинников Б.В.
Требовать точного соответствия результатов голосования нормальному распределению нельзя: для этого нет теоретических оснований. Но можно ожидать унимодальное распределение, как правило, с примерной симметрией (в логарифмической шкале) между левой и правой частями «колокола». Почему? Именно в силу приведенного выше (и более подробно изложенного в [34]) соображения об обратной зависимости вероятности появления результата от масштаба его отклонения от моды.
При этом сам факт наличия отклонений от унимодальности не является еще безусловным свидетельством фальсификаций. Если эти отклонения устойчивые во времени (проявляются постоянно на всех голосованиях) и имеют явно выраженную «географию» (сконцентрированы в одной части территории или на типологически похожих участках), то тогда уже надо проверять возможные социологические объяснения таких отклонений. Но факторы, способные сместить результаты голосования на участке на 10 и более процентов, будут достаточно заметными и легко выявляемыми вдумчивым исследователем.
Шалаев Н.Е.
Вопрос о точной характеризации типа распределения на данном этапе изученности проблемы я бы назвал несколько несвоевременным. По сравнению с другими аспектами электоральных исследований, вопрос о свойствах распределений даже наиболее известных показателей в электоральной статистике практически не изучен, во всяком смысле в общемировой перспективе.
Однако имеющиеся фрагментарные сведения всё-таки наводят на мысль о том, что отклонения от околонормальной формы распределения – это скорее редкость, чем обыденное явление. В этом смысле, конечно, подобного рода наблюдение может являться поводом для пристального изучения соответствующего случая. Однако нет и оснований автоматически связывать любое наблюдение такого рода с искусственным искажением «естественных» результатов голосования. Мы по-прежнему можем предложить несколько вполне природных сценариев голосования, которые приведут к аналогичным свойствам распределения (например, бимодальности), и без изучения свойств электората исключить эти альтернативные объяснения представляется едва ли возможным делом. Словом, аномалией это будет являться безусловно, а вот будет ли это аномалией искусственного происхождения – отдельный вопрос.
Шень А.Х.
Некоторые простые модели голосования (скажем, все голосуют независимо с одной и той же вероятностью) приводят к распределению, близкому к нормальному. Нет никаких оснований ожидать, что эти модели близки к реальности. Практика показывает, что во многих случаях результаты нефальсифицированного голосования можно приблизить нормальным распределением, а во многих случаях они существенно от него отклоняются. Поэтому сами по себе отклонения от нормального распределения без дополнительной информации не являются признаками фальсификации результатов. Что касается применения статистических методов (скажем, оценка необходимого размера случайной выборки при опросе), то математические результаты тут используются (в том числе и упоминающие нормальное распределение).
Шукшин И.А.
Отклонение от нормального распределения – это просто тревожный звоночек, а не готовое доказательство, но этот звоночек – самый важный, потому что он показывает, что всё может быть плохо не в одном месте, не на паре участков, а в целом по региону, в котором проходят выборы. Выявление фальсификаций в странах с устоявшейся культурой электорального беззакония, как и любой исследовательский или научный труд, – это целое искусство. Но мне кажется, что использование распределений Гаусса и Стьюдента для оценки погрешности подходит скорее для демократических стран, где они будут использоваться как доказательство, что выборы прошли честно или с небольшими нарушениями. Для авторитарных стран отклонения настолько графически очевидны, что до расчёта оценки погрешности просто не доходит дело.
Коган Д.Л.
Распределения голосов по кандидатам и явке, вообще говоря, не описываются ни одним аналитическим распределением, поэтому сравнивать их для поиска аномалий бесполезно. Все статистические критерии, опирающиеся на предположение о нормальности, могут применяться только для грубых оценок погрешности. Предпочтение следует отдавать критериям, инвариантным к виду распределения, например, хи-квадрат для проверки корреляции величин по их таблице сопряженности. Определение минимального размера выборки (power analysis) обычно тоже опирается на несмещенность оценки и нормальность ошибки и поэтому ненадежно, теоретическая оценка погрешности может рассматриваться только как ее нижний порог. На практике мы в основном имеем дело с большими выборками, и статистические выводы для них достаточно хорошо обусловлены. Но единственным надежным критерием точности метода является его практическая проверка – например, сравнение с результатами независимых наблюдателей.
Калинин К.О.
В исследованиях фальсификаций, особенно при создании математических моделей, распределение Гаусса служит в качестве эталонного, но оно, конечно, не единственное. Помимо нормального распределения, может использоваться, к примеру, биномиальное или какое-то иное. Как правило, распределение Гаусса подходит при допущении о существовании большого числа факторов, оказывающих равное по силе воздействие на голосование на отдельно взятых участках.
К примеру, в статистических моделях П.Климека и У.Мебейна чистые итоги голосования теоретически следуют гауссовскому распределению. Если же говорить о графиках плотности или гистограммах для явки и голосования, которые используются С.Шпилькиным, то, пожалуй, правильнее говорить не о распределении Гаусса, а об унимодальном (одногорбом), не имеющего точного математического описания. При допущении, что чистые данные должны следовать унимодальному распределению, наличие дополнительных «горбов» на графиках будет свидетельствовать об аномалиях, возможно связанных с фальсификациями. И, наоборот, в случае неоднородных данных, для которых несвойственно допущение Гаусса или одногорбости, говорить об аномалиях применительно к фальсификациям можно только после тщательного исследования альтернативных объяснений.
В ситуации хронической нехватки данных и невозможности исследовать природу наблюдаемой неоднородности интерпретация аномалий может во многом зависеть от личных установок и предпочтений исследователя.
Бузин А.Ю.
Для начала надо понимать, что итоги голосования – это выборка из дискретных величин, поэтому, недолго думая, можно ответить: непрерывному гауссовому распределению они соответствовать не могут. Наши оппоненты всегда могут сослаться на этот незатейливый аргумент, и они будут правы, если речь идет о небольших выборах. Правда, в ответ мы можем говорить, что мы говорим не про гауссово распределение, а про биномиальное.
Однако сделав модельное допущение о том, что мы описываем генеральную совокупность итогов голосования как бесконечно большую, можно ставить исследовательский вопрос о проверке гипотезы с некоторым уровнем значимости о том, удовлетворяет ли выборка определенного электорального показателя предположению, что она – из генеральной совокупности с нормальным распределением. Для проверки этой гипотезы (впрочем, как и для проверки предположений о других распределениях), используются критерии хи-квадрат и Колмогорова [29].
В подавляющем большинстве случаев и даже тогда, когда распределение электоральной величины похоже на распределение Гаусса, реальные итоги голосования не удовлетворяют гипотезе о нормальном распределении с приемлемым уровнем значимости (я проводил проверку по критерию хи-квадрат).
Тем не менее во многих случаях (не во всех!) можно говорить о том, что распределение некоторых электоральных показателей при соответствующем шаге агрегирования является достаточно симметричным и унимодальным, близким к нормальному (такое распределение было бы правильно называть квазинормальным или квазигауссовым).
Последний факт является совершенно естественным (в силу центральной предельной теоремы), если предполагать независимость голосования от места голосования. Однако, как только такая зависимость появляется (она существует в реальности), появляются и отклонения от квазинормального распределения. Более того, фальсификации и принуждение к голосованию также сильно отклоняют такие распределения от квазинормального [15]. Поэтому отклонения от квазинормального распределения могут быть основанием для выявления аномалий и даже фальсификаций в том случае, когда выборка достаточно велика.
При этом размер необходимой выборки можно оценить, исследуя выборы на данной территории в исторической ретроспективе. Если распределение ранее было квазинормальным, то резкая его трансформация возможна только при резких изменениях социально-политических условий, а некоторые трансформации возможны только путем фальсификаций.
Что же касается распределений социологических показателей вообще, то многие из них хорошо описываются (точнее, приближаются) гауссовым распределением (например, распределение выпускников по оценкам ЕГЭ в некоторые годы) и пуассоновским (например, распределение больных по территории). Кстати, последнее непосредственно относится к выборам: при отсутствии фальсификаций и «протестного голосования» примерно пуассоновское распределение имеют показатели голосования «на дому» и доли недействительных бюллетеней.
Гришин Н.В.
Учитывая качественное разнообразие массовых нарушений (от прямого подлога документов до различных форм принуждения и оказания давления на избирателей), единые математические методы едва ли возможно применять для охвата всего этого многообразия.
Коргунюк Ю.Г.
Думаю, методы могут быть самыми разными, и чем их больше, тем лучше. Думаю, пригодных методов выявления аномалий более чем достаточно. Другое дело, что широкой публике они могут быть понятны только в случае повышения общего уровня математического образования населения. Да и здесь нет никаких гарантий. Проблема ведь не в самих методах, а в том, кому население больше доверяет – независимым экспертам или начальству. Если человеку хочется думать определенным образом, он будет думать именно так, несмотря на любые аргументы.
Овчинников Б.В.
Не готов дать универсальный ответ. Потому что он будет разным для методов, нацеленных на доказательство наличия фальсификаций, на оценку масштаба фальсификаций и на выявление и описание характера и географии фальсификаций.
Шпилькин С.А.
Метод должен быть надежным (с низким уровнем ложноположительных результатов). Что касается понятности для широкой публики: есть методы более (диаграмма Габдульвалеева) или менее (распределения последних цифр) наглядные, но наглядность не связана напрямую ни с математической доказательной силой метода, ни, например, с его способностью давать количественные оценки.
Михайлов В.В.
Существует много разных методов: графики «явка – голосование за кандидата» как у Собянина и Суховольского [32: 61–70; 31: 184–191], неоднородности коэффициента переориентации избирателей в двухтуровых выборах 1996 г. [30; 32: 32–49], анализ недействительных бюллетеней и голосования «против всех», применявшийся А.Мятлевым и мною [32: 57–61; 31: 333–340], метод распределения явки и голосования, развитый С.Шпилькиным [43; 44], частотность последних цифр в официальных результатах, пики на отметках, кратных 5 и 10… Некоторые вполне понятны для публики. Многое зависит от грамотно организованной подачи материала для популяризации.
При выборе метода из множества возможных следует учесть, что требование наглядности является важнейшим в государстве, где власти без стеснения используют административный ресурс во время подсчета бюллетеней и подведения итогов. Простота интерпретации и наглядность являются для избиркомов, судов и исполнительной власти препятствием, хотя часто преодолимым, для отказа разбирать найденные фальсификации. Одновременно наглядность предоставляет возможность широкому кругу людей узнать реальное положение на выборах, стимулирует их интерес к участию. Тонкие математические методы всегда уместны, но они будут понятны экспертам и продвинутым читателям. Именно эта узость круга посвященных дает шанс власти под видом обсуждения релевантности результатов завязать длинную дискуссию и «слить» суть фальсификаций. Сказанное не означает, что следует сокращать арсенал методик, но надо помнить, что эффективность работы по очищению выборов от фальсификаций прямо зависит от понятности и легкости восприятия результатов.
Коган Д.Л.
Как любой математический метод, выявление аномалий должно быть объективно (нельзя опираться на произвольные предположения) и корректно (нужно использовать адекватный математический аппарат). Дополнительными требованиями являются убедительность и наглядность, поскольку результаты методов предъявляются обществу и государственным структурам и должны быть интуитивно понятны обычным людям. В этом смысле метод последних цифр представляет только академический интерес. Наиболее убедительные методы верификации:
· поиск совпадений, повторов и пиков на круглых процентах;
· диаграмма Габдульвалеева;
· диаграмма рассеяния по явке.
Бузин А.Ю.
Статистический метод выявления аномалий:
· должен основываться на официальной статистике;
· должен содержать описание метода и быть воспроизводимым;
· может быть использован для большого числа выборов;
· должен иметь ясные обоснования и интерпретацию выводов, сделанных на его основе.
Для выявления аномалий в настоящее время, помимо простейшего построения гистограмм электоральных показателей и выявления ярко выраженных аномалий, наиболее убедительными представляются:
· сравнительный анализ распределений электоральных показателей на одной территории;
· метод Шпилькина для больших выборов;
· модифицированный метод Собянина-Суховольского [17].
Гистограммы (в том числе – гистограммы Габдульвалеева) понятны и наглядны. Метод Шпилькина достаточно нагляден, но не понятен гуманитариям.
Шукшин И.А.
Для выявления аномалий пригодны любые релевантные математические методы. Только не все из них наглядны. Метод анализа частотности последней цифры даёт хорошую возможность оценивать искусственность результатов, однако он недостаточно наглядный. Гистограммы результатов кандидатов, искажённые фальсификациями, я полагаю более наглядными и довольно понятными публике, особенно когда там присутствуют пики на процентах, кратных 5. Самым наглядным методом я полагаю кластерный анализ, когда двумодальность распределения на графике «кандидат–явка» чётко очерчивает как честный кластер, так и кластер (кластеры), сформированный сообществом фальсификаторов.
Шень А.Х.
Оценка гипотез должна проводиться методами, принятыми в математической статистике, и выполняться корректно. Продемонстрировали свою полезность метод оценки пиков в гистограммах («круглые проценты»), анализ последних цифр, анализ недействительных бюллетеней, представление в координатах «явка – результат лидера», сравнение данных разных лет, сравнение с результатами наблюдения (непосредственного и видео) и другими статистическими данными, сравнение распределений для разных кандидатов и др., см. обзор [41]. Что касается понимания «широкой публикой», то, с одной стороны, для понимания большинства результатов не требуется глубокого знания статистики и достаточно уверенно оперировать с дробями, процентами и графическим представлением данных. Не нужно быть профессиональным математиком, чтобы понять, что когда в г. Клинцы участки с нечётными номерами имеют явку 90,0%, а с чётными 91,0% (с тремя исключениями из 28 участков), то это нельзя объяснить случайным совпадением. С другой стороны, очень многие люди не могут понять и оценить результаты в силу занимаемой должности, отсутствия желания или недостаточной квалификации (или комбинации перечисленных факторов), см., например, [13].
Шалаев Н.Е.
За неимением всеобъемлющей теории электорального поведения, которая могла бы предсказать свойства интересующих нас распределений, исходя из каких-то фундаментальных и легко устанавливаемых свойств электората, видимо, нужно ориентироваться на внешнюю валидацию методов через результаты классического наблюдения за выборами. В таком случае наиболее перспективными методами будут те, которые выявят аномалии в тех же случаях, что и наблюдатели на местах, и не дадут ложных срабатываний в противном случае. С практической точки зрения, наилучшим методом будет тот, который будет требовать менее разнообразных данных (не всегда и не везде можно полагаться на доступность электоральной статистики по всем вообразимым показателям), и не полагаться на специфические дополнительные данные.
С точки зрения наглядности наиболее понятными представляются, пожалуй, два направления разработки методов: ориентированные на изучение «срезов» электоральной поддержки (равенства пропорций) и на изучение географической компоненты. Идея о том, что «народ» должен примерно равным образом распределить свою поддержку между кандидатами вне зависимости от того, сколько избирателей решили прийти на выборы, является довольно понятной на уровне здравого смысла – в отличие от апелляций к свойствам распределений случайных величин. Аналогично и отсылка к «соседям», которые едва ли будут массово голосовать совершенно противоположным образом без очевидных на то причин, должна быть интуитивно понятна широкой публике. К сожалению, географическая составляющая по-прежнему является скорее достоянием публицистического дискурса, нежели научного, да и учитывая характер публикации электоральных данных – трудно поддаётся обработке.
Калинин К.О.
Идеальный метод выявления фальсификаций должен удовлетворять целому ряду важных критериев [5]. Во-первых, он должен быть чувствителен к аномалиям, давая возможность минимизации ложноотрицательных результатов. Во-вторых, в случае отсутствия аномалий он должен выдавать нулевые результаты, минимизируя тем самым число ложных срабатываний. В-третьих, метод должен охватывать как можно больше электоральных данных и желательно на уровне участков. В-четвертых, метод должен способствовать географическому анализу аномалий в увязке с различными политическими, культурными или этническими факторами. В-пятых, метод должен снабжать нас оценками неопределенности, способными к донесению до экспертного сообщества и общественности степени уверенности в наших выводах. Наглядность и понятность метода для широкой публики, конечно, довольно важный принцип, но я бы не стал его включать в этот список, так как в данном случае речь скорее идет о валидности метода, а не его популяризации.
Хотя область исследований фальсификаций сравнительно молодая, существует множество зарекомендовавших себя методов, результаты расчетов которых все чаще включаются в разнообразные статистические и эконометрические модели. К основным наиболее популярным методам можно отнести следующие: тесты значащих цифр в числах проголосовавших избирателей [1; 2; 6], корреляционно-регрессионные методы [36], непараметрические методы с использованием гистограмм [44] или графиков плотности [10; 11], параметрические методы, основанные на различных моделях фальсификаций [7; 4; 9], а также полевые эксперименты [3; 12; 23]. Этот список можно расширить за счет включения разнообразных эвристических методов, заточенных на поиск аномалий в рамках отдельных территорий. Все эти методы рассматривают различные срезы данных и по-разному квантифицируют чистое голосование, поэтому зачастую их выводы относительно аномалий могут друг от друга отличаться. Основные сложности с использованием этих методов касаются желательного использования данных на уровне участков (математический анализ итогов голосования наиболее эффективен на низком уровне данных), а также требования больших вычислительных мощностей при применении параметрических методов анализа данных.
Бузин А.Ю.
Методов точных количественных оценок «на кончике пера» нет. Приблизительные и предварительные оценки можно получать многими методами.
Коргунюк Ю.Г.
Надежность методов никогда не может быть абсолютной. Тут ведь важно, насколько корректно их применяют.
Шалаев Н.Е.
На данном этапе – пожалуй, нет, если иметь в виду высокую надежность и при этом высокую универсальность метода. Исследования подобного рода всё равно вынуждены прибегать к экспертному знанию относительно специфики электората исследуемых стран или регионов или же опираться на дополнительные данные, состав которых часто специфичен для того или иного случая.
Михайлов В.В.
Полагаю, что математических методов для точной количественной оценки фальсификаций не существует, но точность до 2–3 процентов для многих случаев достижима. Для большей уверенности желательно использовать несколько методов в комплексе. Сравнение многих регионов может существенно повышать надежность оценки фальсификаций.
Шень А.Х.
Если говорить об оценке с точностью до процентов или долей процента, то нет. Во-первых, во многих случаях шум полностью заглушает сигнал, поэтому разницу оценить сложно. Во-вторых, оценка с такой точностью невозможна без учёта неоднородности разных участков, для оценки которых требуется значительное количество наблюдений и статистических данных, а этого нет. С другой стороны, чтобы сказать, что нарисованные голоса в ходе «одобрения поправки в Конституцию» (2020) составляют не доли процента и не единицы процентов, а десятки процентов, достаточно изучить гистограмму и двумерное представление официальных результатов [8].
Шукшин И.А.
Во-первых, всё зависит от количества точек, взятых для оценки, то есть от количества УИКов, на которых проходят выборы. По сути важно, чтобы достоверность определения фальсификаций оказалась выше шума, выше погрешности, выше трёх сигм.
Во-вторых, масштаб фальсификаций тоже должен быть выше погрешности, не всякие фальсификации легко поймать, если это, например, небольшое накручивание бесспорного победителя с 49 до 51% для ухода от второго тура.
В-третьих, всё зависит от того, ограничиваемся ли мы только исследованием цифр, или же берём во внимание и свидетельства с мест, сообщения о нарушениях или прямых фальсификациях на участках. Для российских выборов федерального уровня как правило хватает данных даже без свидетельств с мест. Для региональных выборов одних лишь цифр хватает только для электоральных султанатов.
Овчинников Б.В.
Вопрос в том, что понимать под «надежностью».
Если говорить о методах, которые из раза в раз дают в целом по стране и по большинству регионов оценки, не противоречащие другим известным фактам и оценкам по очередному голосованию, то такие методы есть. В первую очередь это «модель Шпилькина», а точнее обе части его подхода – колокол и центр кластера.
Если же говорить о методах, для которых возможно посчитать доверительный интервал и математически доказать их совпадение с реальными результатами, то таких методов нет и не может быть. Хотя бы потому, что никто не знает истинных результатов.
Шпилькин С.А.
Существуют методы, позволяющие с высокой надежностью диагностировать факты фальсификаций на целых группах участков и в масштабах страны в целом, а также давать надежные количественные оценки снизу для числа фальсифицированных участков. Так, анализ «пилы Чурова» в масштабах страны позволяет утверждать, что результаты фальсифицируются на тысячах участков на каждых федеральных выборах. Эти выводы о фальсификациях математически совершенно надежны в силу того, что опираются на минимальные предположения, но именно поэтому выявляют лишь малую долю фальсификата (впрочем, вполне достаточную для масштабных юридических расследований и организационных выводов).
Подходы, направленные на оценку всего объема фальсификата, требуют более сильных предположений о характеристиках электората и потому менее надежны в математическом смысле, но полученные с их помощью результаты подтверждаются независимыми методами: анализ думских выборов в Москве в 2011 г. [3], опубликованные и затем удаленные данные опроса ФОМ по Москве на думских выборах в 2016 г., результаты просмотра видеозаписей, например [21].
Коган Д.Л.
Для оценки вбросов и приписок таких методов два: метод Шпилькина, основанный на гипотезе независимости результата от явки, и метод Мятлева, основанный на факте зависимости числа недействительных бюллетеней от явки. Для учета региональных различий эти методы надежнее применять отдельно к каждому крупному региону. Оба метода дают достоверные оценки нижнего порога фальсификаций, поскольку учитывают только масштабные вбросы и не учитывают перекладку бюллетеней между кандидатами. Для оценки перекладок надежных методов не существует, но масштаб этого явления обычно значительно меньше.
Калинин К.О.
На сегодняшний день существуют три метода количественной оценки электоральных аномалий: модель П.Климека, байесовская конечная смешанная модель У.Мебейна (данный вариант модели представляет собой обновленную версию конечной смешанной модели, описание которой печаталось в данном журнале [23]) и непараметрический метод С.Шпилькина. Ни один из методов не гарантирует стопроцентной надежности количественного анализа. Все методы в той или иной степени строятся на допущении о наличии «чистого горба», служащего эталоном при расчетах общего масштаба аномалий. Параметрические методы, в число которых входят модели П.Климека и У.Мебейна, позволяют воспроизвести модель гипотетического механизма фальсификаций с возможным включением контрольных переменных и на выходе оценить вероятности фальсификаций, числа украденных голосов в разрезе участков. В отличие от параметрического подхода, непараметрический метод С.Шпилькина строится на гистограммах с использованием особого алгоритма расчетов, результаты которого агрегированы на уровне гистограмм. Несмотря на сильную корреляцию между расчетами У.Мебейна и С.Шпилькина, параметрический метод последователен в своих более консервативных оценках по сравнению с непараметрическим, но он выдает результаты на уровне участков. И конечно же, ни один из приведенных методов не претендует на универсальность, не доказывает существование фальсификаций.
Гришин Н.В.
Точная количественная оценка уровня фальсификаций при помощи математических методов – дело сомнительное. Эта задача скорее ориентирована на медийный эффект. Для ее решения нет достаточных данных и инструментария. Ориентирами для отчета выступают данные с некоторых избирательных участков, которые сами, в свою очередь, могут быть недостоверными. В условиях массовых нарушений, когда мы не знаем, какие именно данные можно рассматривать в качестве достоверных, эта проблема, возможно, не решаема. Существует риск, что в качестве ориентира выступают не участки с достоверными данными, а участки, в которых нарушения происходят более равномерно и не сопровождаются математическими аномалиями.
По моему мнению, предпринимаемые попытки количественно измерить уровень фальсификаций приукрашивают картину. Итоговые расчеты об уровне фальсификаций не только не являются достаточно обоснованными, но и занижают уровень фальсификаций.
Бузин А.Ю.
В общем случае – нет.
Коргунюк Ю.Г.
Повторю: сам по себе математический анализ не способен ни на что. Это всего лишь инструмент, который нужно еще уметь использовать. В любом случае результаты голосования должны интерпретироваться специалистами по выборам: политологами-регионалистами, социологами, политическими географами и т.п. Только они и смогут отделить агнцев от козлищ.
Шалаев Н.Е.
Ответ на этот вопрос прямо зависит от того, на какие именно данные допустимо опираться исследователям. Если задача ставится так, что данные должны быть минимальны, например, строго данные электоральных архивов, без привлечения сторонних сведений, то едва ли. В то же время, если допускается привлечение дополнительных сведений, то её решить можно – и чем шире спектр дополнительных данных, тем с большей вероятностью. Так, например, отличным подспорьем могут быть данные об итогах голосования прошлых лет для тех же территориально-учётных единиц (участок, район) в совокупности с разумным предположением об относительном постоянстве основных характеристик электората (например, маловероятно, что люди, годами показывающие высокий уровень абсентеизма, в одночасье поменяют своё отношение к выборам и массово решат проголосовать).
Шпилькин С.А.
В большинстве случаев – да. Явления, связанные с естественными факторами, как правило, носят долгосрочный характер (прослеживаются на протяжении многих выборных циклов), имеют понятные и поддающиеся изучению причины и подчиняются законам математики. Аномалии, связанные с действиями фальсификаторов, как правило, не имеют рациональных объяснений и/или нарушают базовые статистические принципы (рисованные результаты в Саратове и Тюмени на думских выборах 2016 г., в Ставропольском крае на президентских выборах 2018 г., в Приморском крае на губернаторских выборах 2018 г. и т.д.).
Овчинников Б.В.
Да, безусловно, если говорить не строго про математический анализ, а шире – про анализ результатов голосования. Вызванные естественными факторами аномалии будут устойчивыми во времени и/или «градиентными» в пространстве – то есть будут проявляться не только на самом аномальном участке, но и в сглаженной форме на соседних участках. Могут быть, конечно, и разовые локальные (ограниченные одним участком) аномальные отклонения, но общая логика и эмпирические данные показывают, что такие отклонения скорее будут носить протестный характер. И в любом случае это могут быть единичные исключения, а не множество похожих отклонений в разных концах города.
Коган Д.В.
Да. Для этого используется аналог кросс-валидации. Например, участки разбиваются на теоретически однородные группы: скажем, отдельно город и отдельно деревня – и к каждой группе применяется тот же метод. Если внутри каждой группы тоже выявляются аналогичные аномалии, то с большой вероятностью они являются фальсификациями.
Шень А.Х.
Да, именно для этого и нужно использовать перечисленные методы (собственно говоря, понятие «аномалии» является внутренним для этих методов – в каждом из них «аномалии» понимаются по-разному).
Калинин К.О.
Последовательное исключение альтернативных объяснений – довольно трудоемкая исследовательской задача, без решения которой нельзя говорить о наблюдаемых аномалиях как о научно доказанных фальсификациях. К сожалению, данная задача требует привлечения большого объема данных, доступ к которому может быть ограничен или попросту невозможен из-за их отсутствия. Даже при наличии подобных данных не каждый метод подразумевает включение контрольных переменных – эта задача эффективно решается в основном с помощью параметрических методов.
Михайлов В.В.
Территориальная, этническая неоднородность, неоднородность села и города – все это существует. Различие имеется. Но эта достаточно сложная картина дополнительно загрязнена разным административным давлением, неоднородными (!) фальсификациями и покрыта толстым слоем мифов типа: вот здесь в этой республике на селе ментальность такая: как скажет старший, так они все и голосуют. Я раньше рассматривал неоднородность между столицей региона и районными центрами, между районными центрами и деревнями, и, наконец, между деревнями, удаленными от райцентра и лежащими рядом. И во всех трех случаях обнаруживал неоднородность. Она существует потому, что в дальних селах народ более бесправен, у него нет мотивации бороться за честные выборы, за свои права, так как в таких условиях жили деды и отцы. Часто они даже не понимают, что такое «честные, свободные, справедливые выборы». Часто соседние районы по разные стороны границы между регионами, например, Кировской областью, Удмуртией и Татарстаном, имеют разные результаты на выборах. Например, на выборах президента 2012 г. соседние ТИК трех субъектов РФ имели:
· Балтасинская, Татарстан – явка 97,6% и за Путина 91,5%;
· Кукморская, Татарстан – 97,2% и 95,0%
· Кизнерская, Удмуртия – 62,5% и 75,9%;
· Малмыжская, Кировская обл. – 64,1% и 55,9%.
Это не потому, что это этнически разные районы (в Малмыжском районе треть населения – татары и шестая часть – марийцы), а потому, что в Татарстане административное давление на выборах и во время голосования заметно больше, чем у соседей. Местный информационный фон у них разный, но федеральные каналы общие.
Аккуратное применение статистики поможет оценить долю, получаемую за счет фальсификаций и давления.
Гришин Н.В.
По моему мнению, при математическом анализе результатов выборов существуют сложности в различении аномалий, связанных с фальсификациями и другими преступными действиями, и аномалий, вызванных естественными факторами. Устойчивые территориальные различия электорального поведения могут быть вызваны такими причинами, как этнический и конфессиональный состав населения, доля городских жителей (и «фактор людности»), профессиональный состав населения и т.д. В рамках методов математического анализа выборов эти «естественные электоральные аномалии» не могут быть не только разъяснены, но даже приняты во внимание (в качестве каких-то переменных и т.д.). На практике аналитики, применяющие математические методы, также не учитывают их в своих исследованиях и выводах (если не ошибаюсь). Это может быть причиной серьезных ошибок в изучении электорального поведения и уже сейчас способствует распространению мифов (в частности, о том, что любые значительные отклонения обязательно связаны с фальсификациями и нарушениями).
Совмещение математических методов анализа результатов выборов с задачами изучения групповых различий электорального поведения – сложная работа в плане методологии и поиска конкретных методов. Решение этой задачи необходимо, если мы хотим продвинуться в изучении электорального поведения и в уточнении наших знаний об уровне фальсификаций. В настоящее время эта задача не решается.
Бузин А.Ю.
Они должны давать объяснения.
Гришин Н.В.
Аномалии, выявленные математическими методами, должны быть причиной общественной дискуссии и разбирательства. Формально они не могут быть поводом для каких бы то ни было действий со стороны органов государственной власти. Тем не менее, правоохранительные органы могут начать дополнительную проверку в случае наличия вопиющих и заведомо неправдоподобных электоральных аномалий.
Шпилькин С.А.
Если эти органы заинтересованы в выявлении и расследовании нарушений, они могут существенно сузить «круг подозреваемых» и тем самым повысить эффективность такой работы, опираясь на результаты анализа выборной статистики.
Шень А.Х.
Когда/если государственные органы заинтересованы в борьбе с электоральными преступлениями, значительные проблемы возникают редко: у государственных органов много возможностей (в том числе законодательных прав), и достаточно направить усилия на предотвращение преступлений, а не на их совершение. Но в переходный период математические методы могут быть использованы для выявления тех участков и территорий, где необходима более подробная проверка (пересчёт, опрос наблюдателей и пр.).
Шалаев Н.Е.
Я полагаю, что, хотя мы пока и не располагаем 100% точными инструментами для выявления результатов фальсификаций, но и имеющийся инструментарий вполне позволяет выявлять подозрительные результаты и локации. И чем большее количество методов бьют тревогу в одно и то же время в одном и том же месте, тем больше сомнений должно возникать. Соответственно, и реакция должна быть адекватной: подобного рода сообщения должны рассматриваться всерьез и проверяться по существу. По сути тут нет принципиальной разницы с жалобами очевидцев: чем большее количество людей заявляют о правонарушениях, тем больше оснований провести расследование обстоятельств, хотя и люди, и математические методы не являются совершенно надёжными индикаторами.
Коган Д.Л.
При обнаружении надежных маркеров фальсификаций, то есть повторов, совпадений, пиков на круглых процентах, результаты выборов должны немедленно отменяться. В случае длинной «бороды Чурова», то есть если оценка фальсификаций по методу Шпилькина дает миллионы голосов, тоже. Во всех остальных случаях необходима дополнительная проверка.
Калинин К.О.
Государственные органы, заинтересованные в борьбе с электоральными преступлениями, должны позитивно реагировать на сообщения о статистических аномалиях, так как данные методы позволяют выявить и изучить возможные источники фальсификаций. Основная проблема сводится к неоднозначности интерпретации аномалий и ограниченности доказательств их фальсификационной природы из-за недостаточности данных. При этом до конца остается неясным, кто же должен взять на себя бремя доказательства: исследователи, усматривающие в статистических аномалиях фальсификации, или госорганы, объясняющие аномалии неоднородностью данных. Теоретически в случае обнаружения аномалий учеными, изучающими фальсификации, и представителями госорганов должна быть проведена совместная исследовательская работа, направленная на поиск источников. В случае обнаружения электоральных преступлений должна быть дана надлежащая правовая оценка с привлечением к ответственности всех причастных.
Шукшин И.А.
При переходе от авторитаризма и беззакония к демократии и законности власти должны взять курс на транспарентность и перестроить работу так, чтобы аномалии могли быть прозрачно проверены.
Например, законодатели могут обеспечить предоставление полного доступа ко всем видеозаписям с выборов всем желающим в течение как минимум всего срока давности по данным преступлениям. Для естественного ограничения потока желающих и ботов можно организовать всё по аналогии с доступом в ГАС «Правосудие», куда можно войти через Госуслуги.
Но для борьбы с преступлениями мало одной прозрачности, нужна неотвратимость наказания, то есть нужно, чтобы каждое найденное нарушение заканчивалось последствиями для нарушителей.
Коргунюк Ю.Г.
Уж точно они не должны занимать позицию «А вы докажите!» и «Не пойман – не вор!». Такая позиция оправдана в судебном процессе над мелким жуликом, но не в случае с ответственными за организацию выборов. Здесь доказывать должны те, кого подозревают.
Любая аномалия должна быть поводом для специальных разбирательств, в том числе с привлечением независимых экспертов. Предоставлять доказательства должны организаторы выборов на местах. В случае непредоставления таковых комиссии должны расформироваться, набираться из новых людей (в том числе из представителей независимой общественности), а выборы проводиться повторно с соблюдением всех формальностей: присутствием независимых наблюдателей (в том числе привлеченных из-за пределов данной территории), круглосуточной видеосъемкой, в том числе процесса подсчета голосов, и т.п.
Михайлов В.В.
Основной вопрос «как может быть полезна математика для выборов?» был поставлен в статье [33]. В ней обосновывается необходимость отказаться от формального юридического подхода: если есть письменная жалоба с участка, то нужно рассмотреть по процедуре, по закону; если нет – то и рассматривать нечего. Это долгий путь. Жалоб на выборах в наших условиях бывает на два-три порядка меньше, чем фактических нарушений, а избиркомы и суды уже научились гасить те, которые дошли до них. Кроме того, существуют нарушения, которые никто из участников голосования и наблюдения на участке не замечает, а статистика их показывает. В Татарстане часто жалоб не было, а статистика полыхала от аномалий.
Мои советы ниже даются для будущего времени, когда государство откажется от политики потворства фальсификациям, будет бороться с использованием административного ресурса, отделит исполнительную власть от существенной работы в избиркомах, оставив лишь функции материальной поддержки и снабжения. Или когда оно начнет двигаться в этом направлении.
Страна поражена привычкой фальсифицировать и принуждениями к фальсификациям, и это в один момент не кончится. Тень от них равномерно покрывает все избирательные участки, включая и честные. Есть все возможности быстро, в течение двух-трех дней определить локальные аномалии и направлять туда независимых инспекторов для пересчета бюллетеней, связываться с местными независимыми наблюдателями. Принципиально это несложно, и должно быстро приносить плоды. Экспертные группы математиков можно создать в Москве, Петербурге и в других региональных центрах.
Возможно, будет полезно публично отмечать те УИК, в которых нарушений не замечено и независимыми наблюдателями, и статистической проверкой.
Более основательный, менее срочный анализ покажет региональные тенденции и временную динамику, и его результаты также можно использовать для очищения российских выборов.
Поступила в редакцию 29.10.2020, в окончательном виде 05.11.2020.