О функции правдоподобия и работе Кирилла Калинина "Валидация конечной смешанной модели с использованием квазиэкспериментальных и географических данных"

А.Шень

Аннотация

Комментарий к статье Кирилла Калинина "Валидация конечной смешанной модели с использованием квазиэкспериментальных и географических данных"


Работа [1] основана на подходе, предложенном Уолтером Мебейном (Walter Mebane) и другими в [3]. Позднее Мебейн использовал тот же подход в [4]. В этом подходе (развивающем идеи Климека и других [2]) процесс голосования приближается смесью нескольких распределений: одно соответствует корректному подсчёту (fair counting), другое соответствует умеренным фальсификациям (incremental fraud), а третье — «беспределу» (extreme fraud). Авторы затем пытаются применить алгоритм EM (expectation-maximization), чтобы найти параметры модели, которые максимизируют правдоподобие фактически полученных результатов. Это вполне естественный подход, если делать это правильно. Однако Мебейн пишет [3: 10] (перевод мой):

Функция правдоподобия для finite mixture model может быть записана как

\(\mathcal{F}(\mathbf{W},\mathbf{A}\mid \mathbf{N};\Psi)=\sum\limits_{j\in\{0,\mathrm{i},\mathrm{e}\}} f_j \prod\limits_{i=1}^n g_{jW}(W_i\mid N_i; \Psi)g_{jA}(A_i\mid N_i,\Psi)\)

где \(𝑓_0, 𝑓_i, 𝑓_e\) — вероятности, для которых \(𝑓_0 + 𝑓_i + 𝑓_e = 1\).

Однако указанное выражение (воспроизведённое как (6) в [4], а также в разделе 3 статьи [1]) не даёт корректной функции правдоподобия для рассматриваемой модели (finite mixture). Ошибка тут в том, что это выражение предполагает, что выбор между тремя возможностями делается один раз, в то время как в модели этот выбор происходит независимо в каждой точке голосования. Поэтому и максимизировать это выражение смысла нет.

И впрямь, задаваемая им функция параметров \(𝑓_0, 𝑓_i, 𝑓_e\) определена на треугольнике \(𝑓_0 + 𝑓_i + 𝑓_e = 1, 𝑓_0, 𝑓_i, 𝑓_e ⩾ 0\) и является там линейной. Поэтому она обязательно достигает максимума в одной из вершин треугольника.

Следовательно, если алгоритм максимизации этой функции даёт внутренную точку треугольника (все три параметра положительны, как это бывало в [1, 4]), то это может означать лишь, что

• или алгоритм максимизации работает некорректно и даёт в качестве ответа точку, где значение выражения не максимально;

• или функция постоянна на треугольнике и достигает максимального значения в любой его точке.

В обоих случаях значения переменных \(𝑓_0, 𝑓_i, 𝑓_e\), выданные алгоритмом, лишены смысла.

Теоретически можно допустить, что реальная программная реализация EM-алгоритма была правильной, и некорректная формула была использована лишь при публикации. Можно лишь гадать, так ли это было — но существенная разница между результатами [4, 1] и первоначальными оценками из [2] (основанными на более простом подходе) делает это предположение маловероятным.

Поступила в редакцию 05.06.2018, в окончательном виде 29.06.2018.


Список литературы

  1. Kalinin K., Validation of the Finite Mixture Model Using Quasi-Experimental Data and Geography. - Electoral Politics. 2019. В этом номере.
  2. Klimek P., Yegorov Yu., Hanel R., Thurner S. Statistical detection of systematic election irregularities. – Proceedings of the National Academy of Sciences of the United States of America. 2012. V. 109. No. 41. P. 16469–16473. - https://doi.org/10.1073/pnas.1210722109
  3. Mebane W.R., Jr., Egami N., Klaver J., Wall J. Positive Empirical Models of Election Fraud (that May Also Measure Voters’ Strategic Behavior). – Prepared for presentation at the 2014 Summer Meeting of the Political Methodology Society, University of Georgia, July 24–26, 2014. Доступ: http://www-personal.umich.edu/~wmebane/pm14.pdf (проверено 05.06.2018). - http://www-personal.umich.edu/~wmebane/pm14.pdf
  4. Mebane W.R., Jr. Election Forensics: Frauds Tests and Observation-level Frauds Probabilities. Prepared for presentation at the 2016 Annual Meeting of the Midwest Political Science Association, Chicago, April 7–10, 2016. Доступ: http://www-personal.umich.edu/~wmebane/mw16.pdf (проверено 05.06.2018).(проверено 05.06.2018). - http://www-personal.umich.edu/~wmebane/mw16.pdf