Комментарий к статье Кирилла Калинина "Валидация конечной смешанной модели с использованием квазиэкспериментальных и географических данных"
Работа [1] основана на подходе, предложенном Уолтером Мебейном (Walter Mebane) и другими в [3]. Позднее Мебейн использовал тот же подход в [4]. В этом подходе (развивающем идеи Климека и других [2]) процесс голосования приближается смесью нескольких распределений: одно соответствует корректному подсчёту (fair counting), другое соответствует умеренным фальсификациям (incremental fraud), а третье — «беспределу» (extreme fraud). Авторы затем пытаются применить алгоритм EM (expectation-maximization), чтобы найти параметры модели, которые максимизируют правдоподобие фактически полученных результатов. Это вполне естественный подход, если делать это правильно. Однако Мебейн пишет [3: 10] (перевод мой):
Функция правдоподобия для finite mixture model может быть записана как
\(\mathcal{F}(\mathbf{W},\mathbf{A}\mid \mathbf{N};\Psi)=\sum\limits_{j\in\{0,\mathrm{i},\mathrm{e}\}} f_j \prod\limits_{i=1}^n g_{jW}(W_i\mid N_i; \Psi)g_{jA}(A_i\mid N_i,\Psi)\)
где \(𝑓_0, 𝑓_i, 𝑓_e\) — вероятности, для которых \(𝑓_0 + 𝑓_i + 𝑓_e = 1\).
Однако указанное выражение (воспроизведённое как (6) в [4], а также в разделе 3 статьи [1]) не даёт корректной функции правдоподобия для рассматриваемой модели (finite mixture). Ошибка тут в том, что это выражение предполагает, что выбор между тремя возможностями делается один раз, в то время как в модели этот выбор происходит независимо в каждой точке голосования. Поэтому и максимизировать это выражение смысла нет.
И впрямь, задаваемая им функция параметров \(𝑓_0, 𝑓_i, 𝑓_e\) определена на треугольнике \(𝑓_0 + 𝑓_i + 𝑓_e = 1, 𝑓_0, 𝑓_i, 𝑓_e ⩾ 0\) и является там линейной. Поэтому она обязательно достигает максимума в одной из вершин треугольника.
Следовательно, если алгоритм максимизации этой функции даёт внутренную точку треугольника (все три параметра положительны, как это бывало в [1, 4]), то это может означать лишь, что
• или алгоритм максимизации работает некорректно и даёт в качестве ответа точку, где значение выражения не максимально;
• или функция постоянна на треугольнике и достигает максимального значения в любой его точке.
В обоих случаях значения переменных \(𝑓_0, 𝑓_i, 𝑓_e\), выданные алгоритмом, лишены смысла.
Теоретически можно допустить, что реальная программная реализация EM-алгоритма была правильной, и некорректная формула была использована лишь при публикации. Можно лишь гадать, так ли это было — но существенная разница между результатами [4, 1] и первоначальными оценками из [2] (основанными на более простом подходе) делает это предположение маловероятным.
Поступила в редакцию 05.06.2018, в окончательном виде 29.06.2018.