Полную версию этой статьи можно найти здесь: http://max-dnepr.narod.ru/seker-sheker/seker-sheker.htm
Предсказывать будущее, зная прошлое
В связи с захлестнувшей нас перед выборами волной опросов, мне захотелось провести сравнение и узнать, кому из социологов можно доверять, а кому совсем наоборот. Это можно сделать, сравнив прошлые опросы с результатами выборов. Неплохо, чтобы в опросах рядом с названием фирмы публиковалась статистика: сколько прогнозил, сколько попал, средняя ошибка и т.д. Как в НБА, когда Коби бросает штрафные, мы заранее про него знаем, сколько он забивает в среднем, какой рукой, сколько ему еще осталось забить и какая вероятность.
Логично, если бы рейтинг социолога, его зарплата и частота мелькания в медиапространстве зависели бы от этих данных.
Ведь странно, что у в Израиле главной по опросам до сих пор считается Мина Цемах, хотя вся страна знает, что Мина стабильно ошибается на 5% влево. Может быть кто-то прогнозит лучше?
В общем, если до сих пор этого никто не сделал, я решил что пора сделать
1.ПАРТИИ
http://max-dnepr.narod.ru/seker-sheker/html/polls-knesset.htm
В крайней левой колонке - правильный ответ, в крайней правой - среднее по палате.
- Видно, что по большинству партий отклонение в 1-2 мандата, что можно признать более-менее нормальным.
- в 2006-м бросается в глаза, что все дружно ошиблись примерно на 5 мандатов с Кадимой, и примерно на столько же но в другую сторону с пенсионерами. Учитывая, что на следующий день виновники торжества объединились в одну фракцию, можно сказать, что и не ошибка вовсе. К тому же, если мы отмотаем чуть назад, тенденцию падения Кадимы предсказывали все опросы, а значит тут случай особый - каждый новый день со страшной силой отбирал мандаты, и за оставшиеся 2 дня ситуация для Кадимы могла еще больше ухудшиться.
Прогнозящий для газеты для альтернативно думающих людей "Диалог" сумел отличиться и на этом фоне, даже за 2 дня до выборов давая Кадиме 36 мандатов. Отметим также, что Геокартография и Шваким давали Кадиме 33-34 мандата за 6 дней до выборов, и более поздних их опросов нет, тогда как другие (Дахаф, Диалог, Телесекер) в то время еще радовали Кадиму, давая ей 36-37. К сожалению, тот факт что опросы проводятся в разные дни, невозможно отразить в статистике и это вносит дополнительные неточности. Остается надеяться, что при большом количестве опросов в среднем все утрясется равномерно.
Также отметим, что с упомянутой троицей Дахаф-Диалог-Телесекер сотрудничают три основные печатные газеты, и их опросы в последние четверг-пятницу до выборов (а это как раз 5-6 дней) видит вся страна, тогда как у остальных аудитория гораздо меньше - радиостанции, секторальный Макор Ришон, англоязычный JPost и т.д.
- в 2003-м все дали в среднем на 6.5 мандатов меньше Ликуду (и тут уже никаких тенденций не видно, просто тупо ошиблись), а в 99-м примерно на столько же ШАСу.
- С ШАСом вообще всегда проблема, они во всех опросах получают меньше, чем на самом деле (обычно не так явно, как в 99-м, но ошибка в 1-2 мандата в их случае почти всегда со знаком минус.
- С НДИ в 2006-м самы большой разброс мнений, от +4 до -4, но в среднем как раз все хорошо (7 мандатов им Диалог давал - ничего личного). В прошлые годы такая же проблема была с ИБА - то недолет, то перелет, но всегда сюрприз.
В общем, секторальные партии загадочны и плохо поддаются научным исследованиям.
- В 96-м опросы трагически обрываются в конце апреля, поэтому в дальнейшем не учитываются. Но видно, что и там ошибка влево.
Судя по данным по опубликованным рядом опросам Перес-Нетаниягу, за оставшийся месяц существенных изменений не было.
- В 84-м летописи донесли до нас лишь частичные данные, поэтому они тоже в дальнейшем не учитывались. Но радует, что и отмотав на четверть века назад, мы опять встречаем те же лица.
Что еще сказать о партиях не знаю, поэтому перейдем к блокам и премьерам.
2. ОБЩИЕ ВЫБОРЫ - ПРЕМЬЕРЫ И БЛОКИ
http://max-dnepr.narod.ru/seker-sheker/html/polls-PM_blocks.htm
Работа над ошибками
Кроме ошибки по каждому кандидату считалась суммарная ошибка опроса - сумма всех ошибок по кандидатам. Понятно, что чем больше участников, тем больше суммарная ошибка и сравнения не совсем корректны (это относится только к праймериз, на общих выборах всегда было по 2 кандидата). Другой вариант - сравнивать средние значения ошибок тоже не решает проблему: чем больше участников, тем меньше будет средняя ошибка. Например, на последних праймериз в Кадиме здорово облажались почти все социологи, но если мы разделим на 4 (результат двух аутсайдеров мог угадать даже ребенок) средняя ошибка выглядит вполне приемлемой. Поэтому отдельно сравнивалась разница между основными конкурентами (1-2-е место) и ее отклонение от реальной.
Правые, левые, прочие
Кроме того, считалась ошибка вправо/влево. Для этого все партии были поделены на блоки - правые и левые. Кандидаты также были поделены на правых и левых, там где это казалось возможным. Понятно, что такое деление весьма условно, и можно было делить как-то иначе.
К правым отнесены все партии коалиции Нетаниягу, включая ИБА и Третий путь, а также возникшие позже ИЛ, Либерман, и прочие Хазиты и Атиквы, все кандидаты на пост ПМ от Ликуда, Биби и Фейглин на праймериз в Ликуде, Фуад в Аводе и Мофаз в Кадиме.
К левым - все партии коалиции Рабина плюс возникшие позднее Шинуй, Кадима и прочие пенсионеры зеленые, голубые и розовые пнины розенблюм, кандидаты Аводы на пост ПМ, Шарон и Шалом на праймериз в Ликуде, Бург, Мицна и Рамон в Аводе, Ципа в Кадиме.
Некоторые вообще никуда не относятся, поэтому суммарная ошибка и ошибка вправо/влево не всегда совпадают.
Примечания:
По поводу 96-го года, на одном из форумов приводится ссылка на
два опроса в Маариве и Йедиот, в одном из которых (йедиотском) вел Нетаниягу.
Речь идет о газетах, вышедших в понедельник (27.05). Для Йедиот у нас прогнозит Мина Цемах, в опросе Дахафа, который я нашел, сделанном 28.05 вечером перед выборами Перес снова ведет 3%.
Насчет опроса Маарива - не совсем понятно, кто его делал - скорее всего Геллап. На картинке, в газете за неделю до выборов видно, что в Маариве публиковалось сразу три опроса, по всем вел Перес ([url="http://www.nrg.co.il/online/1/ART1/063/202.html]отсюда[/url])
Википедия также сообщает нам о перевесе Переса в обоих газетных опросах перед выборами.
Еще приводилась ссылка на ликудовский опрос за 5 дней до выборов, по которому Нетаниягу впереди на 1%.
Непонятно, кто его делал и где это было опубликовано, поэтому в дальнейшем опрос не учитывался. Но можно отметить, что внутренний ликудовский опрос оказался абсолютно точным, в отличие от "объективных" газетных, хотя казалось бы, должно быть наоборот.
3. ПРАЙМЕРИЗ + РЕФЕРЕНДУМ
http://max-dnepr.narod.ru/seker-sheker/html/polls-primaries.htm
Примечания:
Последние колонки: суммарная ошибка, ошибка вправо/влево, разница между 1-м и 2-м местом, ошибка по 1-2 месту.
- К ликудовским праймериз 2007 я нашел только один опрос, и хотя он был сделан за 2 недели до выборов, опрос абсолютно точный, я решил его включить.
- К ликудовским праймериз 99-го года (их там было 2 штуки) опросов вообще не нашел, что само по себе показательно.
- На праймериз в Аводе в 2001-м было два результата: сначала выиграл Бург, потом часть друзских урн решили переголосовать, друзы не пришли и выиграл Фуад. Опросов тоже два - в одном ведет Бург, в другом Фуад. Я считал наиболее близкий результат, в итоге оба угадали, оба молодцы.
- На ликудовских праймериз в 2007-м и в некоторых других мы всречаем двойные опросы - для всех избирателей и для тех кто наверняка придет голосовать. В том конкретном случае цифры тех кто наверняка оказались ближе к правильным, но если посмотреть дальше - никакой зависимости нет (либо недостаточно данных). Фактически, социолог подстраховывается и продает нам два варианта опроса по цене одного, чтобы потом у него всегда была возможность сказать, что нужно было читать маленькие буквы, на последней странице, по диагонали.
В общем, я считал лучший вариант (он выделен болдом).
- В праймериз N14 (Авода-2006, 1 тур) на имре второй опрос приписан Маагару Мохот, во всех прочих местах это Шваким Панорама.
- В опросе N18 (праймериз в Ликуде-2002) триумфально появляется с перекосом на 13% влево фирма Market Watch, которую мы больше нигде не встречаем. Что за контора такая? Вот как раз недавно тут о ней писали.
- На тех же ликудовских праймериз была такая добрая традиция не публиковать результаты Фейглина, как будто кандидатов всего двое. Ну, раз не публиковали, считал 0. Может они чего-то другое имели в виду - я между строк читать не умею.
- На ликудовском референдуме (опрос N17) все угадали результат и все ошиблись с цифрами влево. Вроде бы хуже всех нашаманили И.Кац и Мина Цемах, но нужно отметить даты опросов - число противников размежевания росло с каждым днем и эту тенденцию верно уловили почти все конторы. Последний опрос Каца от 28.04, у двух других 01.05. Если посмотреть на опрос Телесекера от 28.04- там дела еще хуже.
Отличилась же Мина Цемах - старушка единственная обнаружила тенденцию роста сторонников размежевания.
Сухой остаток
"Системы - бессистемные, стандарты - нестандартные,
Пространство - неэвклидово, хрен знает, чьё оно." (Шаов)
Подведем итоги.
Всеобщие выборы (партии и премьеры):
31 опрос, средняя ошибка 4.6%
Но влево ошибаются чаще (17 против 10 вправо) и больше: средняя ошибка левых опросов - 6.3%, средняя ошибка вправо - 3.5%, почти вдвое меньше.
Итого: каждый опрос в среднем ошибается на 2.3% влево.
Это подтверждает истину, известную каждому ребенку: опросы подрисовывают пару мандатов левым партиям, но стараются при этом оставаться в каких-то рамках.
Отдельно по партиям и по премьерам картина примерно одинаковая.
На праймериз веселее:
35 опросов, 20 левых, всего 4(!) правых, средняя ошибка 12.1%
Левые ошибаются в среднем на <b>11%</b>, правые - на 5.9%. В среднем каждый опрос прибавляет 5.6% левым.
В сумме, все вместе:
66 опросов, средняя ошибка 8.6%, влево - 8.8%, вправо - 4.2%, в среднем 4.1% влево.
Старуха процентщица и другие
Теперь отдельно по опрос-конторам (выписывал только тех, кто давал больше одного прогноза):
Инст. Смита: 6 прогнозов, ср.ошибка 4.49%, (0.72% влево)
Шваким Панорама (Й.Вадана): 5 прогнозов, ср.ошибка 5.74% (0.53% вправо)
Геокартография (А.Дгани): 5 прогнозов, 4.37%, 2.35% влево
эти - самые объективные, дальше - хуже.
Маагар Мохот (И.Кац): 4 прогноза, 5.91%, 7.63% влево.
этот тоже относительно неплохо, из-за малого числа опросов сильно тянет вниз ошибка на референдуме, когда опрос был сделан раньше других.
Геллап: 4 прогноза, 6.86% (столько же влево)
Галь хадаш: 4 прогноза, 9.79% (9.37% влево)
Галь хадаш - это бывший Геллап, видно, что смена вывески не изменила концепцию. Из 8-и опросов 7 ошибаются влево. Стабильность - признак класса!
Дахаф (М.Цемах): 15 прогнозов, 7.26%, 4.63% влево.
Из 15-и опросов 10 ошибок влево, 3 вправо. Вот он профессионализм - все в пределах стат.погрешности и в то же время ошибки почти всегда в нужную сторону.
Диалог (К.Фукс): 9 прогнозов, 10.22%, 5.35% влево
Газета для думающих людей помогает думать в нужном направлении.
(но на общих выборах все не так плохо - 2 прогноза, ср.ошибка 1.25% влево)
Телесекер: 9 прогнозов, 10.27%, 2.04% влево
Эти считать не умеют, но объективные, чушь несут направо и налево.
Отдельно можно выделить т.н. сложные выборы - когда разница между 1 и 2-м местом составляла меньше 10%. Их, включая 84-й год, было 9 (N3,5,6,9,11,13,14,16,20), 24 опроса.
7 раз конторы угадывали победителя, 13 раз промахивались.
Отличилась тут Мина Цемах - из 7-и попыток 6 неугаданных победителей.
Вы вдумайтесь в простые эти цифры, за каждой вижу чью-нибудь судьбу...
Персональная статистика - некоторые наиболее интересные персонажи:
(в первых двух случаях я считал разницу между кандидатом и его ближайшим конкурентом)
Нетаниягу фигурирует в 17 опросах (ПМ+праймериз, не считая 2007-го года, когда соперничества фактически не было), 13 раз ошибка влево, в среднем каждый опрос ошибается на 5.23% не в его пользу.
Перес (сюда также посчитал 1984, хотя там фигурируют партии) - 10 опросов, все(!) в его пользу, в среднем ошибка 9.3%.
Фейглин участвовал в 12 опросах, в среднем в каждом получал на <b>1.66%</b> меньше, чем на самом деле. Учитывая, что всего он набирал в среднем 8.86%, т.е. в каждом опросе на 19% меньше реального результата.
Партия ШАС за последние 12 лет (вместе с 96-м годом - данные за апрель) появляется в 17 опросах, 13 дают ей меньше чем на самом деле, всего один - больше. В среднем получают в каждом опросе на 2.26% меньше, т.е. на 2-3 мандата.
Кадиму и лично Ципи Ливни не считал, т.к. они успели отметиться только в одних выборах, но видно, что у Ш.Переса появились достойные конкуренты.
Парадокс Марзеля. Партия Баруха Марзеля (Херут, потом Хазит) участвовала в выборах 2003-го и 2006-го года, оба раза набирая более одного мандата, но не проходя ахуз хасима. Тем не менее, мы мало где встретим ее в опросах. Зато мы там часто встречаем зеленых, Але ярок, Тафнит, Пнину Розенблюм, пенсионеров (в их непроходные годы) и кого только не.
(http://www.politicsnow.co.il/ele2003sk.html, http://www.uzit.co.il/poll2006.html)
О важности попадания в опросы перед выборами свидетельствует успех партии пенсионеров: стоило им в 2006-м году появиться в 6-и из 7-и последних предвыборных опросов, создав ощущение проходимости, как народ массово побежал за них голосовать, принеся 7 мандатов.
Как это работает
Поскольку я начал собирать данные еще осенью, 17 сентября, в день праймериз в Кадиме, передо мной была таблица с цифрами в графе праймериз:
средняя ошибка 11.4%, средняя ошибка влево - 10%. Не могу сказать, что сильно удивился, узнав на следующее утро, что все три мидгама ошиблись на 10% в пользу Ливни.
Интересно также, кого позвали делать мидгам: 10 канал - К.Фукс (на праймериз ср.ошибка 12.8%, средняя влево - 7%), 2 канал - Мина Цемах (9.64%, 6.84% влево), 1 канал - Мано Гева (не знаю кто такой, нет данных). Есть конторы, которые, мягко говоря, угадывают получше (у Шваким Панорама до тех праймериз средняя ошибка была 5.82% и их прогноз наиболее близок к реальности.
Наиболее же точным следует признать прогноз Мофаза (43.7%), правда счастья ему это не принесло.
Наши дни
Я взял файл с последними опросами и посчитал средние значения по трем показателям:
правые - 64.1, левые - 55.93 и разница между Ликудом и Кадимой - 5.4.
Если взять отдельно лидирующую четверку (Геокартография, Смит, Шваким Панорама и Маагар Мохот):
правые - 65.87, левые - 54.3, разница Ликуд-Кадима - 8.1.
У любимых нашей прессой Дахаф, Диалог, Телесекер, Галь Хадаш такие показатели:
правые - 62.43, левые - 57.57, разница Ликуд-Кадима - 3.43.
(средние значения по последним опросам за январь - примерно такие же, колебания около пол процента)
Создается впечатление, что люди живут в параллельных реальностях!
(Выдающую в последнее время по два опроса в неделю контору "Панелз" не считал ни в одну из групп - по ним нет предыдущей статистики, но судя по всему, они ближе к последней группе).
И в заключение, прекрасное
Наткнулся на сайте bhirot2009.co.iл, некий анонимный обозреватель учит профессора А.Дгани правильно делать опросы:
"И, наконец, еще об одном. Институт Геокартографии. Если бы мы не знали, то могли подумать, что они проводили свой опрос где-то в другой стране. Разница в 16 мандатов – это уже много выше среднестатистической ошибки, допустимой в таких опросах. Или профессор А. Дгани открыл что-то неведомое другим? А может быть, Глобус и Первый канал потребуют свои деньги назад после выборов?"
Все шагают в ногу, одна Геокартография не в ногу. Не удивлюсь, если деньги назад после выборов потребуют у альтернативно одаренных авторов сайта.
------------------------------------------------------------------------------------------
Кому интересно - экселевский файл со всей трахомудией - здесь
Последние опросы + среднее - тут.