Как подтасовывали данные переписи населения и зачем в ней участвовать
В апреле 2021 года Росстат проведет перепись населения России: масштабный социологический опрос, который уже вынужденно переносили с 2020 года из-за захлестнувшей страну пандемии коронавируса. За месяц будет собрана информация обо всех жителях России, об их уровне образования, владении языками, жилищных условиях и структуре их семьи. Однако из-за пандемии, а также многочисленных скандалов с утечкой персональных данных от госструктур, некоторые граждане скептически относятся к грядущему опросу. О том, почему поговорить с переписчиком — в ваших же интересах, Znak.com рассказала социолог, специалист отдела построения выборки «Левада-Центра» Екатерина Козеренко.
«Страхи вокруг переписи — от неграмотности»
— Зачем вообще проводят перепись населения? Неужели того, что Росстат знает благодаря налоговой, ФОМС, МВД и другим ведомствам, недостаточно?
— Нет, государству этого недостаточно. Во-первых, потому что информация там далеко не вся. Во-вторых, эти данные агрегированы, но информация эта несвязанная. Вы по той информации, которую дает ЗАГС, можете узнать, сколько детей и какого возраста есть. А сколько женщин в возрасте от 18 до 24 имеют одного ребенка, сколько двух и так далее, вы узнать не можете. Вы знаете количество выпускников вузов, но связать их с местоположением, полом, возрастом вы не можете. Перепись дает связанные данные, и в этом ее основная ценность.
— Как потом государство распоряжается полученными данными?
— Потом эти данные используются везде и всюду. Например, при формировании различных программ поддержки. Чтобы рассчитать материнский капитал, нужно знать не только количество детей, но и возраст родителей. Какие-то новые льготы, жилищные программы и так далее, они так или иначе используют именно связанные данные.
Во всех программах что-нибудь да ограниченно: либо возраст, либо количество детей, либо еще что-то. Понятно, что все программы распространяются только на определенные категории, потому что раздать всем — денег не хватит. Но вы должны знать, сколько нужно заложить денег на программу с учетом всех ограничений.
Все планирование опирается именно на данные переписи, потому что по базе МВД вы этого посчитать не сможете.
— Большинство последних скандалов с утечкой персональных данных связаны именно с государством, и возникает резонный вопрос: зачем самим гражданам сообщать данные о себе, с учетом этих рисков и того, что никто не обязан участвовать в переписи?
— Данные переписи в этом отношении самые безопасные, они не привязаны к человеку. На переписном листе нет вашей фамилии. И даже утечка этой информации никому ничем не грозит. Это не банковские банные. Информация не персонализированная, поэтому страхи вокруг переписи, в общем-то, от неграмотности. От того, что недостаточно люди информированы о том, какие данные используются.
А сообщать эти данные государству крайне желательно. Если большое количество людей откажется от участия, то информация будет искажена. И потом — мы же с вами будем страдать от того, что правительство принимает решения, не понимая реальной картины мира. Расхлебывать это придется тому же населению, и это обязательно негативно скажется на каждом конкретном человеке.
— В этом году перепись впервые можно будет пройти онлайн, и там имя указать придется. Нет ли в этом угрозы для персональных данных?
— Я очень надеюсь, что Росстат понимает эту опасность. И она очень просто ликвидируется: списки и фамилии хранятся отдельно, а заполненные анкеты — отдельно. В результате у вас получается перечень людей, которых не надо опрашивать, но привязать к анкете это невозможно. Я абсолютно уверена, что Росстат знаком с законодательством РФ и проблему безопасности данных решит.
«Люди склонны завышать уровень образования и не всегда говорят правду о доходах»
— В переписи населения не предусмотрено никакой «шкалы лжи», и люди, в общем, не обязаны говорить правду. Насколько достоверной можно считать информацию от них в этом случае?
— Мой опыт работы в сфере изучения общественного мнения говорит о том, что люди врут редко. Люди хорошие. Они могут отказываться от участия, но намеренно искажают данные крайне редко.
Действительно, есть чувствительные вопросы. Известно, что люди склонны завышать уровень своего образования, потому что иметь более высокий уровень образования престижно. Люди не всегда говорят правду о доходах. Низкодоходные группы населения склонны завышать свои доходы, потому что стесняются низких доходов, а высокодоходные — занижают, потому что они опасаются, что опрос будет носить фискальную функцию. Но в целом люди отвечают более или менее честно.
Опасность скорее в большом количестве отказов. Это ведь не первая перепись, и люди всегда искажали данные более-менее одинаково. И в переписи главное — динамика, которую она получит. Динамика отражает реальность достаточно хорошо.
— Вероятно, из-за пандемии многие граждане откажутся общаться с незнакомым человеком, который гарантированно имеет множество контактов. Почему перепись нельзя перенести на более поздний срок?
— Ее уже перенесли из-за пандемии, она должна была пройти в этом году. По закону интервал между переписями составляет десять лет. На значительное время переносить перепись — это нарушать ряды данных. Фиксированный интервал в 10 лет нужно выдерживать, чтобы было проще работать с информацией. Если он скачет, то у изменений, которые будут наблюдаться, будет больше вероятных объяснений. Например, увеличилось на сколько-то процентов число людей с высшим образованием. И неясно отчего: то ли люди стали чаще поступать в университеты, то ли их стало больше просто потому, что взят больший период. Еще один перенос нежелателен.
Хотя, если пандемия к весне не притихнет, может, и еще перенесут. Потому что если будет большое количество отказов, неизвестно еще, что хуже: больший сдвиг или меньше информации.
— Какое количество отказов будет критичным?
— По моему опыту, он должен быть не больше 15–20%. Если 80% населения примет участие в переписи, то на эти данные уже можно будет опираться. И еще важно оценить, насколько случайный характер будут носить отказы. Потому что если откажутся все жители Москвы, а это 10% населения, это, с одной стороны, небольшой процент, а с другой стороны — это дырка в исследовании, и все. Компенсировать и аппроксимировать данные без Москвы невозможно. Если же 10% будут состоять из множества отказов в разных городах, это не будет такой проблемой.
— Каждую перепись сопровождают новости о том, что часть переписываемых объявила себя джедаями по вероисповеданию или этнически причисляет себя к хоббитам. Можно ли делать из этого какие-то выводы?
— Этнический состав для очень многих задач важен, и вопросы эти в переписи присутствуют обязательно. То, что существуют люди, которые упражняются в остроумии — это шум в данных, и по сути это форма отказа от ответа. Но это не страшно, и таких ответов не так много, чтобы как-то повлиять на общую картину.
«Данные были слегка подтасованы, чтобы не показывать идеологическим врагам, сколько народа занято в военной промышленности»
— А может ли государство само фальсифицировать результаты переписи? И зачем это делается?
— Может, конечно, и периодически делает это. Я напомню вам, что когда я была молодая, нам говорили что во Второй мировой войне погибло 7 млн граждан, потом их стало 20 млн, потом их стало 40 млн, и я не знаю, сколько считают сейчас. На этом примере видно, что это политический вопрос.
Известно, например, что результаты переписи 1937 года крайне не понравились Иосифу Виссарионовичу. В результате все, кто ее проводил, были сосланы или расстреляны, а данные засекречены. После этого в 1939 году перепись была проведена повторно, и данные опять не понравились Сталину. Судьбу этих людей я не знаю, а данные опять были засекречены. После этого перепись долгое время не проводилась — во всяком случае при Сталине.
Но были и более свежие примеры. В ходе переписи 1979 года перед Росстатом была поставлена задача сократить количество занятых в военно-промышленном комплексе. Мы тогда очень интенсивно боролись за мир, и там были договоры ОСВ-1, ОСВ-2 и так далее. Тогда большая часть заключенных работала в ВПК. И вот в 1979 году им всем приписали «нулевой» возраст. Их определили в младенцев, с тем чтобы не надо было указывать сферу занятости, где они работают.
Потом в 1989 году перепись производили демократы, и всем этим «детям» приписали возраст 10 лет, чтобы не объяснять такую массовую детскую смертность. Я наткнулась на этот артефакт, когда всей этой публике было уже за 30. Сейчас, я думаю, они уже подошли к пенсионному возрасту.
— А как это обнаружилось?
— Я наткнулась на эту историю, когда мы проводили исследование людей призывного возраста. Мы обратили внимание, что в возрасте 30 с небольшим лет в небольших пунктах, хаотично разбросанных по стране, мужчин больше, чем женщин — чего в принципе в этом возрасте быть не может. Я стала разбираться, и выяснила, что данные были слегка подтасованы, чтобы не показывать нашим идеологическим врагам, сколько народа у нас занято в военной промышленности.
— Есть мнение, что даже если государство показывает какую-то благостную статистику гражданам, настоящие цифры оно где-то для себя придерживает, чтобы знать реальную картину. Возможно ли это?
— Нет, это слишком сложно. Например, когда приписывали «нулевой» возраст, нигде не сохранилось никакой информации о том, какой возраст у людей был на самом деле. Документов никаких не сохранилось; люди, которые этим занимались, были уже на почетном отдыхе, и восстановить эти данные не представлялось возможным. Я не верю в историю с двойной бухгалтерией.
— То есть если государство решит пожертвовать данными в угоду идеологии, потом оно не сможет передумать?
— Да, оно будет опираться на те данные, которые есть. История про надежность данных — это очень важная история. Вообще ругать перепись — большого ума не надо. Это очень сложная процедура — переписать население такой страны. И конечно же, там будут ошибки — и умышленные, и неумышленные. И всегда есть за что перепись обругать. Перепись провести трудно, и об этом знают все, кто работает с данными.
Другое дело, что, кроме переписи, другого источника много какой информации просто нет. В этом смысле каким-то способом контроля была так называемая «ведомственная статистика», потому что каждое министерство собирало параллельно свою статистику. В этом смысле полет фантазии чиновников был ограничен тем, что в ведомствах интересы более узкие, и они заинтересованы в надежной информации. Это ограничивало возможности Росстата фальсифицировать данные: когда есть инструмент контроля, сильно не разгуляешься. Это, конечно, дублирование функций и дополнительные расходы, но в целом для общества очень полезно за счет функции взаимного контроля.
Сейчас были разговоры о том, что для того, чтобы оптимизировать процесс сбора информации, ведомствам свои данные собирать будет запрещено. Не знаю, какое в итоге решение было принято, но это, конечно, создает почву для того, что данные можно будет искажать уже бесконтрольно.
Дмитрий Комаров