Закон Бенфорда

Зако́н Бе́нфорда, или закон первой цифры — закон, описывающий вероятность появления определённой первой значащей цифры в распределениях величин, взятых из реальной жизни.

Закон верен для многих таких распределений, но не для всех. Также делает ряд предсказаний частоты встречаемости второй и третьей цифры.

Закон, обнаруженный Фрэнком Бенфордом, выглядит так: если у нас основание системы счисления b (b > 2), то для цифры d (d ∈ {1, …, b − 1}) вероятность быть первой значащей цифрой составляет

P(d)=\log _{b}(d+1)-\log _{b}(d)=\log _{b}\left(1+{\frac {1}{d}}\right).

Это в точности расстояние между d и d+1 на логарифмической шкале с основанием b.

Для равномерного распределения, если вы имеете цифры 1, 2, 3, 4 ,5 ,6 ,7, 8, 9, 0 (=10), то у вас есть 10 отрезков (от 0 до 1,…, от 8 до 9, от 9 до 10). Обратите внимание, все отрезки лежат в диапазоне [0, 10]. Для отрезка [d, d+1] равномерное распределение должно быть пропорционально его длине, то есть длине отрезка [d, d+1], то есть (d+1)-d, поделённое на длину отрезка [0, 10], которая равна 10.

{\frac {(d+1)-d}{10-0}}={\frac {1}{10}}

.

Если логарифмы непрерывно распределены, вы должны взять логарифм числа перед тем, как рассмотреть отрезки. Для логарифмов рассматриваем отрезки от 1 до 10 (так как log₁₀0 не имеет смысла). В этом случае вы будете иметь интервалы от log₁₀1 до log₁₀2,…, от log₁₀8 до log₁₀9, от log₁₀9 до log₁₀10. Все отрезки лежат в интервале [log₁₀1, log₁₀10]=[0, 1]. Длина последнего равна 1. Итак, рассматриваем отрезок [d, d+1] на обычной шкале, в логарифмической шкале равномерное распределение будет пропорционально его длине, то есть:

{\frac {\log _{10}(d+1)-\log _{10}(d)}{1-0}}=\log _{10}(d+1)-\log _{10}(d)

.

В таблице ниже представлены найденные Бенфордом значения вероятностей первой цифры для десятичной системы счисления.

d	1	2	3	4	5	6	7	8	9
p	30,1 %	17,6 %	12,5 %	9,7 %	7,9 %	6,7 %	5,8 %	5,1 %	4,6 %

При этом распределение зависит только от системы счисления, но не от единицы измерения. Другими словами, если тонны перевести в фунты, а квадратные километры — в акры, распределение не изменится.

История[править | править код]

Впервые проявление этого закона заметил американский астроном Саймон Ньюком в 1881 году. Он обнаружил, что книги, содержащие логарифмические таблицы, истрёпаны там, где содержатся логарифмы чисел, начинающихся с единицы, и целы для чисел, начинающихся на 9.

Это явление было повторно обнаружено физиком Фрэнком Бенфордом в 1938 году. Бенфорд проанализировал около 20 таблиц, среди которых были данные о площади бассейна 335 рек, удельной теплоёмкости и молекулярном весе тысяч химических соединений и, в том числе, номера домов первых 342 улиц, указанных в справочнике. Анализ чисел показал, что единица является первой значащей цифрой с вероятностью не 1/9, как следовало ожидать, а около 1/3.

Впоследствии закон Бенфорда получил своё объяснение — он применим ко множествам чисел, которые могут расти экспоненциально (другими словами, темп роста величины пропорционален её текущему значению, ${\dot {x}}\sim x$ ). Например, в их число входят счета за электричество, остатки товаров на складах, цены на акции, численность населения, смертность, длины рек, площади стран, высоты самых высоких сооружений в мире.

Ограничения[править | править код]

Закон обычно не действует для распределений с заданными минимальными или максимальными значениями (список компаний с доходом от 50000 до 100000 долларов). Также не подходят распределения, охватывающие только один или два порядка величин (IQ взрослых). Закон Бенфорда не применим ко множеству букв (рис.). Объём данных должен быть достаточен для применения статистических методов.

Объяснения[править | править код]

Закон Бенфорда может быть объяснён разными путями.

Результат процесса с экспоненциальным ростом[править | править код]

Точная форма Закона Бенфорда может быть объяснена если предположить, что равномерно распределены логарифмы чисел; к примеру, вероятность нахождения числа между 100 и 1000 (логарифм между 2 и 3) является такой же, как и между 10 000 и 100 000 (логарифм между 4 и 5). Для многих множеств чисел, особенно имеющих экспоненциальный рост, таких как доходы или цены на бирже, это разумное предположение.

К примеру, если количество увеличивается непрерывно и удваивается каждый год, тогда оно будет в два раза больше начального значения через год, в четыре раза больше начального значения через два года, в восемь раз больше начального значения через три года, и т. д. Когда это количество достигает значения 100, оно будет иметь значащую цифру 1 на протяжении года, достигая 200 в конце первого года. В течение следующего года значение возрастёт с 200 до 400; значащая цифра будет 2 (значение будет от 200 до 300) для немногим более семи месяцев (напоминаю, мы имеем дело с экспоненциальным ростом, то есть с 200 до 300 функция растёт «медленнее», чем с 300 до 400) и 3 для оставшихся пяти месяцев. На третий год значащая цифра пройдёт значения 4, 5, 6, и 7 проводя всё меньше времени, чтобы достичь следующей цифры, достигая 800 к концу того года. В начале четвёртого года, значащая цифра пройдёт от 8 до 9. Значащая цифра станет опять 1, когда значение достигнет 1000 и всё начнётся сначала, понадобится год, чтобы удвоить значение от 1000 до 2000. Этот пример демонстрирует, что таблицы данных, которые включают измерения экспоненциально растущих величин, будут согласовываться с законом Бенфорда. Однако этот закон выполняется также для многих случаев, когда экспоненциальный рост не очевиден.

Масштабная инвариантность[править | править код]

Этот закон может быть альтернативно объяснён тем фактом, что если действительно верно, что первая цифра имеет особое распределение, то оно должно не зависеть от величин, в которых оно измеряется. Это значит, что при переводе, к примеру, футов в ярды (умножение на константу), распределение должно остаться неизменным — это масштабная инвариантность, и единственное непрерывное распределение, которое выполняет это требование — то, в котором логарифм равномерно распределён.

К примеру, первая (не нулевая) цифра длины или расстояния объекта должна иметь такое же распределение независимо от того проводится ли измерение в футах, ярдах или чём-то другом. Но в ярде есть три фута, поэтому вероятность, что первая цифра длины в ярдах будет 1, должна быть такой же, как вероятность, что первая цифра длины в футах 3, 4 или 5. Применяя это ко всем возможным шкалам измерений даёт логарифмическое распределение, и учитывая что log₁₀(1) = 0 и log₁₀(10) = 1 даёт закон Бенфорда. То есть если есть распределение первой цифры, которое не зависит от единиц измерения, единственным распределением первой цифры может быть то, которое подчиняется закону Бенфорда.

Многократные распределения вероятности[править | править код]

Для чисел, взятых из определённого распределения, к примеру, значений IQ, ростов людей или других переменных, подчиняющихся нормальному распределению, закон не выполняется. Однако, если «перемешать» числа из множества подобных распределений, к примеру, взяв числа из газетных статей, закон Бенфорда снова проявится. Это также может быть доказано математически: если неоднократно «случайно» выбирать распределение вероятностей и потом случайно выбрать число согласно этому распределению, получившийся список будет подчиняться закону Бенфорда^[1]^[2]^[3].

Примеры[править | править код]

В списке высот 58 высочайших строений мира в своей категории (по состоянию на сентябрь 2010) цифра «1» стоит на первой позиции намного чаще, чем цифра «9», независимо от единицы измерения:

Первая цифра	Метры		Футы
Первая цифра	Количество	%	Количество	%
1	27	47,4 %	13	22,8 %
2	8	14,0 %	8	14,0 %
3	7	12,3 %	8	14,0 %
4	5	8,8 %	3	5,3 %
5	2	3,5 %	14	24,6 %
6	3	5,3 %	5	8,8 %
7	2	3,5 %	3	5,3 %
8	3	5,3 %	1	1,8 %
9	0	0,0 %	2	3,5 %

Применение[править | править код]

Проверка распределения данных по закону Бенфорда используется для выявления злонамеренных манипуляций с данными, в том числе для выявления:

подлогов в финансовых документах^[4];
фальсификаций на выборах^[5].

Примечания[править | править код]

↑ Theodore P. Hill. The First Digit Phenomenon. A century-old observation about an unexpected pattern in many numerical tables applies to the stock market, census statistics and accounting data. (англ.) 358—363. American Scientist 86.4 (1998). Дата обращения: 24 сентября 2016. Архивировано из оригинала 24 сентября 2016 года.
↑ Theodore P. Hill. The Significant-Digit Phenomenon (англ.) 322—327. The American Mathematical Monthly 102.4 (1995): 322-327. (апрель 1995). Дата обращения: 24 сентября 2016. Архивировано 24 сентября 2016 года.
↑ Theodore P. Hill. A Statistical Derivation of the Significant-Digit Law (англ.). Statistical Science, 1995, Vol.10, No. 4, 354-363 (1995). Дата обращения: 24 сентября 2016. Архивировано 14 марта 2016 года.
↑ I've Got Your Number. How a mathematical phenomenon can help CPAs uncover fraud and other irregulaities. (англ.). Journal of Accountancy (1999). — примеры применения закона Бенфорда. Архивировано 1 июля 2012 года.
↑ «Election fraud. How to steal an election» Архивная копия от 14 мая 2012 на Wayback Machine / The Economist, Mar 3rd 2012 (англ.)

Ссылки[править | править код]

Weisstein, Eric W. Benford's Law (англ.) на сайте Wolfram MathWorld.
Арнольд, Владимир Игоревич. Статистика первых цифр степеней двойки и передел мира. (неопр.) Квант №1 (1998).
TESTING BENFORD’S LAW: Dataset «2011 Russian Parlimentary Elections Results: Votes for United Russia» — Проверка закона на голосах, поданных за Единую Россию на выборах в думу 2011 года
Benford’s Law and Zipf’s Law / The Quark and the Jaguar, by Murray Gell-Mann, Freeman & Co, 1994 (англ.)
Benford’s Law / MathPages (англ.)
Edwin Cartlidge, In nature, number one dominates, Oct 20, 2010
Единица оказалась самой частой цифрой в научных данных

[1] Theodore P. Hill. The First Digit Phenomenon. A century-old observation about an unexpected pattern in many numerical tables applies to the stock market, census statistics and accounting data. (англ.) 358—363. American Scientist 86.4 (1998). Дата обращения: 24 сентября 2016. Архивировано из оригинала 24 сентября 2016 года.

[2] Theodore P. Hill. The Significant-Digit Phenomenon (англ.) 322—327. The American Mathematical Monthly 102.4 (1995): 322-327. (апрель 1995). Дата обращения: 24 сентября 2016. Архивировано 24 сентября 2016 года.

[3] Theodore P. Hill. A Statistical Derivation of the Significant-Digit Law (англ.). Statistical Science, 1995, Vol.10, No. 4, 354-363 (1995). Дата обращения: 24 сентября 2016. Архивировано 14 марта 2016 года.

[4] I've Got Your Number. How a mathematical phenomenon can help CPAs uncover fraud and other irregulaities. (англ.). Journal of Accountancy (1999). — примеры применения закона Бенфорда. Архивировано 1 июля 2012 года.

[5] «Election fraud. How to steal an election» Архивная копия от 14 мая 2012 на Wayback Machine / The Economist, Mar 3rd 2012 (англ.)

[1]

[2]

[3]

[4]

[5]

Закон Бенфорда

Содержание

История[править | править код]

Ограничения[править | править код]

Объяснения[править | править код]

Результат процесса с экспоненциальным ростом[править | править код]

Масштабная инвариантность[править | править код]

Многократные распределения вероятности[править | править код]

Примеры[править | править код]

Применение[править | править код]

Примечания[править | править код]

Ссылки[править | править код]

Навигация

Закон Бенфорда

История[править | править код]

Ограничения[править | править код]

Объяснения[править | править код]

Результат процесса с экспоненциальным ростом[править | править код]

Масштабная инвариантность[править | править код]

Многократные распределения вероятности[править | править код]

Примеры[править | править код]

Применение[править | править код]

Примечания[править | править код]

Ссылки[править | править код]

Навигация

Поиск