فيديو: قانون بنفورد

نتعرف في هذا الفيديو على معلومة تبدو مفاجئة للوهلة الأولى، وهي أن كثيرًا من مجموعات البيانات تكون الأعداد المتضمنة فيها التي يكون الرقم الأول فيها هو واحد أكثر من الأعداد االتي يكون الرقم الأول فيها أي من القيم الأخرى المحتملة. ولنفكر معًا في سبب ذلك.‎‎

١١:١٧

‏نسخة الفيديو النصية

نطلع في هذا الفيديو على طريقة بارعة يمكن من خلالها للمحاسبين الجنائيين اكتشاف حالات الغش. سبق أن استخدمت هذه الطريقة للكشف عن حالات التدليس في المصروفات والأبحاث المزيفة والحسابات المزورة. ونتيجة لذلك واجه أشخاص إدانات جنائية. لكن لا يزال الكثير من الناس لا يعرفون ما هو.

قبل أن نتحدث عن الموضوع الأساسي، سنعود إلى فترة زمنية لم يكن لدى الناس حينها آلات حاسبة أو حواسيب لإجراء الحسابات المعقدة. بيد أنه كان لديهم بعض الأساليب التي تسهل عليهم الأمر.

فمثلًا حينما كانوا يريدون ضرب عددين كبيرين معًا، فإنهم بدلًا من إجراء عملية ضرب طويلة وضخمة، كانوا يبحثون عن لوغاريتمي العددين في كتاب يحتوي على جداول اللوغاريتمات، ويجمعونهما معًا، ثم يحولون الإجابة ثانية إلى عدد عادي باستخدام جداول اللوغاريتمات المقابلة. كانوا أيضًا يجرون عمليات القسمة عن طريق طرح اللوغاريتمات. وقد وفر ذلك الكثير من الوقت خلال عمليات الضرب الطويلة.

قصة اللوغاريتمات وكيفية عملها مثيرة جدًا بالفعل. قبل 400 عام، قضى رجل يدعى جون نيبير 20 عامًا في إعداد جدول ضخم يحتوي على القيم اللوغاريتمية للأعداد الصحيحة حتى 10 ملايين، باستخدام الأساس واحد ناقص 10 أس سالب سبعة، لتسهيل عملياته الحسابية. ثم تولى صديقه هنري بريجز تحويل القيم كلها إلى لوغاريتمات للأساس 10، ما سهل على الجميع استخدام الجداول لإجراء حساباتهم.

وفي عام 1881، كان أحد علماء الفلك الأمريكيين واسمه سايمون نيوكم يستخدم جداول اللوغاريتمات لإجراء الكثير من العمليات الحسابية. ولاحظ أن الصفحات الأولى، التي كانت تحتوي على لوغاريتمات لقيم تبدأ بواحد واثنين، كانت أكثر اهتراء من كثرة الاستخدام مقارنة بالصفحات الأخرى. فبحث في الأمر ونشر ورقة بحثية حول احتمالية أن تتخذ الأرقام الأولى قيمًا محددة. وفي وقت لاحق من مساره المهني، رأى أن علماء الفلك قد اقتربوا من مرحلة اكتشاف كل شيء فيما يتعلق بسماء الليل. وكان مخطئًا تمامًا. لكنه كان محقًا في أمر التوزيع غير المتساوي للأرقام الأولى.

وبعد مرور ما يقرب من 60 عامًا، لاحظ أحد الفيزيائيين ويدعى فرانك بنفورد، وبصورة مستقلة، التوزيع غير المنتظم للأرقام الأولى في نطاق كامل من مجموعات البيانات المستقاة من التعدادات السكانية في البلدات وقيم الثوابت الفيزيائية والأعداد الإحصائية المستخدمة في المقالات الإخبارية ومساحات أسطح الأنهار وغير ذلك. بحلول هذا الوقت كان العالم مهيأ لتقبل تلك الظاهرة. وأصبحت هذه الظاهرة تعرف باسم قانون بنفورد، رغم أنه أطلق عليها اسم قانون الأعداد الشاذة. في حقيقة الأمر، لم يكن بنفورد أول من اكتشفها.

فكثيرًا ما يحدث أن تسمى قوانين بأسماء أشخاص غير أولئك الذين اكتشفوها أولًا. وعندما تحريت عن الأمر لإعداد هذا الفيديو، وجدت أن هذه الظاهرة تعرف باسم قانون ستيجلر للتسميات. ومن العجيب أنه عندما طرح ستيفن ستيجلر قانون التسميات هذا، أوضح أن هذه الظاهرة كان قد سبقه في الإشارة إليها شخص آخر يدعى روبرت ميرتون.

سيروق لكم كثيرًا أن تعرفوا أن كثيرين الآن يطلقون على قانون بنفورد اسم «قانون نيوكم-بنفورد»، في محاولة لإعطاء المكتشف الأصلي ما يستحق من التقدير. لكن الأمر يتمحور في أساسه حول التوزيع التكراري للأرقام الأولى — أو الأهم — في أنواع محددة من البيانات التي تشبه كثيرًا هذه البيانات.

هذا معناه أن الواحد هو الرقم الأول في 30 بالمائة تقريبًا من الحالات، بينما تسعة هو الرقم الأول في أربعة أو خمسة بالمائة فقط من الحالات. قد يبدو ذلك مدهشًا للوهلة الأولى. فقد نتوقع أن احتمالية وجود جميع الأرقام متساوية. ومن ثم فإن الأعداد التي تبدأ بواحد أو اثنين أو ثلاثة أو أربعة أو خمسة أو ستة أو سبعة أو ثمانية أو تسعة تتساوى جميعًا في انتشارها، باحتمالية التسع، أي نحو 11 بالمائة.

تحدثنا إذن عن اللوغاريتمات لنشرح كيف اكتشف نيوكم هذا التأثير أول مرة. إلا أن الصيغة المستخدمة للوصول إلى الاحتمالية المتوقعة لكل رقم أول محتمل تتضمن في الواقع لوغاريتمات أيضًا. واحتمالية أن يكون الرقم الأول هو 𝑥 تساوي log واحد زائد واحد على 𝑥 للأساس 10. لذا فالتوزيع الذي نحصل عليه من هذا مختلف تمامًا عن التوزيع المنتظم الذي كنا سنحصل عليه في حال تساوي احتمالية أن يكون الرقم الأول واحدًا أو اثنين أو ثلاثة أو أربعة أو خمسة أو ستة أو سبعة أو ثمانية أو تسعة.

لكن إذا ما فكرنا في الأمر قليلًا، فسندرك أن هذا القانون يتناسب فقط مع أنواع محددة من توزيعات الأعداد. فمثلًا، إذا حسبنا أطوال البالغين بالمتر، فيتوقع أن أكثر من 30 بالمائة منها سيبدأ بالرقم واحد. وإذا حسبنا هذه الأطوال نفسها بوحدة الأقدام، ففي الغالب لن يبدأ أي منها بالرقم واحد.

وإذا اقتصرنا على النظر إلى الأعداد المستخدمة في العد بين واحد و90 فقط، فسنجد أن نحو 12 بالمائة منها يبدأ بواحد، و12 بالمائة يبدأ باثنين، إلخ. لكن اثنين منها فقط — نحو اثنين بالمائة — يبدآن بتسعة. توزيع الأرقام الأولى منتظم، عدا التسعات. ولا ينطبق هنا. ففي المجموعات المختلفة للأعداد، يبدو واضحًا أن أعدادًا أقل ستبدأ بالأرقام الأكبر.

وأفضل ما ينطبق عليه القانون هو الأعداد التي تغطي مجموعة من المقادير الأسية، أي القوى الأسية لـ 10، ما يعني الآحاد والعشرات والمئات والآلاف، إلخ، ولا تحكمها أي قيود بشرية. فمثلًا، أرقام الهواتف جميعها بالطول نفسه، وتبدأ بأكواد معينة تخص المناطق. وأرقام البطاقات البنكية جميعها يتضمن معرف الصناعة في الخانة الأولى، كجزء من رقم التعريف البنكي. لذا لا نتوقع أن يكون القانون قابلًا للتطبيق عندما تكون الأرقام الأولى مقيدة بمثل هذه القواعد التي يحددها البشر.

لكننا حين ننظر إلى التعدادات السكانية للبلدان أو مساحات الولايات أو أسعار المنازل أو حتى مجموعة من الأعداد الإحصائية المختارة عشوائيًا من مقالات منشورة في إحدى الصحف، فهي على الأرجح مأخوذة من بين مجموعة من المقادير الأسية، وبالتالي فستتبع في الغالب قانون بنفورد.

بالاستعانة بالقانون، يمكنكم التأكد من صحة البيانات التي جمعتموها. على سبيل المثال، إذا أجرينا تحليلًا لجميع النفقات المدعى تكبدها والمطلوبة من منظمة ضخمة، مع تباين حجم النفقات من مبالغ صغيرة جدًا إلى عدة آلاف من الدولارات، فسنتوقع شيئًا من قبيل التكرار للأرقام الأولى بقانون بنفورد. وإذا وجدت شيئًا مختلفًا تمامًا، فربما يكون أحدهم قد دس مطالبات زائفة باستخدام توزيع أكثر انتظامًا لأرقام الخانات الأولى. وربما يكون هناك سبب آخر، مثل وجود قواعد معينة متعلقة بالنفقات التي يمكن للناس المطالبة باسترجاعها، أو قيود على قيمة النفقات، أو حتى خطأ في برنامج المحاسبة المستخدم. لكنها بمنزلة إشارة إنذار مفيدة جدًا لما هو غير متوقع.

بعض المتتابعات الرياضية للأعداد أيضًا تتبع قانون بنفورد. فإذا كتبت جميع القوى الأسية الصحيحة لاثنين وصولًا إلى أي عدد كبير، مائة مثلًا أو مليون أو مليار أو غير ذلك، فسترى أن الأرقام الأولى لها توزيع تكراري مشابه لذلك الذي يقترحه. والأمر نفسه يحدث مع أعداد فيبوناتشي ومضروبات الأعداد. يدفعنا هذا للتفكير في السبب وراء انطباق قانون بنفورد.

بالنسبة إلى المتتابعات المصاغة رياضيًا، قد يكون من السهل جدًا أن نرى ما يحدث، خاصة عندما يكون لدينا متتابعات أسية مثل القوى الأسية لاثنين. وفي حالة القوى الأسية الصحيحة لاثنين، يكون كل حد في المتتابعة ضعف الحد السابق له. وإذا وضعنا القيم على مقياس لوغاريتمي، حيث الفراغات المتساوية تشير إلى كميات تتزايد أسيًا مع تحركك على طول المحور، فيمكننا رؤية أنه من الأرجح أن يكون الرقم الأول هو واحدًا.

على مقياسنا اللوغاريتمي، نرى أن الفراغ بين واحد واثنين أكبر بكثير من الفراغ بين اثنين وثلاثة، الذي هو أكبر من الفراغ بين ثلاثة وأربعة، وهكذا.

فإذا وضعنا على المقياس القيم الأسية لاثنين وهي اثنان وأربعة وثمانية و16، وهكذا، فيمكننا أن نلاحظ كيف أن الخطوات بين الأعداد المتتالية، اثنين لأربعة، وأربعة لثمانية، وثمانية لـ 16، متساوية المسافات. وذلك بسبب هذا المقياس اللوغاريتمي. إذن فنحن ننتقل عبر هذا المقياس بخطوات متساوية المقدار. والمساحات الأكبر ترتبط بحالات يكون فيها الرقم الأول مساويًا لواحد. والمساحات الأصغر فالأصغر تمثل الأعداد التي تبدأ باثنين وثلاثة وأربعة، وهكذا. وإذ نحصيهم معًا، يبدأ عدد أكبر من القوى الأسية لاثنين بالرقم واحد. وسيقع عدد أكبر منها في هذه المناطق.

والآن دعونا ننظر إلى إحصائيات أخرى موجودة في الواقع، مثل التعدادات السكانية للبلدات، ولماذا قد ينطبق عليها. نعد الأشخاص لنحصل على التعداد السكاني. فلنبدأ ببعض البلدات الصغيرة جدًا. بالطبع نحتاج شخصًا واحدًا على الأقل لتكوين بلدة صغيرة. وإذا كانت أكبر بلدة لدينا تعداد سكانها واحدًا، فإن 100 بالمائة من البلدات سيكون الرقم الأول في تعداد سكانها واحدًا. وصفر بالمائة سيكون الرقم الأول فيها اثنين وثلاثة وأربعة، إلخ، حتى تسعة.

وإذا كان أكبر تعداد سكاني للبلدة هو اثنين، فإنه على أساس توزيع عشوائي، سيكون الرقم الأول في 50 بالمائة من التعدادات السكانية هو واحدًا، وفي 50 بالمائة سيكون الرقم الأول هو اثنين. لدينا خياران. ومرة أخرى نقول إنه لن يكون هناك رقم أول أعلى من ذلك. مع زيادة الحجم الأقصى للبلدة حتى تسعة، فإن نسبة البلدات التي قد نتوقع أن يكون الرقم الأول في تعدادها هو الواحد ستنخفض إلى التسع، أي نحو 11 بالمائة.

فلننظر الآن إلى البلدات ذات التعداد السكاني الذي يصل إلى 10 أشخاص. البلدات التي تحتوي على شخص واحد أو 10 أشخاص يكون الرقم الأول من تعداد سكانها هو الواحد. فالآن أصبح الرقم الأول في اثنين من بين الـ 10 اختيارات هو الواحد. ثم بإضافة البلدات التي تحتوي على 11 و12 و13، إلخ، وحتى 19 شخصًا، تزداد نسبة التعدادات السكانية المحتملة للبلدات التي تبدأ بواحد، لتصل إلى 58 بالمائة. إذا كانت البلدات تتضمن تعدادات سكانية عشوائية، بين واحد و19، فهناك 11 طريقة للوصول إلى تعداد يكون الرقم الأول فيه هو الواحد، من بين 19 احتمالية مختلفة.

لننظر إذن إلى البلدات ذات التعداد السكاني الذي يصل إلى 99 شخصًا. ستنخفض نسبة البلدات ذات التعداد السكاني الذي يكون الرقم الأول فيه هو الواحد، لتصل إلى 11 من أصل 99. ذلك يزيد قليلًا على 11 بالمائة.

ومع متابعة عملنا فيما يتصل بالتعدادات السكانية المحتملة حتى 100، ثم 101، إلخ، وصولًا إلى 199، تزيد تدريجيًا نسبة التعدادات السكانية المحتملة التي يكون الرقم الأول فيها واحدًا، إلى أن ترى أن هناك 111 طريقة من أصل 199 ليكون الرقم الأول هو الواحد في الأعداد حتى 199. وذلك يساوي نحو 56 بالمائة.

إذا وضعنا هذه النسب على رسم بياني خطي، فيمكننا رؤية أن هذا النمط يستمر بينما نتابع زيادة الحجم المحتمل للبلدة. وفي كل مرة ندخل فيها المقدار الأسي التالي للتعدادات السكانية المحتملة، تزداد بسرعة نسبة احتمالات أن يكون الرقم الأول واحدًا إلى أن تصل إلى نحو 50 بالمائة، ثم تنخفض ببطء حتى تصل إلى 11 بالمائة، بينما ندخل عددًا أكبر من التعدادات السكانية المحتملة وصولًا إلى المقدار الأسي التالي.

إذا كان كل من هذه التعدادات السكانية القصوى — نظريًا — مرجحًا بالتساوي، فإن النسبة المتوقعة من التعدادات السكانية للبلدات التي تبدأ بالرقم واحد تتراوح في المتوسط بين 11 بالمائة تقريبًا وما يزيد قليلًا على 50 بالمائة. ويتضح أنها نحو 30 بالمائة.

إذا كانت البيانات التي ندرسها موزعة عشوائيًا بصورة منتظمة في نطاق يتراوح من واحد إلى 9999، فمن المتوقع أن نحو 11 بالمائة من الأعداد تبدأ بالرقم واحد. لكن إذا كانت البيانات موزعة عشوائيًا بصورة منتظمة في نطاق من واحد إلى 19999، فمن المتوقع أن نحو 56 بالمائة من الأعداد تبدأ بالرقم واحد. وحيث إن كلتا الحالتين مرجحتان بالتساوي بالنسبة إلى مجموعات شتى من مختلف البيانات، فلا عجب أن نجد الواحد هو الرقم الأول في نحو 30 بالمائة في المتوسط من الأعداد الواردة في الصحف والحسابات والإحصائيات العامة.

إذن ليس في واقع الأمر قانونًا غامضًا للأعداد الشاذة ينص على أن الآحاد تظهر أكثر بكثير مما نعتقد. إنما هو بمنزلة ملاحظة بسيطة فقط لظاهرة مفادها أنه بناء على الموضع الذي تبدأ منه العد والذي تتوقف عنده، ستبدأ نسبة تزيد أو تقل من الأعداد بالرقم واحد.

والحالات التي يتعطل فيها هي تلك التي نقترب فيها من أي من النهايتين المتطرفتين. فإذا كانت القيمة القصوى المحتملة للبيانات تقع تمامًا عند طرف مقدار أسي ما، فليس مستغربًا أن ترى 11 بالمائة فقط من الأعداد لديك تبدأ بواحد. لكن في حال كانت القيمة القصوى المحتملة أعلى بنحو 10 بالمائة من ذلك، فإن أكثر من 50 بالمائة من الأعداد لديك قد تبدأ بواحد.

إذن يشير إلى أن أعدادًا أكثر تعبر عن ملاحظات إحصائية عادة ما تبدأ بأرقام أقل بدلًا من أن تبدأ بأرقام أعلى. ويمكن لذلك أن يساعدنا في اكتشاف من يحاولون التلاعب بالحسابات أو تزييف البيانات. وعند استخدامه بحكمة، يمكنه أن يساعدنا في التحقق من صحة البيانات والتأكد منها، وأن يمثل أداة علمية مفيدة حقًا.

تستخدم نجوى ملفات تعريف الارتباط لضمان حصولك على أفضل تجربة على موقعنا. معرفة المزيد حول سياسة الخصوصية لدينا.