فيديو: مقدمة عن الارتباط الخطي

يناقش هذا الفيديو كيفية استخدام مخططات الانتشار للتعبير عن الارتباط الخطي. وسنتناول الارتباط الموجب (الطردي) والسالب (العكسي)، والارتباط القوي أو الضعيف. سنتعرف أيضًا على فكرة استخدام معامل الارتباط بين −١ و+١ لقياس الارتباط الخطي.

١٨:٤٦

‏نسخة الفيديو النصية

في هذا الفيديو، سوف نتعرف على الارتباط الخطي. ثمة حالات يكون لدينا فيها مجموعتان من البيانات المتعلقة بأفراد أو أحداث، ونسميها بيانات ثنائية المتغير. على سبيل المثال، درجات الطلاب في اختباري الرياضيات واللغة الإنجليزية. أجرى كل طالب الاختبارين. وعليه، أصبحت لدينا مجموعتان من الأعداد تتعلقان بكل طالب على حدة.

يمكننا استخدام إحدى المجموعتين لإحداثيات ﺱ، والأخرى لإحداثيات ﺹ، ثم نرسم جميع البيانات كنقاط على مخطط الانتشار. بعد ذلك، يمكننا فحص أي نمط قد يظهر على مخطط الانتشار لنرى ما إذا كان يشير إلى أي ارتباط بين مجموعتي البيانات. أحد أنواع الأنماط التي يمكن أن تظهر هي علاقة الخط المستقيم. ويفيدنا هذا في إجراء التحليل العلمي والإحصائي؛ حيث تم استحداث طرق لقياس الارتباط الخطي بين مجموعتي بيانات مرتبطتين وتفسيره. حسنًا، سنتحدث عن الارتباط الخطي والمصطلحات التي نستخدمها لوصفه.

هيا نبدأ بوصف تجربة أجريها مع طلاب الرياضيات. أعطيت كل طالب دائرة مختلفة القياس، وطلبت منهم قياس القطر والمحيط، ثم جمعت كل النتائج. قد يبدو هذا سهلًا، لكن، يتعين على الطلاب استخدام مساطر مستقيمة فقط عند القياس. لذا، عليهم أن يبدعوا في طريقة قياس المحيط، كما أنني لن أسمح لهم بحسابه إذا كانوا على دراية بـ ‪𝜋‬‏ وصيغة حساب المحيط.

حسنًا، لدينا معطيان عن كل دائرة، وسنجعل الأقطار هي إحداثيات ﺱ وقيم المحيط هي إحداثيات ﺹ ثم سنرسم كل هذه النقاط على مخطط انتشار.

هذه هي البيانات التي جمعتها من فصل واحد، وهذا هو مخطط الانتشار. أول ما يلفت النظر هنا هو هذه النقطة التي تبدو مختلفة تمامًا عن جميع النقاط الأخرى. معظم النقاط تكاد تكون خطًا مستقيمًا ممتدًا بهذا الشكل، أما هذه النقطة، فتبعد مسافة طويلة عن المجموعة. في الواقع، اتضح أن السبب في هذا أن الطالب قد عكس قراءتي قطر الدائرة ومحيطها. لذا، تمكنا من تبديل إحداثيي ﺱ وﺹ لتصحيحهما. لكن، إذا لم يكن الطالب الذي ارتكب الخطأ حاضرًا لشرح ما فعله، فسيكون من الصعب اتخاذ قرار بشأن هذه النقطة. لماذا تبعد هذه النقطة عن النقاط الأخرى؟ هل لأن الدائرة كانت مختلفة كليًا عن كل الدوائر الأخرى، أم أن هناك خطأ ما؟ يتعين علينا ألا نستبعد البيانات لمجرد أنها تبدو مختلفة. علينا معرفة المزيد عنها: هل هي حقيقية أم أن هناك خطأ ما؟ إذا كانت حقيقية، فعليك أن تأخذها بعين الاعتبار في تحليلك.

بعد تصحيح الخطأ، سيبدو مخطط الانتشار بهذا الشكل وبخط أفضل مطابقة جديد. ويقع خط أفضل مطابقة الذي رسمناه بحيث يقلل المسافة الرأسية الكلية بين جميع النقاط والخط إلى الحد الأدنى، مثل هذه الخطوط البرتقالية هنا. ويعرف باسم «خط الانحدار باستخدام المربعات الصغرى». لكننا لن نخوض في تفاصيل كيفية حساب ذلك الآن. سنرسمه بالنظر فقط، سنجرب استخدام المسطرة في عدة مواضع مختلفة حتى نتمكن من إيجاد أقرب مسار ممكن إلى أكبر عدد ممكن من النقاط؛ بحيث يكون هناك توازن مناسب بين النقاط الواقعة فوق الخط وتحته على امتداده بالكامل.

لدينا نقاط بالأعلى والأسفل هنا، ولدينا نقاط بالأعلى والأسفل هنا أيضًا، وكذلك لدينا نقاط بالأعلى والأسفل هنا في المنتصف.

والآن يمكننا استخدام خط أفضل مطابقة لوضع توقعات. على سبيل المثال، إذا كانت لدينا دائرة يبلغ قطرها بوصتين، يمكننا رسم خط يمتد لأعلى حتى يصل لخط أفضل مطابقة، ويمتد أفقيًا حتى يصل إلى المحور ﺹ. يبدو أن محيطها سيكون بين ست بوصات وست بوصات ونصف.

دون الحاجة لأخذ قياسات الدائرة، إذا كنت تعرف قطر الدائرة، يمكنك استخدام هذا التمثيل البياني لتوقع محيطها. وبالمثل، إذا عرفنا المحيط، يمكننا توقع القطر. إذا كانت لدينا دائرة محيطها ٢٠ بوصة، يمكننا أن نرسم خطًا مستقيمًا يمتد أفقيًا من المحور ﺹ إلى خط أفضل مطابقة، ثم يمتد رأسيًا لأسفل إلى المحور ﺱ. يبدو أن قطر الدائرة يساوي ٦٫٥ بوصات تقريبًا.

يمكننا أيضًا حساب معادلة خط أفضل مطابقة واستخدامها في وضع التوقعات. لذا، على سبيل المثال، نفترض أن لدينا دائرة قطرها ثلاث بوصات؛ أي إن ﺱ يساوي ثلاثة. يمكننا التعويض بذلك في المعادلة، لنحصل على الناتج ٩٫٤ بوصات لمحيط الدائرة، وهذه الطريقة أسهل وربما أكثر دقة من القراءة باستخدام هذا المقياس.

بالنظر إلى المعادلة، يمكننا ملاحظة أن الميل أو الانحدار يساوي موجب ٣٫١. ولأن نمط النقاط يكون رسمًا يشبه الخط المستقيم، ولأن ميل هذا الخط موجب كما رأينا، فإننا نقول إن ثمة ارتباطًا موجبًا بين النقاط، أو إذا أردنا أن نكون أكثر دقة، فسنقول إن ثمة ارتباطًا خطيًا موجبًا بين النقاط. ولو أشارت النقاط إلى وجود خط له ميل سالب، لقلنا عندئذ إن هناك ارتباطًا سالبًا. إذن، مصطلحا الارتباط الموجب والسالب يعبران عن البيانات الثنائية المتغير.

إذا كانت القيم الكبرى في إحدى مجموعتي البيانات مرتبطة بالقيم الكبرى في المجموعة الأخرى، وكانت القيم الصغرى في إحدى مجموعتي البيانات مرتبطة بالقيم الصغرى في المجموعة الأخرى، فإننا نسمي هذا ارتباطًا موجبًا. إذا كانت القيم الكبرى في إحدى مجموعتي البيانات مرتبطة بالقيم الصغرى في المجموعة الأخرى، فإننا نسمي ذلك ارتباطًا سالبًا. وقد يسمي بعض الأشخاص الارتباط الموجب بالارتباط الطردي، والارتباط السالب بالارتباط العكسي. قد تصادف هذين المصطلحين أيضًا.

لكن هذا ليس كل شيء. أحيانًا لا يكون هناك ارتباط بين مجموعتي البيانات. على سبيل المثال، إذا حددت نقاطًا تمثل عدد الكعك الذي يمكن للأشخاص تناوله دون لعق شفاههم مقابل عدد الكتب التي قرءوها خلال العام الماضي، ربما تتوقع أن يكون مخطط الانتشار بهذا الشكل. إذ لا يوجد أي ترابط بين المجموعتين على الإطلاق؛ أي لا يوجد ارتباط. معرفة عدد الكتب التي قرأها شخص ما خلال العام الماضي لا يخبرنا شيئًا عن عدد الكعك المحتمل أن يأكله دون لعق شفتيه، والعكس صحيح. حسنًا، الآن أصبحت لدينا فكرة أساسية عن الارتباط، فهو طريقة لوصف العلاقات الواضحة التي تربط بين مجموعتي بيانات أو حتى توضح عدم وجود ترابط بينهما. دعونا نستعرض ملخصًا للأنواع الأساسية. لدينا هنا تمثيلات بيانية توضح ارتباطًا موجبًا أو طرديًا، وارتباطًا سالبًا أو عكسيًا، وعدم وجود ارتباط. ولكن توجد أيضًا درجات مختلفة لقوة الارتباط. إذ يكون الارتباط قويًا عندما تكون النقاط أقرب إلى خط أفضل مطابقة. ويكون الارتباط أضعف عندما تكون النقاط منتشرة عشوائيًا بعيدًا عن خط أفضل مطابقة؛ أي إنها مبعثرة بشكل أكبر.

إذن، في حالة وجود ارتباط موجب ضعيف، على سبيل المثال، تظل قيم البيانات الكبرى في إحدى مجموعتي البيانات مرتبطة بالقيم الكبرى في المجموعة الأخرى، والقيم الصغرى مرتبطة بالصغرى وهكذا. لكن الشكل سيكون مربكًا بعض الشيء؛ فلن يكون الارتباط بينهما واضحًا. وبالمثل في حالة الارتباط السالب، تظل القيم الكبرى في إحدى مجموعتي البيانات مرتبطة بالقيم الصغرى في المجموعة الأخرى. لكن هذه النقاط لا تطابق خط أفضل مطابقة بوضوح.

حسنًا، يبدو أن فكرة الارتباط القوي والضعيف تفتقر إلى الوضوح والدقة بعض الشيء. إذا رسمنا المحورين على نحو مختلف قليلًا، واستخدمنا مقياسًا آخر، يمكننا جعل الارتباط يبدو أقوى أو أضعف بجعل النقاط على مسافات أكبر أو أكثر قربًا من الخط. وهذا ليس مناسبًا في الواقع. لكن لحسن الحظ، لدينا ما يسمى بمعامل الارتباط الذي يقيس قوة الارتباط. وهو عدد يبدأ على المقياس من سالب واحد للتعبير عن الارتباط السالب التام، مرورًا بصفر للتعبير عن عدم وجود ارتباط، وحتى موجب واحد للتعبير عن الارتباط الموجب التام.

يكون الارتباط سالبًا تامًا عندما تقع جميع النقاط على خط أفضل مطابقة بالضبط. ويكون الارتباط موجبًا تامًا عندما تقع جميع النقاط أيضًا على خط أفضل مطابقة. إذن، في كلتا الحالتين، سيحقق لنا خط أفضل مطابقة توقعات دقيقة للقيم في إحدى مجموعتي البيانات بمعلومية القيم في المجموعة الأخرى.

بالرجوع إلى مهمة قياس الدائرة التي قمت بها مع الطلاب، سنجد أنها تعطينا ارتباطًا موجبًا تامًا بين قطر الدائرة ومحيطها. نحن نعلم أن هناك صيغة تصف هذه العلاقة بالضبط: المحيط يساوي ‪𝜋‬‏ في القطر. السبب الوحيد الذي لم يجعل هذه النتائج دقيقة هو أن الطلاب لم يتمكنوا من قياس الدوائر بدقة ١٠٠ بالمائة. لكننا لاحظنا وجود ارتباط موجب قوي. وكان لدينا قدر كبير من الثقة بأن توقعات قيم إحدى مجموعتي البيانات على أساس قيم المجموعة الأخرى، باستخدام خط أفضل مطابقة، ستكون موثوقة بشكل كبير لأن جميع نقاط البيانات قريبة من هذا الخط. لقد أعطانا الخط توقعًا جيدًا لنقاط البيانات التي جمعناها.

وبالرجوع إلى المقياس، نجد أن لدينا ارتباطًا قويًا إلى حد ما. من المحتمل أن يكون في هذه المنطقة، ليس واحدًا ولكنه يقترب من واحد.

في العالم الواقعي، تكون الأمور معقدة نوعًا ما. وبذلك، من غير المتوقع أن نحصل على ارتباط موجب تام أو سالب تام. سنكون دائمًا في هذه المنطقة بين واحد وسالب واحد، وسنميل إلى التفكير بهذه الطريقة: هل نحن أقرب بوجه عام إلى سالب واحد، أم أننا أقرب بشكل عام إلى صفر، أم أننا أقرب بشكل عام إلى واحد؟

حسنًا، تخبرنا قيمة معامل الارتباط بمدى دقة التوقعات التي توصلنا إليها باستخدام خط أفضل مطابقة. إذا كانت قريبة من سالب واحد أو موجب واحد، فهذا يعني أنها دقيقة إلى حد ما. أما إذا كانت أقرب إلى الصفر، فستكون غير موثوقة على الإطلاق.

دعونا نلق نظرة على مخططي الانتشار هذين. لدينا فصلان، (أ) و(ب)، وأجرى كلاهما اختباري الرياضيات واللغة الإنجليزية. واستخدمنا درجات اللغة الإنجليزية باعتبارها إحداثيات ﺱ، ودرجات الرياضيات باعتبارها إحداثيات ﺹ. حسنًا، في الفصل (أ)، لدينا هذا النمط المحدد. حصل كل طالب على ما يقارب ٥٠ درجة في اللغة الإنجليزية، لكن لدينا نطاقًا متنوعًا من الدرجات في الرياضيات. وبالنسبة للفصل (ب)، حصل كل طالب على ٥٠ درجة في الرياضيات، لكن لدينا نطاقًا متنوعًا من الدرجات في اللغة الإنجليزية.

تعطينا هذه النقاط خط أفضل مطابقة واضحًا في كل حالة. بالنسبة للفصل (أ)، سيكون خط أفضل مطابقة رأسيًا، وبالنسبة للفصل (ب)، سيكون خط أفضل مطابقة أفقيًا. ما مدى قوة الارتباط في كل من الحالتين برأيك؟ حسنًا، في الحقيقة لدينا صفر في كلتا الحالتين؛ أي لا يوجد ارتباط. وذلك لأن معرفة إحدى الدرجات لا تخبرك بأي شيء عن الدرجات الأخرى. أي إنه لا توجد إمكانية لتوقع إحدى الدرجات على أساس الدرجة الأخرى. في الفصل (أ)، إذا عرفت أن أحد الطلاب قد حصل على ٥٠ درجة في اللغة الإنجليزية، فإن ذلك لا يخبرنا بأي شيء عن الدرجة التي سيحصل عليها في الرياضيات. الأشخاص الحاصلون على ٥٠ درجة في اللغة الإنجليزية قد حصلوا على درجات في نطاق مختلف تمامًا في اختبار الرياضيات. وبالمثل في الفصل (ب)، إذا علمت أن أحدهم قد حصل على ٥٠ في الرياضيات، فلن يمكنني هذا من توقع درجته في اختبار اللغة الإنجليزية؛ لأن الأشخاص الذين حصلوا على ٥٠ في الرياضيات قد حصلوا على درجات في نطاق مختلف تمامًا في اختبار اللغة الإنجليزية.

هذا يعني أنه بالرغم من أن النقاط تشير إلى وجود خط أفضل مطابقة جيد لأنه أفقي أو رأسي تمامًا، لا يمكنك استخدام إحدى الدرجات لتوقع الدرجة الأخرى لأي طالب. أي إنه لا يوجد ارتباط بين درجتي الاختبارين. الارتباط ما هو إلا القدرة على توقع جزء من البيانات بناء على بيانات أخرى.

يتعلق الارتباط أيضًا بترابط البيانات في نطاق معين. على سبيل المثال، في يوم واحد من شهر مارس، زرعت بعض بذور دوار الشمس في حديقتي، وقمت بقياس طول النباتات يوميًا. بحلول نهاية سبتمبر، كنت قد جمعت الكثير من البيانات. وكان هناك ارتباط موجب قوي بين عدد الأيام التي مرت منذ أن زرعت البذور، وبين ارتفاع النباتات الذي بلغ حوالي ١٢ قدمًا في هذا الوقت. بتوسيع هذا النمط، توقعت بقوة أنه بحلول نهاية يناير التالي، سيصل طول النباتات إلى ٢٠ قدمًا، وتساءلت عما إذا كان ذلك رقمًا قياسيًا عالميًا. بالطبع كنت مخطئًا. جاء الخريف. وتوقفت النباتات عن النمو، وماتت، وتساقطت، وذبلت.

بالرغم من أن البيانات التي جمعتها كانت مفيدة جدًا لتقدير الطول الذي ستصبح عليه النباتات على مدار الفترة التي كنت أجمع فيها البيانات في هذه المنطقة، فقد اتضح أنها كانت غير دقيقة عند استخدامها لوضع توقعات للمستقبل. يعرف استخدام الأنماط لوضع تقديرات في نطاق البيانات التي تجمعها باسم «الاستكمال الداخلي». وقد يكون هذا دقيقًا للغاية إذا كانت البيانات مرتبطة ارتباطًا موجبًا قويًا أو سالبًا قويًا. أما محاولة استخدام هذه الأنماط لوضع توقعات مستقبلية أو توقعات خارج نطاق البيانات التي تجمعها، فتعرف باسم «الاستكمال الخارجي». وقد تكون غير دقيقة بشكل كبير حتى مع البيانات التي كانت مترابطة تمامًا داخل نطاق البيانات التي جمعتها.

ثمة أمر آخر، بالرغم من أننا نتحدث عن الارتباط في هذا الفيديو، وكما ذكرنا عدة مرات، فإننا نقصد الارتباط الخطي، أي مدى تطابق البيانات مع نمط الخط المستقيم. أحيانًا، لا تطابق البيانات نمط الخط المستقيم بشكل جيد، لكنها ربما تطابق نمط خط منحن.

انظر هذه البيانات حول عدد الزيارات إلى المملكة المتحدة بين عامي ١٩٧٨ و١٩٩٩ على سبيل المثال. إذا رسمنا نمطًا خطيًا في المنتصف هنا، فسنلاحظ أنه بالرغم من أن الخط يمثل خط أفضل مطابقة جيدًا لهذا النمط، فإن الخط المستقيم عند هذين الطرفين، يتوقع عدد زيارات أقل من العدد الفعلي المقدر بالآلاف كل عام، في حين أنه يتوقع عدد زيارات أكبر من العدد الفعلي في المنتصف. لذا، بالرغم من أن الخط يبدو خط أفضل مطابقة معقولًا، فهناك نمط للأخطاء التي تحدث عند وضع التوقعات.

إذا كان لدينا منحنى كهذا، فستكون هناك مجموعة من التقديرات الأعلى والأقل من القيم الفعلية عند التحرك بطول هذا الخط. لذا، فهو مؤشر أفضل قليلًا لتوقع عدد الزيارات حسب العام.

بالرغم من أن الارتباط غير الخطي ليس ضمن نطاق هذا الفيديو، فقد أردنا فقط أن تكون على دراية بوجوده. لقد ألقينا نظرة على الارتباط القوي أو الضعيف، الموجب أو الطردي. ورأينا الارتباط القوي أو الضعيف، الموجب أو الطردي: فكلما كان معامل الارتباط أقرب إلى واحد، كان الارتباط الطردي أقوى. كما رأينا الارتباط القوي أو الضعيف، السالب أو العكسي: في هذه الحالة، كلما كان معامل الارتباط أقرب إلى «سالب واحد»، كان الارتباط العكسي أقوى.

ورأينا أمثلة على عدم وجود ارتباط. ويمكن أن يحدث هذا إذا كانت لديك نقاط عشوائية مبعثرة بهذا الشكل أو إذا كان لديك خط أفضل مطابقة رأسي تمامًا أو خط أفقي تمامًا. عندما يقترب معامل الارتباط من صفر، لن تساعدنا معرفة إحدى قيم البيانات على توقع إحدى قيم بيانات أخرى. على سبيل المثال، إذا عرفنا درجات الطلاب في الرياضيات، فلن يساعدنا هذا على توقع درجاتهم في اللغة الإنجليزية؛ لأن هناك نطاقًا كاملًا من القيم المختلفة.

عرفنا أيضًا أنه عند وجود ارتباط قوي جيد أثناء الاستكمال الداخلي، فسيكون وضع توقعات لإحدى قيم البيانات بناء على إحدى قيم بيانات أخرى دقيقًا إلى حد ما. لكن محاولة الاستكمال الخارجي أو التوقع لقيمة خارج نطاق البيانات التي جمعناها قد يعطينا نتائج خطأ جدًا.

هناك شيء واحد أخير، الارتباط يخبرنا عن الترابط ولا يخبرنا بالضرورة عن وجود علاقة سببية. قد يكون ارتباط مجموعتي بيانات من قبيل المصادفة ليس إلا، أو ربما توجد عوامل أخرى ضمنية تؤثر على مجموعتي البيانات. على سبيل المثال، بين عامي ٢٠٠٠ و٢٠٠٩، أوضح تحليل ما وجود ارتباط قوي جدًا بين متوسط كمية السمن النباتي المستهلكة للشخص في الولايات المتحدة سنويًا وبين معدل الطلاق لكل ألف شخص في ولاية مين في تلك السنة. لكن هذه مجرد مصادفة. كيف يمكن أن يتأثر عدد حالات الطلاق في إحدى الولايات بكمية السمن النباتي المستهلكة في أماكن أخرى من البلد؟

هناك أيضًا ارتباط سالب ضعيف جدًا بين كون الأشخاص لديهم أسنان صفراء وبين أعمارهم. لا يوجد رابط سببي بين الأمرين. لكن كلًا من قصر العمر والأسنان الصفراء ينتج عن التدخين. إذن، ربما تكون هذه المعلومة سببًا في وجود ارتباط ضعيف ضمني بين هذين المعطيين الآخرين.

تستخدم نجوى ملفات تعريف الارتباط لضمان حصولك على أفضل تجربة على موقعنا. معرفة المزيد حول سياسة الخصوصية لدينا.