Logo Cover Cover Cover

الفصل الخامس: الاستقصاء باستخدام قواعد البيانات: التحقق من جودة البيانات

جيانينا سيجنيني تعمل حاليا أستاذا زائرا في كلية الصحافة في جامعة كولومبيا بنيويورك. ترأست حتى فبراير/ شباط 2014 فريقاً من الصحفيين والمهندسين في La Nacion في كوستاريكا. كان الفريق متفرغا بالكامل لإنجاز مواضيع استقصائية عن طريق جمع وتحليل وتبصّر قواعد البيانات العامة. دَرَّبَتْ سيجنيني مئات الصحفيين على الصحافة الاستقصائية وصحافة البيانات Computer Assisted Reporting (CAR) منذ عام 2000 في أمريكا اللاتينية، والولايات المتحدة، وأوروبا، وآسيا. حازت سيجنيني على جائزة Jorge Vargas Gene National Journalism Award ثلاث مرات، وجائزة الصحافة الوطنية Pio Viquez، وجائزة الامتياز في الصحافة Gabriel Garcia Marquez، وجائزة Ortega y Gasset من صحيفة إل باييز اليومية El Pias في إسبانيا، وجائزة أفضل تحقيق صحفي عن واقعة فساد من مؤسسة الشفافية الدولية لأمريكا اللاتينية والكاريبي Transparency International for Latin America and the Caribbean (TILAC)، وجائزة Maria Moors Cabot الممنوحة من جامعة كولومبيا. سيجنيني كانت زميلة سابقة في مؤسسة Nieman (www.niemanlab.org) (2001-2002) في جامعة هارفارد.

لم تتوفر للصحفيين فيما مضى أبدا إمكانية الوصول لمعلومات بهذا الكم. إذ ينتج كل يوم [في العالم] أكثر من ثلاتة إكزابايت exabytes من البيانات، وهو ما يعادل 750 مليون إسطوانة دي في دي، ويتضاعف هذا الرقم مرة كل 40 شهرا. يقاس إنتاج البيانات في العالم اليوم باليوتابايت yottabyte (اليوتابايت الواحد يعادل 250 ترليون دي في دي من البيانات). وهناك مناقشات دائرة بشأن وحدة القياس المطلوبة حين نتجاوز اليوتابايت.

إن ارتفاع حجم وسرعة إنتاج البيانات قد تكون فوق طاقة كثير من الصحفيين الذين لم يعتادوا على استخدام كميات كبيرة من البيانات التي يمكن تناولها لعملية البحث وكتابة القصص الإخبارية. ولكن الإلحاح والشغف لاستخدام البيانات والتكنولوجيا المتاحة يجب أن لا يصرف انتباهنا عن السعي الأساسي في تحري الدقة. ولاستيعاب قيمة البيانات استيعابا كاملا، يتعين علينا أن نفرق بين المعلومات المشكوك في أمرها، وتلك الرفيعة المستوى، ويتعين علينا أن نتمكن من العثور على القصص الحقيقية وسط كل البيانات غير الوثيقة الصلة بقصصنا.

أحد الدروس المهمة التي تعلمتها خلال عقدين من استخدام البيانات في البحث هي أن البيانات تكذب، بنفس قدر كذب الناس وربما أكثر. البيانات في نهاية الأمر كثيرا ما يُنشئها ويقوم بالعناية بها بشر.

يُفترضُ بالبيانات أن تكون ممثلة لواقع لحظة معينة في الزمن. إذن، كيف لنا أن نتحقق من مطابقة البيانات للواقع؟

هناك تحققان رئيسان يجب القيام بهما خلال التحقيق الاستقصائي المعتمد على البيانات: التحقق الأولي يجب أن يتم مباشرة بعد الحصول على البيانات؛ ويجب أن يتم التحقق من النتائج في نهاية التحقيق الاستقصائي أو في نهاية مرحلة التحليل.

أ. التحقق الأولي

أول القواعد هي أن تشكك في كل شيء، وفي كل شخص. فحين يتعلق الأمر باستخدام البيانات من أجل صحافة دقيقة، لا وجود هناك لمصدر موثوق بشكل كامل.

على سبيل المثال، هل كنت ستعتمد اعتمادا كاملا على قاعدة بيانات نشرها البنك الدولي؟ أغلب الصحفيين الذين سألتهم هذا السؤال قالوا إنهم سيعتمدون عليها، وإنهم يعتبرون البنك الدولي مصدرا موثوقا. ولكن دعونا نختبر هذا الافتراض بقاعدتي بيانات للبنك الدولي لنبيّن كيف يتم التحقق من البيانات، ولنعزز فكرة أنه حتى ما يطلق عليه المصادر الموثوقة يمكن أن تعطي بيانات مغلوطة. سأتتبع العملية كما هي مبينة في الشكل أدناه.

١. هل البيانات كاملة؟

أحد أول الإجراءات التي أنصح بها هو استكشاف القيم المتطرفة (الأعلى والأقل) لكل متغير في مجموعة البيانات dataset ثم إحصاء عدد السجلات (الصفوف، أي مجموعة من الحقول بينها علاقة) المُدرجة ضمن كل قيمة من القيم الممكنة.

على سبيل المثال، ينشر البنك الدولي قاعدة بيانات بها أكثر من 10000 تقدير مستقل3 لأكثر من 8600 مشروع قامت المنظمة بتطويرها في أرجاء العالم منذ 1964.

فقط بترتيب عمود تكلفة الإقراض ترتيبا تنازليا في جدول، سيمكننا أن نرى وبسرعة كيف أن هناك قيمة صفرية في عدة سجلات (صفوف...) في عمود التكاليف.

إن أنشأنا جدولا محوريا لإحصاء عدد المشاريع التي تكلفتها صفر، بالنسبة لمجموع السجلات، فسنرى أن قيمة أكثر من نصف هذه السجلات (53%) كانت كلفته صفرا.

وهذا يعني أن أي شخص يقوم بالحسابات أو التحليل لكل بلد أو منطقة أو عام على حدة بما لتكلفة المشاريع سيكون خاطئا إن لم يدخل في حسابه جميع المدخلات التي لم يتم إدخال قيمة لها (التي قيمتها صفر). فمجموعة البيانات المتاحة على الحال التي هي عليه ستؤدي إلى نتيجة غير دقيقة.

وينشر البنك قاعدة بيانات أخرى من المفترض أن تتضمن البيانات الفردية لكل مشروع تم تمويله (وليس فقط تم تقييمه) من قبل البنك منذ 1947.

بفتح ملف api.csv من برنامج إكسل (النسخ التالية ليوم 7 ديسمبر/كانون أول 2014) يصبح من الواضح أن البيانات قد تم التلاعب بها وتتضمن العديد من المتغيرات التي تم دمجها في خانة واحدة (مثل أسماء القطاعات وأسماء الدول). ولكن ما يثير الانتباه أكثر هو حقيقة أن هذا الملف لا يتضمن كل المشاريع الممولة منذ 1947.

بل إن قاعدة البيانات لا تتضمن سوى 6352 مشروعا من 15000 مشروع موّلها البنك الدولي منذ 1947 (ملحوظة: قام البنك في النهاية بتصحيح هذا الخطأ. وأصبح نفس الملف يتضمن 16352 سجلا بدء من 12 فبراير/ شباط 2015).




بعد بذل القليل من الوقت في تدبر وفحص البيانات، يمكن أن نرى أن البنك الدولي لا يضع تكلفة جميع المشاريع في قاعدة بياناته. إنه ينشر بيانات تم التلاعب بها، وفشل في أن يضمّن جميع مشاريعه في نسخة واحدة على الأقل. إذا أخذنا كل ذلك في الاعتبار ما الذي ستتوقعه الآن بشأن مستوى البيانات التي تنشرها مؤسسات لا تبدو على نفس القدر من الثقة؟

مثال آخر حديث لعدم ثبات قواعد البيانات وقعت عليه أثناء ورشة عمل عقدتها في بورتوريكو، واستخدمنا فيها قاعدة بيانات العقود العامة من مكتب مراقب مالي. كان لـ 72 عقدا عاما من جميع عقود السنة قيمة سلبية (10,000,000- دولار) في خانات التكلفة.

Open Refine أداة ممتازة للتمعن بشكل سريع في جودة قواعد البيانات وتقييم جودتها. في الصورة الأولى أدناه تستطيع أن ترى كيف أن Open Refine يمكن استخدامها لإجراء جانب حسابي في خانة الكمية. الجانب الحسابي يُجمّع الأرقام في نطاقات رقمية الفوارق بينها متساوية (كأن يكون الفارق الرقمي بين كل نطاق والذي يليه 20 أو 55 ... إلخ). يُمَكِّنَك هذا من اختيار أي نطاق يغطي عددا متتاليا من الأرقام متساوية في الفوارق الرقمية في ما بينها.

الصورة الثانية في ما يلي توضح أنه بإمكانك أن تولّد مدرج تكراري (رسم بياني) بنطاق قيم من تلك التي تتضمنها قاعدة البيانات. يمكن بعد ذلك فلترة القيم بتحريكها بأسهم داخل الرسم البياني. يمكن فعل الشيء نفسه بالنسبة للتواريخ والقيم النصية.

٢. هل يمكن تكرار السجلات؟

أحد الأخطاء الشائعة عند التعامل مع البيانات هو تعذر معرفة وجود سجلات مكررة.

تكون الخطوة الأولى عند التعامل مع البيانات المصنفة (حسب الجنس، أو العمر... إلخ) أو المعلومات الخاصة بالأشخاص، والشركات، والفعاليات، والمعاملات المصرفية، تكون الخطوة الأولى هي في أن تبحث عن متغير مميز فريد لكل عنصر. في حالة تقييم قواعد بيانات مشاريع البنك الدولي، فإن كل مشروع مُعرّف برمز فريد أو "Project ID". قواعد بيانات الكيانات الأخرى قد تتضمن تعريفا أو رقم تعريف فريد أو رقم عقد في حالة التعاقدات العامة.

إن أحصينا كم السجلات الموجودة في قاعدة بيانات كل مشروع، لوجدنا أن بعضها يتكرر حتى ثلاث مرات. لذا، فإن أي حسابات عن بلد، أو منطقة، أو تاريخ تستخدم فيها البيانات دون أن تستثني المكرر هي حسابات خاطئة.

في هذه الحالة يتم تكرار السجلات لأنه قد تم القيام بتقييمات عديدة على كل نسخة منها. ولإزالة التكرار، يجب علينا أن نختار التقييم الأكثر مصداقية من بين كل التقييمات الأخرى. (في هذه الحالة تبدو السجلات المعروفة باسم Performance Assessment Reports [PARs] هي الأكثر مصداقية لأنها توفر صورة أقوى بكثير من التقييم. وقد تم تطويرها بواسطة مجموعة التقييم المستقل Independent Evaluation Group التي تقوم بفحص 25 % من مشروعات البنك الدولي سنويا فحصا عشوائيا ومستقلا).

٣. هل البيانات دقيقة؟

أحد أفضل الطرق لتقييم مصداقية قاعدة بيانات ما، هي اختيار عينة من السجلات ومقارنتها بالواقع.

فإن رتبنا قاعدة بيانات البنك الدولي - الذي من المفترض أن تتضمن كل المشاريع التي يطورها البنك - ترتيبا تنازليا على أساس التكلفة، لوجدنا أن أحد المشاريع في الهند هو الأكثر تكلفة. إجمالي المبلغ المسجل هو 29,833,300 دولار.

إذا بحثنا في غوغل عن رقم المشروع (P144447) نستطيع أن نصل إلى توثيق الموافقة الأصلية على المشروع وتمويله والذي يظهر بالفعل مبلغ 29833 مليون دولار مما يعني أن الرقم دقيق.

يُنصح دائما بتكرار هذه العملية على عينة كبيرة من السجلات.

٤. تقييم سلامة البيانات

تمر البيانات، من لحظة إدخالها الكمبيوتر أول مرة إلى أن نصل إليها مُخَزَّنة، بعدة عمليات من إدخال، وتخزين، ونقل وتسجيل. وفي أي مرحلة من هذه المراحل يمكن أن يتم التلاعب بالبيانات من قبل الأشخاص وأنظمة المعلومات.

لذا فمن الشائع جدا أن تضيع العلاقات بين الجداول أو الخانات (الحقول) أو يختلط حابلها بنابلها أو أن لا يتم تحديث بعض المتغير في مدخلاتها. لذا، من الأهمية بمكان أن نُجري اختبارات لسلامة البيانات.

فمثلا، ليس غريبا أن تجد مشاريع مدرجة في قاعدة بيانات البنك الدولي على أنها "نشطة" لعدة سنوات بعد تاريخ الموافقة عليها، حتى وإن كان من المرجح أن الكثير منها لم يعد نشطا.

للتأكد من ذلك، أنشأتُ جدولا محوريا Pivot وجمعت فيه المشاريع بتاريخ الموافقة عليها. ثم مررتُها في فلتر كي تظهر فقط المشاريع المشار إليها بـ "نشطة" في خانة "الحالة". نرى الآن 17 مشروعا تمت الموافقة عليها في سنوات 1986 و1987 و1989 لا تزال مسجلة كمشاريع نشطة في قاعدة البيانات. جميعها تقريبا مسجلة في إفريقيا.

في هذه الحالة من الضروري التأكد تأكدا مباشرا من البنك الدولي إن كانت تلك المشاريع لا تزال نشطة بعد ما يقرب من 30 عاما. نستطيع، بالطبع، أن نجري اختبارات أخرى لتقييم ثبات بيانات البنك الدولي. على سبيل المثال، ستكون فكرة جيدة إذا ما فحصنا إن كان جميع متلقي القروض (الذين يطلق عليهم في قاعدة البيانات "المقترضون") متطابقين مع منظمات و/أو حكومات الدول المدرجة في خانة "اسم الدولة"، أو إن كانت تلك الدول مصنفة مناطقيا بشكل صحيح ("اسم الإقليم أو القارة"... إلخ).

٥. فك شفرة الرموز والاختصارات

أحد أفضل الطرق لإخافة الصحفيين وإبعادهم هي أن تريهم معلومات معقدة ملغزة برموز خاصة ومصطلحات لا يفهمها إلا أصحاب الاختصاص. هذه حيلة مفضلة للبيروقراطيين والمنظمات التي لا تتمتع بالكثير من الشفافية. فهم يتوقعون أننا لن نعرف كيف نفهم ما يمدوننا به. ولكن الرموز والاختصارات يمكن أيضا أن تستخدم لاختصار الحروف، وفي رفع القدرة على التخزين. كل أنظمة قواعد البيانات تقريبا، سواء كانت عامة أو خاصة، تستخدم الرموز أو الاختصارات كي تصنف المعلومات.

بل أن العديد من الأشخاص والكيانات والأشياء في هذا العالم يُعطى لها رمزا أو أكثر. فالأشخاص لديهم أرقام للتعريف مثل: أرقام الضمان الاجتماعي، والأرقام المخصصة لعملاء البنوك، وأرقام دافعي الضرائب، وأرقام برامج السفر الدائم، وأرقام الطلاب، وأرقام الموظفين... إلخ.

الكرسي المعدني، على سبيل المثال، مصنف تحت رمز 940179 في عالم التجارة الدولية. وكل باخرة في العالم لديها رقم IMO مميز. الكثير من الأشياء لديها رقم واحد مميز: الممتلكات، المركبات، الطائرات، الشركات، الكمبيوترات، الهواتف الذكية، الأسلحة النارية، الدبابات، حبوب الأدوية، حالات الطلاق، حالات الزواج...

يصبح لزاما عليك بالتالي أن تتعلم كيفية فك شفرة الرموز وفهم كيفية استخدامها كي تفهم المنطق وراء قواعد البيانات، والأهم من ذلك، فهم العلاقات بينها.

كل حاوية من حاويات البضائع في العالم البالغ عددها 17 مليونا لها رمز مميز خاص بها، ونستطيع أن نتتبعها إذا ما فهمنا أن الأحرف الأربعة الأولى من هذا الرمز متصلة بهوية صاحبها. يمكن أن تبحث عن المالك في قاعدة البيانات هذه. الحروف الأربعة تلك للشيفرة الخفية تصبح وسيلة للحصول على مزيد من المعلومات.

إن قاعدة بيانات البنك الدولي للمشاريع التي تم تقييمها مليئة بالرموز والاختصارات، ومما يثير الدهشة أن المؤسسة لا تنشر قاموسا موحدا للمصطلحات يصف ما تعنيه جميع تلك الرموز. بعض هذه الاختصارات غير مستخدمة ويتم الإشارة إليها في الوثائق القديمة فقط.

عمود "أدوات الإقراض"، مثلا، يُصنّف جميع المشاريع بناء على 16 نوعا من أدوات الائتمان التي يستخدمها البنك الدولي لتمويل مشاريعه: APL، DPL، DRL، ERL، FIL، LIL، NA، PRC، PSL، RIL، SAD، SAL، SIL، SIM، SSL، TAL.ولكي نفهم هذه البيانات، يتوجب علينا أن نبحث عن معنى هذه الاختصارات وإلا لن نعرف أن ERL تعني قروض الطوارئ التي تمنح للبلاد التي مرت لتوها بصراعات مسلحة أو كوارث طبيعية.

الرموز SAD ،SAL ،SSL ،PSL تشير إلى برنامج إعادة الهيكلة الذي طبقه البنك الدولي خلال الثمانينيات والتسعينيات. وهو يوفر القروض للدول الواقعة في أزمات مالية مقابل أن تطبق هذه الدول تعديلات في سياستها الاقتصادية لتخفيض عجز الموازنة. (كان البرنامج محل ريبة وشك بسبب تأثيره الاجتماعي على عدة دول).

وفقا لما يقوله البنك فمنذ أواخر التسعينيات كان تركيزه الأكبر على القروض من أجل "التنمية" بدلا من القروض من أجل إعادة الهيكلة. ولكن وفقا لقاعدة البيانات بين سنوات 2001 و2006 كان هناك أكثر من 150 قرضا تمت الموافقة عليها تحت نظام رمز إعادة الهيكلة.

هل هذه أخطاء في قواعد البيانات أم أن برنامج إعادة الهيكلة قد امتد إلى القرن الحالي؟

يبين هذا المثال كيف أن فك شفرة الرموز ليس فقط أفضل ممارسة لتقييم مستوى البيانات، ولكن وهو الأهم، للعثور على مواضيع تهم الجمهور.

ب. التحقق من البيانات بعد التحليل

تتركز الخطوة الأخيرة في التحقق على ما وجدَّته وحللته. وهي ربما أهم جزء في التحقق والاختبار النهائي لمعرفة إن كان موضوعك أو فرضيتك الأولية صحيحة.

في عام 2012 كنت أعمل محررة لفريق متعدد التخصصات في La Nacion في كوستاريكا. قررنا أن نحقق في أحد أهم إجراءات الدعم الحكومي المعروفة بـ "Avancemos". كان برنامج الدعم يدفع مبلغا شهريا للطلاب الفقراء في المدارس العامة ليحثهم على عدم التسرب من المدرسة.

بعد الحصول على قاعدة بيانات لكل الطلاب المستفيدين، أضفنا أسماء آبائهم ثم بحثنا في قاعدة بيانات أخرى متصلة بالممتلكات، والسيارات، والرواتب، والشركات في البلاد. وقد مكننا ذلك من إنشاء قائمة شاملة بممتلكات العائلات (هذه بيانات متاحة للجميع في كوستاريكا وتوفرها المحكمة العليا).

افترضنا أن الطلاب البالغ عددهم 167,000 المستفيدين لا يعيشون جميعا في ظروف فقر، وأنهم بالتالي يجب أن لا يتلقوا مبالغ شهرية.

قبل التحليل توخينا أن نقيّم وننظف جميع السجلات ونتحقق من العلاقة بين كل شخص وممتلكاته.

كشف التحليل، من بين ما كشف، أن آباء 75 طالبا تقريبا كان لديهم دخل شهري أعلى من 2000 دولار (الحد الأدنى للأجور للعمال غير المهرة في كوستاريكا 500 دولار) وأن أكثر من 10,000 منهم لديهم ممتلكات ثمينة أو سيارات.

ولكننا لم نستطع إثبات أن هؤلاء الشباب يعيشون في فقر حقيقي مع أمهاتهم لأن آباءهم قد تخلوا عنهم، لم نستطع فعل ذلك إلا بعد أن زرنا منازلهم، وبذلك استطعنا إثبات ما لم تكن البيانات وحدها لتثبته.

لم يسألهم أحد عن آبائهم قبل منحهم الامتيازات. ونتيجة لذلك فإن الدولة مولت، طوال عدة سنوات، وبأموال عامة، تعليم العديد من الأبناء الذين هجرهم جيش من الآباء ممن لا يتحملون المسؤولية.

تلخص هذه القصة أفضل الدروس التي تعلمتها في سنوات عملي كمحققة للبيانات وهو: حتى أفضل تحليل للبيانات لا يمكنه أن يسد مسدّ الصحافة الميدانية والتحقق الميداني.

3 تقدير مستقل: تقدير محايد يقوم به كيانات أو أفراد خارج نطاق الجهة المعنية.


Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.