يعتبر علم البيانات (Data Science) أحد أكثر الفروع أهمية من الناحية التقنية لعدد كبير من الخدمات المقدمة عبر الإنترنت. فهناك مطلح التنقيب عن البيانات (Data Mining) الذي يسهل الوصول إلى المعلومة. وظهر حديثاً مصطلح مهم والذي نحن بصدد شرحه في هذا المقال ألا وهو البيانات الضخمة (Big Data)
تعريف البيانات (Data) هي حقائق غير منظمة، أو بمعنى آخر هي أدنى مستوى من المعلومات والمعرفة، تؤُخذ من الملاحظات والتسجيلات المباشرة والأنشطة الاجتماعية. هذه البيانات أصبحت في السنوات الأخيرة ضخمة جداً لدرجة أنها يصعب الاستفادة منها وتحليلها بالطرق التقليدية للحصول على المعلومات والمعرفة منها.
يمكن أن تقُسم البيانات الخام إلى ثلاثة أنواع:
بيانات مهيكلة: وهي البيانات المنظمة في صورة جداول أو قواعد بيانات تمهيداً لمعالجتها.
بيانات غير مهيكلة: تشكل النسبة الأكبر من البيانات وهي البيانات التي يولدها الأشخاص يومياً من كتابات نصية وصور وفيديو ورسائل ونقرات وروابط LINKS على مواقع الانترنت الخ.
بيانات شبه مهيكلة: تعتبر نوعاً من البيانات المهيكلة إلا أنها لا تصُمم في جداول أو قواعد بيانات.
ما الفرق بين البيانات والمعلومات (Information)؟؟
المعلومات هي البيانات التي خضعت للمعالجة والتحليل والتفسير والتي يمكن الاستفادة منها في استنباط العلاقات المختلفة بين الظواهر واتخاذ القرارات.
مثلاً بيانات الموظفين من اسم وتاريخ ميلاد وخلافه تعتبر بيانات.
أما استخراج مواليد شهر معين للاحتفال بعيد ميلادهم فهي معلومات.
البيانات الضخمة Big Data
عبارة عن مجموعة من مجموعات البيانات الضخمة جداً والمعقدة لدرجة أنه يصُبح من الصعب معالجتها باستخدام أداة واحدة فقط من أدوات إدارة قواعد البيانات أو باستخدام تطبيقات معالجة البيانات التقليدية. حيث تشمل التحديات، الالتقاط، والمدة، والتخزين، والبحث، والمشاركة، والنقل، والتحليل والتصور. ويرجع الاتجاه إلى مجموعات البيانات الضخمة بسبب المعلومات الإضافية المشتقة من تحليل مجموعة واحدة كبيرة من البيانات ذات الصلة، بالمقارنة مع المجموعات المنفصلة الأصغر حجماً مع نفس الحجم الإجمالي للبيانات، مما يسمح بوجود ارتباطات تكشف “الاتجاهات التجارية المحورية، وتحديد جودة البحث، وربط الاستشهادات القانونية، ومكافحة الجريمة بتخمين الأماكن المتوقع حدوث جريمة فيها وتحديد ظروف حركة تدفق البيانات في الوقت الحقيقي.
في تقرير بحثي وعدد من المحاضرات المتعلقة به عام 2001، قام " دوغ لاني" محلل مجموعة META المعروفة الآن باسم (Gartner Group) بتعريف تحديات نمو البيانات وفرصها كعنصر ثلاثي الأبعاد، طبقاً لزيادة الحجم (كمية البيانات)، السرعة (سرعة البيانات الصادرة والواردة)، والتنوع (تعدد أنواع البيانات ومصادرها).
وتقوم Gartner والكثير من الشركات في هذه الصناعة الآن بالاستمرار في استخدام نموذج "Vs3" لوصف البيانات الضخمة. في عام 2012، قامت Gartner بتحديث تعريفها ليصبح كالتالي: " البيانات الضخمة هي أصول معلومات كبيرة الحجم، عالية السرعة أو عالية التنوع تتطلب أشكالاً جديدة من المعالجة لتعزيز عملية صنع القرار والفهم العميق وتحسين العملية".
نموذج "Vs3" في وصف البيانات الضخمة
– الحجم Volume: وهو عدد تيرابايت من البيانات التي نطلقها يومياً من المحتوى وتعرف أيضاً بحجم البيانات المستخرجة من مصدر ما، وهو ما يحدد قيمة وإمكانات البيانات لكي تصنف من ضمن البيانات الضخمة؛ و قد تكون الخاصية الأكثر أهمية في تحليل البيانات الضخمة .
كما أن وصفها بالضخمة لا يحدد كمية معينة؛ بل تقاس عادة بالبيتا بايت او بالإكسا بايت، ومع حلول العام 2020 سيحتوى الفضاء الإلكتروني على ما يقرب من 40.000 ميتابايت من البيانات الجاهزة للتحليل واستخلاص المعلومات؛ ويقدر أن 90% من البيانات الموجودة في العالم اليوم قد استحدثت خلال السنتين الأخيرتين، بواسطة أجهزة وعلى أيدي بشر ساهم كلاهما في تزايد البيانات.
– التنوع Variety: ويقصد بها تنوع البيانات المستخرجة، والتي تساعد المستخدمين سواء كانوا باحثين أو محللين على اختيار البيانات المناسبة لمجال بحثهم وتتضمن بيانات مهيكلة في قواعد بيانات وبيانات غير مهيكلة تأتي من طابعها غير الممنهج، مثل: الصور ومقاطع وتسجيلات الصوت وأشرطة الفيديو والرسائل القصيرة وسجلات المكالمات وبيانات الخرائط (GPS) وغيرها، وتتطلب وقتاً وجهداً لتهيئتها في شكل مناسب للتجهيز والتحليل.
– السرعة Velocity: مدى سرعة تواتر حدوث البيانات، فمثلاً تختلف سرعة نشر التغريدات عن سرعة مسح أجهزة الاستشعار عن بعد لتغيرات المناخ.
بشكل مبسط هي كمية المعلومات الضخمة التي لا تستطيع قواعد البيانات مثل ال ACCESS
SQL SERVER - ORACLE مراجعتها، فقواعد البيانات لا يمكنها مثلاً معالجة التعاملات اليومية لمليار مستخدم للـ FACEBOOK يومياً أو البحث في (Exabyte) مليون terabyte صفحة على الانترنت.
البيانات الكبيرة عندما يصبح حجم البيانات جزء من المشكلة
وهي مسألة نسبية متغيرة باستمرار فما هو ضخم حالياً لن يكون كذلك في المستقبل القريب والبيانات الغير ضخمة الآن كانت ضخمة من سنوات قليلة فمثلاً فكرة البيم كنظرية ترجع إلى الستينات لكن لم تتحول لواقع بسبب أن كمية المعلومات لمشروع صغير كانت أكبر من قدرة أجهزة الكمبيوتر وقتها.
أسباب ظهورها:
في الآونة الأخيرة ظهرت بعض الأمور التي ساعدت على هذا الانفجار وزيادة حجمها وتنوعها ومنها:
· هناك بعض المجالات فيها بيانات ضخمة جداً لتحليلها مثل الأرصاد الجوية (علم الطقس)، وعلم الجينات (علم الجينوم)، والمحاكاة الفيزيائية المعقدة والبحوث البيولوجية والبيئية.
· ظهور الشبكات الاجتماعية (Social Networking) التي ترسل كم ضخم من البيانات على مدار الساعة ومختلف الهيئات.
· انخفاض تكاليف تخزين هذه البيانات (storage spaces).
· القوانين التي تحتم ضرورة بقاء هذه البيانات في قواعد البيانات(databases) لمتابعة المجرمين والمخربين والمتسللين.
· ظهور تقنيات إنترنت الأشياء(IoT) الذي يتيح لجميع الاجهزة التواصل مع بعضها والترابط بتقنيات الإنترنت وإنتاج بيانات جديدة فيكون الباب والشباك والحوائط والثلاجة وكل ما في البيت متصل بالأنترنت ومتفاعل معه.
· 90% من البيانات التي كتبت عبر التاريخ، كتبت في عامي 2013 و2014.
· يستخدم لتوقع الجريمة من خلال تحليل البيانات للجرائم السابقة والحالية.
هل تعلم أن طائرة إيرباص A380 تنتج مليار سطر من الشيفرات البرمجية كل نصف ساعة ؟؟، أو لنقل 10 تيرابايت من البيانات، هذه البيانات تولدها المحركات والحساسات في الطائرة عن كل التفاصيل الدقيقة المصاحبة لرحلتها، وتذكر هذه مجرد نصف ساعة في رحلة واحدة فقط من طائرة واحدة فقط.
كانت البداية 2004 عندما قامت جوجل بتوزيع الداتا على آلاف الكمبيوترات الصغيرة (ما زالت أكبر من الكمبيوتر المنزلي) والرخيصة الثمن وتنسيقها بتقنية ال Bigtable. في عام 2005 نشرت جوجل تقنية البيغ تيبل هذه إلى الملأ وقامت (Apache) بإنشاء تلك التقنية تحت اسم Hadoop .
هناك العديد من الأدوات والتقنيات التي تستخدم لتحليل البيانات الكبيرة مثل: Hadoop، MapReduce، GridGain، HPCC Storm، Cassandra.
ويعتبر الـ HADOOP من أشهر هذه الأدوات والتقنيات الرائدة في هذا المجال وهو من شركة أباتشي، أنشئ من قِبل دودج كاتينج Doug Cutting ومايك كافاريلا Mike Caffarella عام 2005. وقد أسماه دوغ تيمناً بالفيل اللعبة الخاص بابنه. كما أن عملية التطوير كانت نابعة في الأساس لدعم توزيع مشروع محرك البحث Nutch وهو مفتوح المصدر open-source framework يعمل على اللينكس مكتوب بلغة الجافا يسهل علينا تنظيم البيانات والتعامل معها، قامت أباتشي بفتحها للاستعمال العام مجاناً، ثم قامت جوجل نفسها بتبني خدمة Hadoop .
أشهر مستخدمي الهادوب:
Amazon, Akamai, Apple, AVG, eBay, Electronic Arts, Facebook, Google, IBM, ImageShack, LinkedIn, Microsoft, The New Yourk Times, Twitter, Yahoo
يوفر إطار Hadoop كلاً من الموثوقية وحركة البيانات للتطبيقات ويقوم Hadoop بتنفيذ نموذج حسابي يدُعي (MapReduce) الفكرة ببساطة أنه بدلاً من أن ترسل الأمر أو المهمة التي تريد إلى سيرفر واحد، فإنك ترسلها الى جميع السيرفرات في نفس اللحظة وكل سيرفر يقوم بإعطائك ما لديه من بيانات ثم يتم عمل تجميع هذه البيانات وإعادتها لك كحزمة واحدة، حيث تقُسم فيه التطبيقات إلى العديد من الأجزاء الصغيرة للعمل، كل واحدة منها قد تنُفذ أو يعُاد تنفيذها على أية عقدة موجودة في الكتلة. وبالإضافة لذلك، فإنه يوفر نظام ملفات موزع يقوم بتخزين البيانات على عقد الحساب، مما يوفر درجة عالية جداً لعرض معدل الحركة الكلي عبر الكتلة.
قبل هادوب Hadoop كان الخيار الوحيد أمام مهندسي الأنظمة لحل مشكلة تضخم البيانات أن يقوموا بعملية Scale up وتعني أن يقوموا بترقية السيرفر بزيادة الرامات وزيادة السعة التخزينية أو يقومون بنقل البيانات إلى سيرفر جديد أكثر كفاءة.
وهذا ما دفع أوراكل إلى إنتاج ال Database ِAppliance وأسموه Exadata وهو مجموعة أجهزة في حاوية واحدة بقدرات كبيرة لكن بقيت البيانات مخزنة في سيرفر واحد.
وهو جهاز بسعر مرتفع قد يصل الى 500 ألف دولار.
بعد ظهور Hadoop أصبح بالإمكان عمل Scale out وهو بدل أن يقوم بترقية السيرفر فإننا نقوم بإضافة سيرفرات جديدة بنفس مواصفات الأول أو مختلفة.
وعندها يمكننا أن نرى السعات التخزينية لجميع السيرفرات كأنها هاردسك واحد (هادوب).
ويمكن أن نرى مجموع الذاكرات memories لجميع السيرفرات كأنها ذاكرة واحدة (سبارك).
لكن التعامل مع هذه السعات الضخمة ليس كالتعامل مع ذاكرة الجهاز الواحد فيلزم استخدام أدوات خاصة من قبل المبرمجين حتى يمكن التعامل معها.
هادوب .. يقوم بمهمة توحيد الهاردسك فقط .. لكن سبارك والذي يعتمد على نظام ملفات هادوب يقوم بعمل هادوب بالإضافة إلى توحيد الذواكر.
علاقتها بالبيم:
البيم اختصار نمذجة معلومات البناء، ماذا سيحدث إذا كانت كمية المعلومات أكبر بكثير من قدرة أي قاعدة بيانات على معالجتها.
في المشاريع الضخمة لمدينة كاملة تكون كمية البيانات رهيبة تأخذ وقت طويل من الكمبيوتر لتحليلها أو الازدحام في مدينة ضخمة كالقاهرة أو دمشق على سبيل المثال مراقبة سير المركبات وتوجيه الإشارات والطرق لتقليل الازدحام والإحساس بأي توقف مفاجئ ودراسة بيانات سيولة المرور يساعد في تصميم طرق أفضل في المدن المستقبلية
أو إدارة وتحليل ومحاكاة استهلاك الطاقة والتكييف والمياه أثناء تشغيل المبنى بصورة مستمرة.
أو إدارة قرية سياحية بحيث يصلك إشعار بأي خطأ لحظياً أو مشاريع البنية التحتية.
أو البيانات الضخمة من عمل مسح بال laser scan لمنطقة ضخمة.
من ضمن الفوائد العملية للبيانات الضخمة ما حدث في الصين من اكتشاف خمسين من مدن أشباح ويقصد بها مدن ومباني خالية تماماً نظراً لأنها بنيت دون دراسة فموقعها بعيد وغير مناسب، في الدراسة استخدموا خوارزمية التجميع المشترك لحساب مواقع المنازل، ومن ثم ربطوا هذه المواقع بمجموعة أخرى من البيانات عن المناطق السكنية المعروفة بهدف التوصل إلى أماكن السكن، وبعدها حسبوا الكثافة الحضرية بعدد الأشخاص الذين يعيشون في مساحة مائة متر مربع. هذه البيانات ستفيد الحكومة في اتخاذ قرارات أفضل.
كما يمكن تحليل الأنشطة الممارسة في الوقت الذي يقضيه المسافرين في انتظار موعد الطائرة لعمل تصميم أفضل للصالة مثل تخصيص مكان للأطفال.
فإدارة وتشغيل والاستفادة من البيانات لمدينة ذكية يتطلب منك التعامل اللحظي مع كمية ضخمة من البيانات لا تستطيع قواعد البيانات العادية التعامل معها.
يقول Hon FAIA، the exhibition director Rem Koolhaas: " توشك كل العناصر المعمارية أن تعلن تأييدها للتكنولوجيا التي تعتمد على البيانات" وهذا سيضخم كمية البيانات التي علينا معالجتها.
وحالياً هناك دول مثل بريطانيا تجعل تقديم الملفات إجبارياً مثل :(COBie)
Construction-Operations Building Information Exchange
هناك أيضاً منظمات تحتاج المعلومات الفعلية لإعطاء شهادات مثل شهادة البناء المستدام LEED من المجلس الأمريكي للأبنية الخضراء.
هناك امتدادات للتعامل مع البيانات الضخمة في البيم مثل: (BIMXML)
Building Information Model Extended Markup Lan
(guage) حيث يشمل معلومات النموذج والموقع والمعدات……
ليست هناك تعليقات:
إرسال تعليق