علم داده

اجزا و ماهیت علم داده در یک نگاه

علم داده، علم استفاده از روش‌های کمی آمار و ریاضیات در بستر تکنولوژی است که به منظور توسعه الگوریتم‌های طراحی شده، کشف الگوها، پیش‌بینی نتایج و یافتن راه‌حل‌های بهینه برای مسائل پیچیده کاربرد دارد (۱). در ادامه تلاش می‌کنیم تا مفاهیم علوم داده را در یک قاب نشان دهیم و پازل علم داده را که از ارتباط بین مفاهیم کلیدی متعدد تشکیل شده‌است، تبیین نماییم. از آنجایی که مفاهیم توسعه یافته در این حوزه بسیار هستند به جایگاه برخی موارد کلیدی و ارتباط آن‌ها با یکدیگر می‌پردازیم:

در یک نگاه می‌توان این پازل را به سه بخش هوش مصنوعی، کلان داده و داده‌کاوی تقسیم نمود. ساده‌انگارانه خواهد بود اگر در جستجوی مرز دقیقی بین این بخش‌ها باشیم و از اشتراک آن‌ها غفلت کنیم. لازم است پیش از ورود به این مبحث به این نکته توجه شود که مفاهیم این حوزه به‌طور پیچیده‌ای به یکدیگر گره خورده‌اند و اختلاف نظر زیادی در دسته‌بندی‌ها وجود دارد. از طرفی اگرچه تشریح مستقل مفاهیمی چون هوش مصنوعی، داده‌کاوی و یادگیری ماشین و … تصویر روشنی در ذهن ایجاد می‌نماید اما بیش از آن باید به رابطه معناداری که در ترکیب این روش‌ها برای کسب نتایج دقیق‌تر شکل می‌گیرد توجه داشت.

هوش مصنوعی به سیستم‌هایی گفته می‌شود که می‌توانند واکنش‌هایی مشابه رفتارهای هوشمند انسانی داشته باشند از جمله درک شرایط پیچیده، توانایی کسب دانش، یادگیری و استدلال برای حل مسائل، شبیه‌سازی فرایندهای تفکری و شیوه‌های استدلالی انسان و پاسخ موفق به آن‌ها. بیشتر نوشته‌ها و مقاله‌های مربوط به هوش مصنوعی، آن را به عنوان «دانش شناخت و طراحی عامل‌های هوشمند» تعریف کرده‌اند (۲). بسیاری از مفاهیم مانند یادگیری ماشین و یادگیری عمیق به‌گونه‌ای از طریق هوش مصنوعی توسعه یافته‌اند. اگرچه می‌توان از هوش مصنوعی بدون به‌کارگیری یادگیری ماشین نیز استفاده نمود اما به‌این منظور باید به میلیون‌ها خط کد با قواعد و درخت‌های تصمیم پیچیده روی آورد (۳)!

شکل زیر شاخه‌های موجود در هوش مصنوعی را به تصویر کشیده است.

یادگیری ماشین طبق تعریف Tom Mitchell، به این سوال پاسخ می‌دهد که چگونه برنامه‌های کامپیوتری از طریق تجربه و یادگیری برای عملکرد خودکار توسعه یابند. در اینکه یادگیری ماشین بخشی از هسته مرکزی علم داده است شکی وجود ندارد، اما اگر از سطح بالاتری به موضوع بنگرید هدف علم داده استخراج دانش از داده است و یادگیری ماشین موتوری است که به این فرآیند اجازه می‌دهد تا به صورت خودکار انجام شود. از طرفی یادگیری ماشین ارتباط در هم تنیده‌ای با داده‌کاوی دارد (۴). تکنیک‌های پردازش داده سنتی محدودیت‌های فراوانی در پردازش کلان داده‌ها دارند و برای دستیابی به تحلیل‌های دقیق و بلادرنگ (real-time) به تکنیک‌های پیچیده یادگیری ماشین نیاز است.

از روش‌های یادگیری ماشین می‌توان به یادگیری آینده (representation/future learning)، یادگیری عمیق، یادگیری موازی یا توزیع‌شده (distributed or parallel learning)، یادگیری انتقال، یادگیری فعال، یادگیری کرنل (kernel-based learning) اشاره کرد (۵).

یادگیری عمیق، فرآیند به‌کارگیری تکنولوژی شبکه عصبی عمیق یعنی استفاده از معماری شبکه عصبی با لایه‌های پنهان متعدد در راستای حل مسائل است (۴). یادگیری عمیق کارکردی از هوش مصنوعی است که عملکرد مغز انسان در پردازش اطلاعات و تصمیم‌گیری با خلق الگوها را تقلید می‌کند. یادگیری عمیق زیرشاخه‌ای از یادگیری ماشین در هوش مصنوعی است که قابلیت یادگیری بدون نظارت از داده‌های غیرساخت‌یافته و بدون برچسب را دارد. افزون‌براین یادگیری عمیق در یادگیری بانظارت نیز به‌طور گسترده‌ای کاربرد دارد. یادگیری عمیق همچنین به عنوان یادگیری عصبی عمیق (Deep Neural Learning) یا شبکه عصبی عمیق (Deep Neural Network) نیز شناخته می‌شوند (۶).

یادگیری عمیق مراحل شبکه‌ی عصبی را بهینه می‌کند تا فرآیند یادگیری ماشین انجام شود. شبکه‌های عصبی مصنوعی مانند مغز انسان از گره‌های عصبی تشکیل شده‌اند که در یک شبکه به یکدیگر متصل هستند. اولین لایه شبکه عصبی داده‌های خام را پردازش می‌کند و آن‌ها را به عنوان خروجی به لایه بعد منتقل می‌کند. لایه دوم اطلاعات لایه قبل را به اضافه اطلاعات بیشتر پردازش می‌کند و اطلاعات را به عنوان خروجی به لایه بعد انتقال می‌دهد و به همین ترتیب در هر لایه الگوها بهبود می‌یابند و مراحل شبکه عصبی طی می‌شود (۶).

الگوریتم‌ها و معماری‌های یادگیری عمیق، در سال‌های اخیر قادر بوده‌اند پیشرفت‌های شگرفی در زمینه‌های پردازش تصویر و گفتار به وجود آوردند. در ابتدا کاربرد آن‌ها در پردازش زبان طبیعی (NLP) محدود بود اما امروزه ثابت نموده‌اند تاثیر قابل توجهی بر نتایج بسیاری از حوزه‌ها چون رباتیک، سلامت، امنیت فضای سایبری، بینایی کامپیوتری، درک احساسات و … داشته است.

تفاوت اصلی یادگیری عمیق با یادگیری ماشین در این است که یادگیری عمیق می‌تواند الگوها و وابستگی‌ها را تا حدی پیچیده نماید که هیچ الگوریتم دیگری قادر به شناسایی نباشد. اگرچه این نتیجه با هزینه‌های محاسباتی بالا و پیچیدگی‌های مهندسی روبه‌رو است اما به ما اجازه می‌دهد تا به مسائل تازه‌ای در داده‌کاوی که پیش از این به‌ندرت حل می‌شد پاسخ دهیم (۷) مانند:

  • پردازش تصویر و گفتار
  • تحلیل‌های سری زمانی پیچیده
  • نگاشت‌های غیرخطی به منظور کاهش بعد

در حال حاضر یادگیری عمیق می‌تواند برای هر وظیفه‌ای که سایر الگوریتم‌های یادگیری ماشین ایفا می‌کنند، استفاده شود؛ این موارد شامل دسته‌بندی، کاهش بعد، شناسایی اشیا، خوشه‌بندی و غیره است و یادگیری عمیق برای داده‌هایی با ابعاد بالا همچون متن، تصویر و صوت توسعه یافته است (۷).

شبکه‌های باور عمیق یا Deep belief networks (DBNs) و شبکه‌های عصبی کانولوشنی (پیچشی) یا Convolutional neural networks (CNNs)  از اصلی‌ترین رویکردها و مسیرهای تحقیقاتی در دهه‌های اخیر هستند که به‌خوبی در حوزه یادگیری عمیق ظاهر شده‌اند و نوید آینده‌ای روشن را در این حوزه می‌دهند (۸).

با گسترش هر روزه حجم داده‌ها، به خصوص با افزایش قدرت پردازش در پردازنده‌های تصویری، یادگیری عمیق نقش محوری در ارائه راه‌حل‌های پیش‌بینانه در پایگاه داده‌های عظیم بازی می‌کند. برای مثال کامپیوتر مغزمانند آی‌بی‌ام و مترجم زبان بی‌درنگ (real-time) مایکروسافت که در جستجوگر صوتی بینگ استفاده می‌شود از تکنیک‌های یادگیری عمیق برای استفاده از کلان داده به‌عنوان مزیت رقابتی بهره می‌برند (۸). یادگیری عمیق در واقع گامی بزرگ به سمت هوش مصنوعی می‌باشد و علاوه بر ارائه راه‌حل‌های پیچیده‌ مورد استفاده در فعالیت‌های هوش مصنوعی، ماشین‌ها را مستقل از دانش انسانی می‌نماید که در واقع همان هدف نهایی هوش مصنوعی است (۹).

کلان داده راهی برای توصیف انبوهی از اطلاعات است که سازمان‌ها به منظور تبدیل داده‌های خود به دانش با آن مواجه هستند (۱۰) و به داده‌هایی اطلاق می‌گردد که بسیار انبوه، پرشتاب و گوناگون هستند و نیاز به روش‌های پردازشی تازه‌ای دارند تا تصمیم‌گیری، بینش تازه و بهینگی پردازش پیشرفته را فراهم آورند. برای مثال کلان داده عنصر کلیدی برای هوش مصنوعی به‌شمار می‌رود، بدین ترتیب استفاده موثر از هوش مصنوعی به‌میزان زیادی به وسعت و کیفیت داده‌های موجود برای یادگیری و آزمون بستگی دارد (۱۱). در نتیجه داده‌کاوی و هوش مصنوعی و همین طور سایر ابزار و روش‌ها در مواجه با کلان داده ممکن است شکل تازه‌ایی به خود بگیرند.

داده‌کاوی را می‌توان در نگاه کلی کاربرد الگوریتم‌های خاص به منظور استخراج الگو از داده‌ها دانست (۴). در واقع داده‌کاوی روشی برای اثبات یک فرضیه نیست بلکه روشی به منظور شکل‌گیری فرضیات مختلف است. داده‌کاوی می‌تواند پاسخ سوالاتی که ممکن است تا به حال به آن فکر نکرده‌اید را آشکار کند. الگوها کدام هستند؟ کدام یک از آمار حیرت‌آور هستند؟ همبستگی بین A و B چیست؟ (۱۲) داده‌کاوی فرآیندی محاسباتی از کشف الگوها در داده‌های عظیم است که در روش‌هایی با هوش مصنوعی، یادگیری ماشین، آمار و پایگاه‌های داده نیز تعامل دارد (۷).

داده‌کاوی می‌تواند اطلاعات موجود از منابع را به الگوهای برجسته تبدیل نماید و این الگوها را به عنوان پایه‌ی کار به هوش مصنوعی و یادگیری ماشین ارائه دهد. یادگیری ماشین، هنر و علم یادگیری از داده‌ها بدون برنامه‌نویسی مستقیم است درحالی که داده‌کاوی فرآیند یادگیری از داده است (۱۲). داده‌کاوی به فعالیت ورود به پایگاه داده‌های عظیم به منظور جستجو در اطلاعات مرتبط می‌باشد؛ که مصداق روشنی از مثل «پیدا کردن سوزن در انبار کاه» است. از آنجایی که تصمیم‌گیرنده‌گان به داده‌های کم حجم و خاص‌شده نیاز دارند از داده‌کاوی برای کشف بخش‌های اطلاعاتی استفاده می‌کنند. درواقع کلان داده دارایی اصلی است و داده کاوی مبدل این دارایی به نتایج سودمند است.

شکل فوق رابطه دقیق‌تری بین تمام این فاکتورها را نشان می‌دهد، در مجموع تمام این مفاهیم در خدمت هستند تا داده‌ی وروردی به بینش تبدیل گردد. در این تصویر به جایگاه علم داده در کنار دو مفهوم هوش مصنوعی و کلان داده اشاره شده است. همان‌طور که مشخص است مصورسازی داده و هوش تجاری از ابزارهای نمایشی، آمار و تحلیل‌ها از تکنیک‌های محاسباتی در علم داده هستند. هوش مصنوعی در مواردی چون یادگیری ماشین و یادگیری عمیق با علم داده اشتراک دارد و هر آنچه هوش مصنوعی رشد پیدا می‌کند الهام‌بخش ابزارها و تکنیک‌های علم داده خواهد بود. از طرفی نشان می‌دهد داده‌کاوی و یادگیری ماشین رابطه‌ای دو طرفه با یکدیگر دارند؛ بدین شکل که داده‌کاوی از یادگیری ماشین استفاده می‌کند و یادگیری ماشین داده‌کاوی را قادر به دریافت نتیجه می‌نماید. علاوه بر این یادگیری عمیق و شبکه عصبی عمیق مواردی چون بینایی کامپیوتری، پردازش زبان طبیعی و مدل‌های مولد (generative models) را تسهیل می‌نمایند و آن‌ها را به کاربرد می‌رسانند.

بینایی کامپیوتری (computer vision) سعی دارد تا الگوریتم‌های هوشمند را در حوزه پیش‌بینی دیداری همچون شناسایی اشیا، دسته‌بندی منظره، درک یکپارچه محیط، شناسایی حرکات انسان و تشخیص اشیا توسعه دهد (۱۳). مدل‌های مولد یا زایشی چگونگی تولید داده براساس مدل‌های احتمالی را توصیف می‌کنند (۱۴). یک مدل مولد روشی قدرتمند است که می‌تواند با استفاده از یادگیری نظارت نشده توزیع هر نوع داده‌ای را بیاموزد. بیز ساده، مدل‌های مارکوف مخفی، تخصیص پنهان دیریکله از نمونه‌های معروف مدل‌های مولد هستند.

منابع:

۱-    www.thotwave.com/blog/2017/07/07/difference-between-analytics-and-bigdata-datascience-informatics/
۲-    Intelligent agents؛ Harvnb,Poole,Mackworth,Goebel,1998
۳-    www.leverege.com/blogpost/the-difference-between-artificial-intelligence-machine-learning-and-deep-learning
۴-    www.kdnuggets.com/2016/03/data-science-puzzle-explained.html
۵-    Qiu et al, 2016, “A survey of machine learning for big data processing”, EURASIP Journal on Advances in Signal Processing
۶-    www.investopedia.com/terms/d/deep-learning.asp
۷-    www.quora.com/How-can-Deep-Learning-be-used-in-Data-Mining
۸-    XW Chen, X Lin, 2014, big data deep learning: challenges and perspectives. IEEE Access 2, 514–۵۲۵
۹-    Najafabadi et al, 2015, Deep learning applications and challenges in big data analytics, Journal of Big Data, 10.1186/s40537-014-0007-7
۱۰-    www.thotwave.com/blog/2017/07/07/difference-between-analytics-and-bigdata-datascience-informatics/
۱۱-    Federal Financial Supervisory Authority, 2018, Big data meets artificial intelligence: Challenges and implications for the supervision and regulation of financial services, BaFin.
۱۲-    www.upfrontanalytics.com/data-mining-vs-artificial-intelligence-vs-machine-learning/
۱۳-    vision.stanford.edu/
۱۴-    www.quora.com/What-is-a-generative-model

گردآوری: سرور مطیع (s15motie [at] yahoo [dot] com)

تیم توسعه محتوا

منتشر شده توسط
تیم توسعه محتوا