ভিডিও EN
  1. Home/
  2. মতামত

ডেটা সায়েন্স, বিগ ডেটা ও মেশিন লার্নিং কি?

ড. হাসিনুর রহমান খান | প্রকাশিত: ০৯:৩২ এএম, ২৫ ফেব্রুয়ারি ২০২৪

 

ডেটা কি? সে বিষয়ে আগে একটা ধারণা নেই| ডেটা হলো কতগুলো উদ্দেশ্যহীন নির্দেশনা, যা নির্দিষ্ট কোনো উদ্দেশ্যে সংগৃহীত, প্রক্রিয়াজাত এবং সংরক্ষিত হয়। উদ্দেশ্যহীন এই নির্দেশনাগুলো সাধারণত কোনো চলকের বিপরীতে সংখ্যা, পাঠ, চিত্র, অডিও, ভিডিও বা অন্যান্য ডিজিটাল রূপে সঞ্চিত হয়। সংক্ষেপে বললে চলকের যেকোনো মানকেই ডেটা বলা হয়। সাধারণত ডেটা গোছালো থাকে| কখনও আবার অগোছালো বা দারুণ ভাবে অগোছালো অবস্থায় থাকে।

প্রথমেই ডেটা সাইন্স এবং বিগ ডেটার মধ্যে পার্থক্য বোঝার চেষ্টা করি| উভয় ক্ষেত্রই ডেটা নিয়ে কাজ করতে হয় এবং বিশেষ দক্ষতার প্রয়োজন হয়| উভয়েরই লক্ষ্য সিদ্ধান্ত নেওয়ার জন্য তথ্য থেকে অন্তর্দৃষ্টি এবং জ্ঞান আহরণ করা হয়| উভয়েরই বিভিন্ন বিস্তৃত অ্যাপ্লিকেশন রয়েছে| সঠিকভাবে প্রয়োগ করা হলে উভয়ই স্টেকহোল্ডারদের উল্লেখযোগ্য ভাবে উপার্জন এবং অপারেশনাল দক্ষতার উন্নতি সাধন করতে পারে|

ডেটা সায়েন্স এখন একটি অধ্যায়নের ডিসিপ্লিন। বিগ ডেটা হল বিপুল পরিমাণ তথ্য সংগ্রহ, রক্ষণাবেক্ষণ এবং প্রক্রিয়া করার বিশেষ একটি কৌশল। ডেটা সায়েন্স বিভিন্ন ক্রিয়াকলাপে ডেটা সংগ্রহ, প্রক্রিয়াকরণ, বিশ্লেষণ এবং ব্যবহার সম্পর্কে কাজ করে। এটি আরও অনেকটা ধারণাগত বিষয়। বিপুল পরিমাণ ডেটা থেকে গুরুত্বপূর্ণ এবং মূল্যবান তথ্য বের করার বিষয়ে কাজ করে বিগ ডেটা। ডেটা সায়েন্স হল কম্পিউটার সায়েন্স, ফলিত পরিসংখ্যান, পরিসংখ্যান বা ফলিত গণিতের মতো অধ্যয়নের একটি ক্ষেত্র। অন্যদিকে বিগ ডেটা বলা যায় জটিল ডেটা সেটের প্রবণতা ট্র্যাকিং এবং আবিষ্কার করার একটি কৌশল।

ডেটা সায়েন্সের লক্ষ্য হল ডেটা ড্রিভেন কৌশল অথবা বাণিজ্যিকভাবে বললে পণ্য তৈরি করা। বিগ ডেটা এর লক্ষ্য হল বিদ্যমান ঐতিহ্যগত দিকগুলির মধ্যে বিশাল ডেটা থেকে শুধু গুরুত্বপূর্ণ তথ্য আহরণ করে ডেটাকে আরও গুরুত্বপূর্ণ এবং ব্যবহারযোগ্য করে গড়ে তোলা। ডেটা সায়েন্সে প্রধানত ব্যবহৃত প্রোগ্রাম গুলির মধ্যে রয়েছে SAS, R, Python, জুলিয়া ইত্যাদি কিন্তু বিগ ডেটাতে ব্যবহৃত হয় Hadoop, Spark, Flink, ইত্যাদি টুল।

ডেটা সাইন্স হল বিগ ডেটার একটি সুপারসেট কারণ ডেটা সায়েন্সে ডেটা স্ক্র্যাপিং, ক্লিনিং, ভিজ্যুয়ালাইজেশন, পরিসংখ্যানসহ আরও অনেক কৌশল রয়েছে। বিগ ডেটা হল ডাটা মাইনিং কার্যক্রম হিসাবে ডেটা সায়েন্সের একটি উপ-সেট যা ডেটা বিজ্ঞানের একটি পাইপলাইনে রয়েছে। ডেটা সায়েন্স দ্বারা সৃষ্ট কাজ বা কর্মযজ্ঞ বৈজ্ঞানিক ভাবে চালিত হয়। অন্যদিকে বিগ ডাটা প্রধানত ব্যবসায়িক উদ্দেশ্যে এবং গ্রাহক সন্তুষ্টির জন্য ব্যবহৃত হয়।

এবার জানা যাক মেশিন লার্নিং এর সাথে ডেটা সায়েন্সের সম্পর্কটাই বা কি? অনেকের এ বিষয়ে সুস্পষ্ট ধারণা নেই| ক্ষেত্র বিশেষে বলা যায় অনেকের একেবারেই ধারণা নেই| মেশিন লার্নিং হল ডেটা সায়েন্সের একটি উপসেট যা ডেটা থেকে শেখার এবং ভবিষ্যদ্বাণী বা সিদ্ধান্ত নেওয়ার জন্য মেশিনগুলির (কম্পিউটারের) জন্য অ্যালগরিদম এবং মডেলগুলি বিকাশের উপর ফোকাস করে। অন্যদিকে, ডেটা সায়েন্স একটি বিস্তৃত ক্রিয়াকলাপকে অন্তর্ভুক্ত করে যার মধ্যে মেশিন লার্নিং সহ বিভিন্ন কৌশল ব্যবহার করে ডেটা থেকে অন্তর্দৃষ্টি বের করা নিয়ে সর্বদাই কাজ করে। মেশিন লার্নিং এবং ডেটা সায়েন্স ঘনিষ্ঠভাবে সম্পর্কিত ক্ষেত্র, তবে তাদের উদ্দেশ্য, পদ্ধতি এবং ফোকাস ক্ষেত্রগুলির ক্ষেত্রে তাদের আলাদা পার্থক্য রয়েছে।

মেশিন লার্নিং এর প্রাথমিক লক্ষ্য হল অ্যালগরিদম এবং মডেল তৈরি করা যা মেশিনগুলিকে ডেটা থেকে শিখতে, ভবিষ্যদ্বাণী বা সিদ্ধান্ত নিতে এবং সময়ের সাথে সাথে তাদের কর্মক্ষমতা উন্নত করতে সক্ষমতা তৈরি করে। এটি স্বয়ংক্রিয়ভাবে জ্ঞান অর্জন এবং নতুন তথ্যের সাথে খাপ খাইয়ে নিতে সক্ষম বুদ্ধিমান সিস্টেম তৈরির উপর দৃষ্টি নিবদ্ধ করে।

ডেটা সায়েন্স, অন্যদিকে, পরিসংখ্যানগত বিশ্লেষণ, ডেটা ভিজ্যুয়ালাইজেশন এবং ডেটা মাইনিং সহ বিভিন্ন কৌশল ব্যবহার করে ডেটা থেকে অন্তর্দৃষ্টি এবং জ্ঞান আহরণ করার লক্ষ্য রাখে। এর প্রধান উদ্দেশ্য হল জটিল সমস্যাগুলি সমাধান করার জন্য ডেটা থেকে অর্থপূর্ণ এবং কার্যকরী অন্তর্দৃষ্টি অর্জন করা, জ্ঞাত সিদ্ধান্ত নেওয়া এবং ব্যবসার মূল্য চালনা করা।

মেশিন লার্নিং স্বয়ংক্রিয়ভাবে ডেটা থেকে প্যাটার্ন এবং সম্পর্ক শিখতে অ্যালগরিদম এবং পরিসংখ্যানগত মডেল নিয়োগ করে। এতে লেবেলযুক্ত ডেটাসেটের প্রশিক্ষণ মডেল এবং নতুন, অদেখা ডেটার উপর ভিত্তি করে ভবিষ্যদ্বাণী করতে বা পদক্ষেপ নেওয়ার জন্য তত্ত্বাবধানে শিক্ষা, তত্ত্বাবধানহীন শিক্ষা, এবং কৌশলগুলিকে ক্রমশ শক্তিশালী করা। মেশিন লার্নিং অ্যালগরিদমগুলির প্রশিক্ষণের জন্য উল্লেখযোগ্য পরিমাণে লেবেলযুক্ত ডেটা প্রয়োজন এবং সেটি প্যাটার্ন স্বীকৃতি এবং পরিসংখ্যানগত বিশ্লেষণের উপর খুব বেশি নির্ভর করে।

ডেটা সায়েন্স ডেটা বিশ্লেষণের জন্য কৌশল এবং পদ্ধতির বিস্তৃত পরিসরকে অন্তর্ভুক্ত করে। এতে তথ্য সংগ্রহ, পরিষ্কার, পরিশুদ্ধ এবং রূপান্তর, অনুসন্ধানমূলক ডেটা বিশ্লেষণ, পরিসংখ্যান পদ্ধতি প্রয়োগ এবং ভিজ্যুয়ালাইজেশন তৈরি করার ব্যাপার জড়িত থাকে। ডেটা সায়েন্টিস্টরাও তাদের টুলকিটের অংশ হিসেবে মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে, কিন্তু তাদের ফোকাস শুধু মডেল তৈরিতে নয়। তারা বিভিন্ন কোণ থেকে ডেটা অন্বেষণ করে, প্রবণতা, পারস্পরিক সম্পর্ক এবং অসঙ্গতিগুলি সনাক্ত করে এবং নির্দিষ্ট সমস্যাগুলি সমাধান করতে বা নির্দিষ্ট প্রশ্নের উত্তর দেওয়ার জন্য অন্তর্দৃষ্টি অর্জন করে।

মেশিন লার্নিং প্রাথমিকভাবে অ্যালগরিদম এবং মডেলগুলির বিকাশ এবং বাস্তবায়নের উপর ফোকাস করে যা মেশিনগুলিকে ডেটা থেকে শিখতে এবং ভবিষ্যদ্বাণী বা সিদ্ধান্ত নিতে সাহায্য করে। এটি শ্রেণীবিভাগ, রিগ্রেশন, ক্লাস্টারিং, সুপারিশ সিস্টেম এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মতো কাজগুলি সহজেই করে থাকে। বুদ্ধিমান সিস্টেম তৈরির উপর জোর দেওয়া হয় যা পরবর্তীতে স্পষ্ট প্রোগ্রামিং ছাড়াই নির্দিষ্ট কাজ সম্পাদন করতে পারে।

ডেটা সায়েন্স একটি বিস্তৃত ক্রিয়াকলাপকে অন্তর্ভুক্ত করে। এক কথায় এতে ব্যবসায়িক সমস্যা বোঝা, প্রাসঙ্গিক ডেটা উৎস শনাক্ত করা, ডেটা সংগ্রহ এবং পরিষ্কার করা, ডেটা অন্বেষণ এবং ভিজ্যুয়ালাইজ করা, পরিসংখ্যানগত বিশ্লেষণ করা এবং ভবিষ্যদ্বাণীমূলক মডেল বা অ্যালগরিদম তৈরি করা জড়িত। ডেটা সায়েন্টিস্টরা বিভিন্ন ডোমেন জুড়ে কাজ করে এবং প্রায়শই ডোমেন বিশেষজ্ঞদের সাথে কাজ করে অন্তর্দৃষ্টি অর্জন করতে এবং ডেটা ব্যবহার করে জটিল সমস্যার সমাধান করতে সিদ্ধহস্ত।

ডিপ লার্নিং হল মেশিন লার্নিং এর একটি সাবফিল্ড যা ডিপ নিউরাল নেটওয়ার্ক নামে পরিচিত কৃত্রিম নিউরাল নেটওয়ার্কের বিকাশ এবং প্রয়োগের উপর ফোকাস করে। মানব মস্তিষ্কের গঠন এবং কার্যকারিতা দ্বারা অনুপ্রাণিত হয়ে ডিপ নিউরাল নেটওয়ার্ক তৈরির প্রকৃত ইতিহাস রয়েছে, বিশেষ করে নিউরনের আন্তঃসংযোগ সম্পর্ককে কাজে লাগিয়ে। গভীর শিক্ষায়, নিউরাল নেটওয়ার্কগুলিকে একাধিক স্তর দিয়ে ডিজাইন করা হয়, যা তাদেরকে ডেটাতে জটিল নিদর্শন এবং সম্পর্কগুলি শিখতে এবং উপস্থাপন করতে দেয়।

এই স্তরগুলিকে লুকানো স্তর বলা হয়, নেটওয়ার্কটিকে ইনপুট ডেটা থেকে শ্রেণিবদ্ধ বৈশিষ্ট্যগুলি বের করতে সক্ষম করে। নেটওয়ার্ক যত গভীর হবে, তত বেশি বিমূর্ত এবং উচ্চ-স্তরের বৈশিষ্ট্যগুলি শিখতে পারবে। ডিপ লার্নিং অ্যালগরিদমগুলি সাধারণত প্রচুর পরিমাণে লেবেলযুক্ত ডেটা ব্যবহার করে প্রশিক্ষিত হয়।

প্রশিক্ষণ প্রক্রিয়া চলাকালীন, নেটওয়ার্ক তার পূর্বাভাসিত আউটপুট এবং প্রকৃত আউটপুটের মধ্যে পার্থক্য কমাতে তার অভ্যন্তরীণ প্যারামিটারগুলিকে পুনরাবৃত্তভাবে সামঞ্জস্য করে। ব্যাকপ্রোপগেশন নামে পরিচিত এই প্রক্রিয়াটির মধ্যে নেটওয়ার্কের মাধ্যমে ত্রুটিটিকে পিছনের দিকে ঠেলে দেওয়া এবং নিউরনের মধ্যে সংযোগের ওয়েট আপডেট করার কাজে লিপ্ত থাকে।

ডিপ লার্নিং এর অন্যতম প্রধান শক্তি হ'ল ম্যানুয়াল বৈশিষ্ট্য প্রকৌশলের প্রয়োজন ছাড়াই রডেটা থেকে স্বয়ংক্রিয়ভাবে উপস্থাপনা শেখার ক্ষমতা অর্জন করা। এটি কম্পিউটার ভীশণ, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ, টেক্সট মাইনিংসহ বিভিন্ন ডোমেনে অসাধারণ সাফল্য অর্জন করেছে। ডিপ লার্নিং মডেল, যেমন কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (সিএনএন) এবং রিকরেন্ট নিউরাল নেটওয়ার্ক (আরএনএন), ইমেজ শ্রেণিবিভাগ, অবজেক্ট ডিটেকশন, মেশিন ট্রান্সলেশন, সেন্টিমেন্ট অ্যানালাইসিস এবং আরও অনেক কিছুর জন্য প্রয়োগ করা হয়। এই মডেলগুলি অত্যাধুনিক কর্মক্ষমতা প্রদর্শন করতে পারে এবং বলা চলে নির্দিষ্ট ডোমেনে মানব-স্তরের নির্ভুলতাকে ও অতিক্রম করতে পারে।

সামগ্রিকভাবে, ডিপ লার্নিং কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে বিপ্লব ঘটিয়েছে এবং নিউরাল নেটওয়ার্কের শক্তি এবং বিপুল পরিমাণ ডেটা যা বিগ ডেটা নামে পরিচিত, তাকে ব্যবহার করে ডেটা সাইন্টিস্টরা জটিল সমস্যা সমাধানের জন্য কল্পনাতীত ভাবে সাফল্য লাভ করছে| এবং নিশ্চিতভাবে একথা বলা যায় যে একই ধারায় ভবিষ্যতেও অবারিত আকাশ ছোঁয়া সাফল্য অর্জন করবে।

লেখক: অধ্যাপক, ফলিত পরিসংখ্যান এবং ডেটা সায়েন্স, পরিসংখ্যান গবেষণা ও শিক্ষণ ইনস্টিটিউট, ঢাকা বিশ্ববিদ্যালয়।
[email protected]

এইচআর/এমএস