বেঙ্গলি ডট আই
ফারহাত মাইশা অর্পা
প্রকাশ : ২০ ফেব্রুয়ারি ২০২৩ ১৩:১৯ পিএম
বেঙ্গল ডট আইয়ের গবেষক দলের একাংশ ছবি : সংগৃহীত
বুয়েট, কুয়েট এবং ব্র্যাক বিশ্ববিদ্যালয় থেকে স্নাতক পাস করা একদল তরুণ কাজ করছেন কৃত্রিম বুদ্ধিমত্তাকে বাংলা শেখানোর। বাংলা ভাষাকে সহজ ও সাবলীলভাবে কৃত্রিম বুদ্ধিমত্তার মাধ্যমে উপস্থাপন করতে কাজ করছে তাদের প্রতিষ্ঠান বেঙ্গল ডট আই। ভাষার মাসে ভিন্নধর্মী এ প্রচেষ্টার কথা জানিয়েছেন ফারহাত মাইশা অর্পা
সময়টা ২০১৬ সাল। কয়েকজন বন্ধুরা মিলে মেশিন লার্নিংভিত্তিক ব্লাইন্ড এইড নিয়ে কাজ করা শুরু করেছিলেন, যা দৃষ্টিপ্রতিবন্ধীদের বই পড়তে, সামনের মানুষের অবস্থান চিহ্নিত করতে অথবা সামনে কী হচ্ছে তা বাংলা ভাষায় ব্যাখ্যা করতে পারবে। তবে এর জন্য দরকার ছিল কম্পিউটারকে বাংলা ভাষা বলতে, শুনে বুঝতে এবং পড়তে শেখানো। কিন্তু তার কিছুই তখন বাংলায় সম্ভব ছিল না। কারণ কম্পিউটারকে ভাষা শেখাতে যে তথ্যভাণ্ডার বা ডেটা সেটের প্রয়োজন, তা বাংলা ভাষার জন্য ছিল না। অন্যান্য কৃত্রিম বুদ্ধিমত্তার মতো যদি বাংলায় প্রশ্ন করলে সহজেই উত্তর পাওয়া যায় বা ইংরেজি শব্দের বাংলা অনুবাদ সঠিক বাংলায় করা যায়, তবে কেমন হয়? এ ভাবনা থেকেই যে ভাষা অর্জিত হয়েছিল লাখো শহীদের রক্তের বিনিময়ে, সে বাংলা ভাষার স্বকীয়তা ধরে রাখার উদ্দেশ্যে ভাষাপ্রযুক্তি নিয়ে ২০১৭ সালের ডিসেম্বর মাসে যাত্রা শুরু করেছিল বেঙ্গল ডট আই।
উদ্দেশ্য
বাংলা ভাষার গবেষণা ও ইন্ডাস্ট্রিয়াল কাজগুলোর সব ধরনের প্রয়োজনীয় রিসোর্স উন্মুক্ত করার উদ্দেশ্যে কাজ করছে বেঙ্গল ডট আই। বেঙ্গল ডট আইয়ের প্রতিষ্ঠাতাদের অন্যতম একজন আহমেদ ইমতিয়াজ হুমায়ন। তিনি এ ব্যাপারে জানান, আমাদের দেশে এআই গবেষণা নিয়ে অনেক কাজ হচ্ছে। তবে এদের প্রায় সবই হচ্ছে ইংরেজি ভাষায়। বাংলা ভাষায় এআই গবেষণা প্রায় নেই বললেই চলে। আমাদের স্বপ্ন ছিল এমন একটি প্ল্যাটফর্ম উন্মুক্ত করা, যেখানে কিনা বাংলা ভাষায় এআই গবেষণা করা যাবে। যাতে করে যেকোনো শিক্ষার্থী বা গবেষক বাংলা ভাষা নিয়ে গবেষণা করতে গিয়ে তথ্যের অভাবে থেমে না যান। তিনি আরও বলেন, এতে করে একদিকে যেমন গবেষণাভিত্তিক কাজের হার বৃদ্ধি পাবে; অপরদিকে বাংলা ভাষার প্রযুক্তিকে দেশের সর্বস্তরের সাধারণের জন্য উন্মুক্ত করা সম্ভব হবে। ফলে দেশের প্রত্যন্ত অঞ্চল থেকে শুরু করে দেশের আনাচেকানাচে যে কেউ চাইলেই বাংলা ভাষায় প্রযুক্তি ব্যবহার করতে সক্ষম হবে। তাই ইংরেজি ভাষা জানা না থাকলেও কিংবা কাগজে-কলমের পড়াশোনা জানা থাকলেও যেকোনো তথ্যপ্রযুক্তি ব্যবহারে থেমে থাকার প্রয়োজন হবে না।
কার্যক্রম
২০১৮ সালের শুরুর দিকে বেঙ্গল ডট আই Numtadb নামক একটি প্রজেক্টের কাজ শুরু করে, যা মূলত একটি অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) মডেল এবং এর মাধ্যমে বাংলায় সংখ্যাসূচক অক্ষর শনাক্ত করা যাবে। পরীক্ষামূলক এ অনুসন্ধানে অংশ নিয়েছিল ২ হাজার ৭শ জন। এদের কাছ থেকে সংগ্রহ করা হয়েছিল হাতে লেখা সংখ্যার প্রায় ৮৫ হাজারেরও অধিক নমুনা। একই বছর তারা গুগলের সহযোগিতায় আয়োজন করেছিল অপটিক্যাল ক্যারেক্টার রিকগনিশন প্রতিযোগিতা। পরের বছর গুগলের সহযোগিতায় সংস্থাটি আবারও আয়োজন করে বাংলা গ্রাফিম প্রতিযোগিতার। একই বছরে তারা আরেকটি গ্রাফেমিক উদ্যোগ গ্রহণ করে, যেখানে কিনা বাংলা হাতে লেখার অপটিক্যাল ক্যারেক্টার রিকগনিশন বা OCR নিয়ে কাজ করা হয়েছিল। পরে বিভিন্ন বিশ্ববিদ্যালয়ের ৪০ শিক্ষার্থীর একাডেমিক ও ইন্ডাস্ট্রিয়াল গবেষক দলের সমন্বয়ে একটি পরীক্ষামূলক অনুসন্ধান পরিচালনা করা হয়, যা মূলত বাংলা ভাষা টাইপিংয়ে বানানের ভুলগুলোকে শনাক্ত করতে সম্ভব হবে। এ ছাড়াও এই ভাষাপ্রযুক্তিটি কাজ করবে বাংলা ব্যাকরণ প্রযুক্তি হিসেবে, যেখানে বাংলা বানানের সঠিক বানান, বিরাম চিহ্ন, অর্থ ও শব্দের গঠন সম্পর্কিত ভুলগুলো ব্যবহারীকে ধরিয়ে দিতে সক্ষম হবে। খুব শিগগিরই এটি সর্বসাধারণের ব্যবহারের জন্য উন্মুক্ত ঘোষণা করা হবে।
জনজীবনে এর প্রভাব
বাংলা ভাষা নিয়ে অধিকতর গবেষণা করতে যারা ইচ্ছুক তাদের সাহায্য কবে বেঙ্গল ডট আই। এর পাশাপাশি বাংলা সফটওয়্যার বানাতে ইচ্ছুক ব্যক্তিরাও লাভবান হবেন এর মাধ্যমে। দেশের সব শ্রেণি-পেশার মানুষ উপকৃত হতে পারবেন বাংলা ভাষাপ্রযুক্তি ব্যবহার করে। কেননা প্রযুক্তি ব্যবহার করতে ইংরেজিতে দক্ষ হওয়ার বিকল্প কিছু নেই। ফলে দেশের একশ্রেণির মানুষের অক্ষর জ্ঞান বা ইংরেজি জ্ঞানের অভাবে সম্পূর্ণরূপে প্রযুক্তির সুফল ভোগ করতে পারছেন না। তাই বাংলা কৃত্রিম প্রযুক্তি ব্যবহার করা গেলে সহজ হয়ে যাবে প্রযুক্তির ব্যবহার। এতে করে গ্রামের সাধারণ কৃষকও প্রযুক্তি ব্যবহার করতে পারবেন। যেমন- তার ফসলের গুণগতমান বৃদ্ধি করতে কোন সার কতটুকু পরিমাণ ব্যবহার করা প্রয়োজন, তা জানতে পারবেন বাংলায় ভয়েস রিকগনিশন সিস্টেম ব্যবহার করে ইন্টারনেটে ভিডিও দেখার মাধ্যমে। আবার একজন দৃষ্টিপ্রতিবন্ধী ব্যক্তি বাংলা এআই প্রযুক্তি ব্যবহার করে প্রয়োজনীয় নির্দেশনা গ্রহণ করে বাংলায় শুনে শুনে স্ক্রিন নেভিগেট করতে পারবেন। বেঙ্গল ডট আই কাজ করছেন বাংলা ভাষা নিয়ে, যার মাধ্যমে সাধারণ মানুষ বাংলাতেই কথা বলা চালিয়ে যেতে পারবেন এবং শোনার মাধ্যমে প্রযুক্তির সাহায্যে তাদের দৈনন্দিন জীবনের কাজকর্ম আরও সহজতর করে তুলতে পারবেন।
কাজের পরিসর
বর্তমানে ছয় হাজার গবেষক যুক্ত আছেন এই বাংলা ভাষাপ্রযুক্তির বেঙ্গল ডট আইয়ে। এত বিশালসংখ্যক গবেষক যুক্ত করা সম্ভব হয়েছিল কীভাবে- এই প্রশ্নের উত্তরে আহমেদ ইমতিয়াজ হুমায়ন জানান, বেঙ্গলি ডট আই মূলত দুটি ভাগে কাজ করে। একটি হলো- বাংলাদেশের মানুষদের নিয়ে বাংলা প্রযুক্তির তথ্যভাণ্ডার তৈরি করতে এবং আরেকটি হলো- এই তথ্যভাণ্ডার বা ডাটাসেটকে আন্তর্জাতিক মানের সংশোধন করে তাকে আন্তর্জাতিক মানের প্রতিযোগিতার মাধ্যমে সবার জন্য উন্মুক্ত করা। এই দুই ভাগে আমাদের সঙ্গে একে একে যুক্ত হন দেশি-বিদেশি গবেষকরা। যেমন- ২০২০ সালের আয়মাদের আয়োজিত গ্রাফিম রিকগনিশেন প্রতিযোগিতার ডাটাসেট তৈরিতে আমাদের সঙ্গে যুক্ত হয়েছিল ১৫শর অধিক তরুণ গবেষক। অন্যদিকে গ্রামিকভিত্তিক আন্তর্জাতিক kaggle প্রতিযোগিতায় একত্রিত হন ২৬শর অধিক আন্তর্জাতিক গবেষক, যাদের মধ্যে অনেকেই বাংলা ভাষাভাষী নন। আমাদের ফেসবুক ভিত্তিক গবেষণা কমিউনিটিতে যুক্ত আছেন প্রায় ৭ হাজারের অধিক মানুষ এবং এদের অধিকাংশই এআই ভিত্তিক কাজ করে থাকেন। আমাদের বিভিন্ন প্রজেক্ট এবং তার সঙ্গে জড়িত প্রতিযোগিতাগুলোর মাধ্যমে আমরা এত বিশালসংখ্যক বাংলা ভাষার গবেষক ও ভাষাপ্রেমীদের একসঙ্গে করতে পেরেছি।
ভবিষ্যৎ পরিকল্পনা
বেঙ্গল ডট আইয়ের ভবিষ্যৎ পরিকল্পনা সম্পর্কে জানতে চাইলে সংস্থাটির প্রতিষ্ঠাতা আহমেদ ইমতিয়াজ হুমায়ন বলেন, ‘ভবিষ্যতে আমাদের লক্ষ্য হলো বাংলা ভাষার প্রযুক্তি আরও কাজ করা। বিশ্বের অন্যান্য সংস্থা এবং বিশ্ববিদ্যালয়ের সমন্বয়ে আরও গুণগত মানের গবেষণা চালিয়ে যেতে চাই- যেন তা দেশ ও জাতির কাজে প্রয়োজনে আসে। বর্তমানে আমরা সাইন ল্যাঙ্গুয়েজ নিয়ে কাজ করছি, যা টেক্সটে কনভার্ট করা যাবে ভিডিও থেকে সরাসরি। এর জন্য আমাদের প্রয়োজন প্রচুর ভিডিও ডাটা, যা সংগ্রহ এবং এনোটেশন করে ডাটাসেট তৈরি করা হবে। তবে এটি আমাদের অনেকগুলো পরিকল্পনার একটি উদাহরণ মাত্র। এ রকম বাংলা ভাষাভিত্তিক প্রযুক্তি নিয়ে আরও কাজ করার ইচ্ছা আছে। বাংলা ভাষাকে সর্বসাধারণের জন্য উন্মুক্ত ও সহজে বোধগম্য করতে আমরা কাজ করে যাব। বাংলা ভাষাপ্রযুক্তি দেশের গণ্ডি পেরিয়ে বিশ্বের সামনে তুলে ধরার প্রচেষ্টা আমাদের অব্যাহত থাকবে।’