এনএলপি-তে সাদৃশ্য মেট্রিক্স

উত্স নোড: 1852346

By জেমস ব্রিগস, ডেটা সায়েন্টিস্ট



লেখক দ্বারা চিত্র

 

যখন আমরা ভাষাকে মেশিন-পাঠযোগ্য বিন্যাসে রূপান্তরিত করি, তখন মান পদ্ধতি হল ঘন ভেক্টর ব্যবহার করা।

A neural network typically generates dense vectors. They allow us to convert words and sentences into high-dimensional vectors — organized so that each vector’s geometric position can attribute meaning.



সুপরিচিত ভাষা পাটিগণিত উদাহরণ যে দেখাচ্ছে রানী = রাজা—পুরুষ+নারী

 

এর একটি বিশেষভাবে সুপরিচিত উদাহরণ রয়েছে, যেখানে আমরা ভেক্টর নিই রাজা, ভেক্টর বিয়োগ করুন মানুষ, এবং ভেক্টর যোগ করুন নারী. ফলস্বরূপ ভেক্টরের সবচেয়ে কাছাকাছি মিলিত ভেক্টর হল রাণী.

আমরা বাক্য বা অনুচ্ছেদের মতো দীর্ঘ ক্রমগুলিতেও একই যুক্তি প্রয়োগ করতে পারি — এবং আমরা দেখতে পাব যে অনুরূপ অর্থ সেই ভেক্টরগুলির মধ্যে প্রক্সিমিটি/অরিয়েন্টেশনের সাথে মিলে যায়।

সুতরাং, সাদৃশ্য গুরুত্বপূর্ণ — এবং আমরা এখানে যা কভার করব তা হল সেই মিলটি গণনার জন্য তিনটি জনপ্রিয় মেট্রিক।

ইউক্লিডীয় দূরত্ব

 
ইউক্লিডীয় দূরত্ব (প্রায়ই L2 আদর্শ বলা হয়) মেট্রিক্সের সবচেয়ে স্বজ্ঞাত। আসুন তিনটি ভেক্টর সংজ্ঞায়িত করি:



তিনটি ভেক্টর উদাহরণ

 

শুধু এই ভেক্টরগুলি দেখে, আমরা আত্মবিশ্বাসের সাথে বলতে পারি a এবং b একে অপরের কাছাকাছি - এবং একটি চার্টে প্রতিটিকে কল্পনা করার সময় আমরা এটি আরও পরিষ্কার দেখতে পাই:



ভেক্টর a এবং b উৎপত্তির কাছাকাছি, ভেক্টর c অনেক বেশি দূরে

 

পরিষ্কারভাবে, a এবং b একসাথে কাছাকাছি - এবং আমরা ইউক্লিডীয় দূরত্ব ব্যবহার করে গণনা করি:



ইউক্লিডীয় দূরত্ব সূত্র

 

আমাদের দুটি ভেক্টরে এই সূত্রটি প্রয়োগ করতে, a এবং b, আমরা করি:



ভেক্টরের মধ্যে ইউক্লিডীয় দূরত্বের গণনা a এবং b

 

এবং আমরা একটি দূরত্ব পেতে 0.014, জন্য একই গণনা সম্পাদন d(a, c) আয় 1.145, এবং d(b, c) আয় 1.136। পরিষ্কারভাবে, a এবং b ইউক্লিডীয় মহাকাশের কাছাকাছি।

বিন্দু পণ্য

 
ইউক্লিডীয় দূরত্বের একটি ত্রুটি হল গণনায় বিবেচিত অভিযোজনের অভাব — এটি শুধুমাত্র মাত্রার উপর ভিত্তি করে। এবং এখানেই আমরা আমাদের অন্য দুটি মেট্রিক ব্যবহার করতে পারি। এর মধ্যে প্রথমটি ডট পণ্য।

বিন্দু পণ্য দিক (অভিযোজন) বিবেচনা করে এবং ভেক্টর মাত্রার সাথে স্কেলও করে।

আমরা অভিযোজন সম্পর্কে যত্নশীল কারণ একই অর্থ (যেমন আমরা প্রায়শই খুঁজে পাব) ভেক্টরের দিক দ্বারা প্রতিনিধিত্ব করা যেতে পারে - অগত্যা এটির মাত্রা নয়।

For example, we may find that our vector’s magnitude correlates with the frequency of a word that it represents in our dataset. Now, the word hi মানে একই রকম হ্যালো, এবং যদি আমাদের প্রশিক্ষণের ডেটাতে শব্দটি থাকে তবে এটি উপস্থাপন করা যাবে না hi 1000 বার এবং হ্যালো মাত্র দুবার।

So, vectors’ orientation is often seen as being just as important (if not more so) as distance.

ডট পণ্যটি ব্যবহার করে গণনা করা হয়:



ডট পণ্য সূত্র

 

ডট পণ্য ভেক্টরের মধ্যে কোণ বিবেচনা করে, যেখানে কোণ ~0, cosθ সূত্রের উপাদান ~1 সমান। যদি কোণটি 180 এর কাছাকাছি হয় (অর্থোগোনাল/লম্ব), cosθ উপাদান ~0 সমান।

সুতরাং, এটি cosθ দুটি ভেক্টরের মধ্যে একটি কোণ কম থাকলে কম্পোনেন্ট ফলাফল বাড়ায়। সুতরাং, একটি উচ্চতর ডট-পণ্য উচ্চ অভিযোজনের সাথে সম্পর্কযুক্ত।

আবার, আমাদের দুটি ভেক্টরে এই সূত্রটি প্রয়োগ করা যাক, a এবং b:



ভেক্টরের জন্য ডট পণ্যের গণনা a এবং b

 

স্পষ্টতই, ডট প্রোডাক্ট গণনাটি সোজা (তিনটির মধ্যে সবচেয়ে সহজ) — এবং এটি গণনার সময়ের ক্ষেত্রে আমাদের সুবিধা দেয়।

যাইহোক, একটি অপূর্ণতা আছে. এটি স্বাভাবিক করা হয় না — যার অর্থ কম অনুরূপ হওয়া সত্ত্বেও বড় ভেক্টরগুলি উচ্চতর ডট পণ্য স্কোর করতে থাকে।

উদাহরণস্বরূপ, যদি আমরা গণনা করি a·a — আমরা এর চেয়ে বেশি স্কোর আশা করব a·c (a এর সাথে একটি সঠিক মিল a) কিন্তু দুর্ভাগ্যবশত এটি কিভাবে কাজ করে তা নয়।



যখন আমাদের ভেক্টরের ভিন্ন মাত্রা থাকে তখন ডট পণ্যটি এতটা দুর্দান্ত হয় না।

 

সুতরাং, বাস্তবে, ডট-পণ্য দুটি ভেক্টরের সাধারণ অভিযোজন সনাক্ত করতে ব্যবহৃত হয় — কারণ:

  • দুটি ভেক্টর যেগুলি একই দিকে নির্দেশ করে একটি ফেরত দেয় ধনাত্মক বিন্দু পণ্য.
  • দুটি লম্ব ভেক্টর একটি বিন্দু-উপাদান প্রদান করে শূন্য.
  • যে ভেক্টরগুলি বিপরীত দিকে নির্দেশ করে সেগুলি a ফেরত দেয় নেতিবাচক বিন্দু পণ্য.

কোসাইন সাদৃশ্য

 
কোসাইন সাদৃশ্য ভেক্টর অভিযোজন বিবেচনা করে, ভেক্টর মাত্রা থেকে স্বাধীন।



কোসাইন সাদৃশ্য সূত্র

 

এই সূত্রে আমাদের প্রথম যে জিনিসটি সম্পর্কে সচেতন হওয়া উচিত তা হল লব হল, প্রকৃতপক্ষে, ডট পণ্য - যা উভয়কেই বিবেচনা করে বিশালতা এবং অভিমুখ.

হর-এ, আমাদের অদ্ভুত ডবল উল্লম্ব বার আছে — এগুলোর মানে 'এর দৈর্ঘ্য'. সুতরাং, আমরা দৈর্ঘ্য আছে u এর দৈর্ঘ্য দ্বারা গুণিত v. দৈর্ঘ্য, অবশ্যই, বিবেচনা করে বিশালতা.

যখন আমরা একটি ফাংশন গ্রহণ করি যা উভয় বিবেচনা করে বিশালতা এবং অভিমুখ এবং একটি ফাংশন দ্বারা বিভক্ত যে ঠিক বিবেচনা করে বিশালতা - ঐ দুই মাত্রার বাতিল করা, বিবেচনা করে এমন একটি ফাংশন দিয়ে আমাদের রেখে অভিমুখ মাত্রা থেকে স্বাধীন.

আমরা একটি হিসাবে কোসাইন সাদৃশ্য চিন্তা করতে পারেন স্বাভাবিক করা বিন্দু পণ্য! এবং এটি স্পষ্টভাবে কাজ করে। এর কোসাইন সাদৃশ্য a এবং b নিকটে 1 (নিখুঁত):



ভেক্টরের জন্য কোসাইন সাদৃশ্যের গণনা a এবং b

 

এবং ব্যবহার করে sklearn তুলনা করার জন্য কোসাইন সাদৃশ্য বাস্তবায়ন a এবং c আবার আমাদের অনেক ভালো ফলাফল দেয়:



কোসাইন সাদৃশ্য প্রায়ই ডট পণ্যের তুলনায় অনেক ভালো ফলাফল প্রদান করতে পারে।

 

এই নিবন্ধটির জন্য তিনটি দূরত্ব/সাদৃশ্য মেট্রিক্স কভার করে — ইউক্লিডীয় দূরত্ব, ডট পণ্য এবং কোসাইন সাদৃশ্য।

প্রতিটি কীভাবে কাজ করে এবং তাদের সুবিধা এবং অসুবিধা সম্পর্কে সচেতন হওয়া মূল্যবান — কারণ সেগুলি সবই মেশিন লার্নিং এবং বিশেষ করে এনএলপিতে ব্যাপকভাবে ব্যবহৃত হয়।

আপনি প্রতিটি মেট্রিকের পাইথন বাস্তবায়ন খুঁজে পেতে পারেন এই নোটবুক.

আমি আশা করি আপনি নিবন্ধটি উপভোগ করেছেন। এর মাধ্যমে আপনার কোন প্রশ্ন বা পরামর্শ থাকলে আমাকে জানান Twitter অথবা নীচের মন্তব্যে. আপনি এই মত আরো কন্টেন্ট আগ্রহী হলে, আমি পোস্ট ইউটিউব খুব.

পড়ার জন্য ধন্যবাদ!

 
*সমস্ত ছবি লেখকের ব্যতীত যেখানে অন্যথায় বলা হয়েছে

 
বায়ো: জেমস ব্রিগস প্রাকৃতিক ভাষা প্রক্রিয়াকরণে বিশেষজ্ঞ এবং লন্ডন, যুক্তরাজ্যে অবস্থিত ফিনান্স সেক্টরে কাজ করা একজন ডেটা বিজ্ঞানী। এছাড়াও তিনি একজন ফ্রিল্যান্স পরামর্শদাতা, লেখক এবং বিষয়বস্তু নির্মাতা। আপনি ইমেলের মাধ্যমে লেখকের কাছে পৌঁছাতে পারেন (jamescalam94@gmail.com).

মূল। অনুমতি নিয়ে পোস্ট করা।

সম্পর্কিত:

সূত্র: https://www.kdnuggets.com/2021/05/similarity-metrics-nlp.html

সময় স্ট্যাম্প:

থেকে আরো কেডনুগেটস

শীর্ষ খবর, সেপ্টেম্বর 13-19: ডেটা ইঞ্জিনিয়ারিং দক্ষতা ছাড়া ডেটা বিজ্ঞানীরা কঠোর সত্যের মুখোমুখি হবেন; দ্য মেশিন অ্যান্ড ডিপ লার্নিং কম্পেনডিয়াম ওপেন বুক

উত্স নোড: 1094099
সময় স্ট্যাম্প: সেপ্টেম্বর 20, 2021

কীভাবে অ্যালগরিদমগুলির সাথে আমাদের আবেশ কম্পিউটারের দৃষ্টিভঙ্গি ভেঙে দেয়: এবং কীভাবে সিন্থেটিক কম্পিউটার ভিশন এটি ঠিক করতে পারে

উত্স নোড: 1178492
সময় স্ট্যাম্প: অক্টোবর 15, 2021