গুগল শীট ওয়েব স্ক্র্যাপিং: 2023 এর জন্য একটি সহজ গাইড

গুগল শীট ওয়েব স্ক্র্যাপিং: 2023 এর জন্য একটি সহজ গাইড

উত্স নোড: 2017383

ওয়েব স্ক্র্যাপিং ওয়েবসাইট থেকে ডেটা বের করার জন্য একটি শক্তিশালী হাতিয়ার হতে পারে, তবে এটি একটি জটিল এবং সময়সাপেক্ষ প্রক্রিয়াও হতে পারে। সৌভাগ্যবশত, Google Sheets জটিল কোড লেখার প্রয়োজন ছাড়াই ওয়েবসাইট থেকে ডেটা স্ক্র্যাপ করার জন্য একটি ব্যবহারকারী-বান্ধব সমাধান অফার করে। Google Sheets-এর শক্তি ব্যবহার করে, আপনি সহজেই ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে পারেন এবং বিভিন্ন উপায়ে বিশ্লেষণ করতে পারেন৷ এই ব্লগে, আমি আপনাকে ওয়েবপৃষ্ঠাগুলি স্ক্র্যাপ করার জন্য Google পত্রক ব্যবহার করার প্রক্রিয়ার মাধ্যমে গাইড করব এবং আপনার নিজের প্রকল্পগুলির জন্য ওয়েব স্ক্র্যাপিংয়ের সম্ভাবনা আনলক করতে সহায়তা করব। চল শুরু করা যাক!

ওয়েব স্ক্র্যাপিং সময়সাপেক্ষ, জটিল এবং প্রচুর কোডিং জড়িত হতে পারে। নন-কোডারদের জন্য। গুগল শীট ওয়েব স্ক্র্যাপিংয়ের জন্য একটি চমৎকার বিকল্প। গুগল শীট ওয়েব স্ক্র্যাপিংয়ে কোন কোডিং নেই এবং ওয়েবসাইট ডেটা বিশ্লেষণ করার অনেক উপায় প্রদান করে।

এই ব্লগে আমরা দেখব কিভাবে সহজে ওয়েবপেজ স্ক্র্যাপ করতে Google Sheets ব্যবহার করতে হয়। চল শুরু করা যাক!

কেন ওয়েব স্ক্র্যাপিংয়ের জন্য গুগল শীট ব্যবহার করবেন?

গুগল শীট ওয়েব স্ক্র্যাপিংয়ের জন্য একটি দুর্দান্ত সরঞ্জাম কেন এমন বেশ কয়েকটি কারণ রয়েছে:

  • Google পত্রক ব্যবহারকারী-বান্ধব এবং একটি পরিচিত ইন্টারফেস রয়েছে৷
  • এটি কোন প্রোগ্রামিং ভাষা জ্ঞান প্রয়োজন.
  • Google পত্রক যেকোনো জায়গা থেকে অ্যাক্সেসযোগ্য।
  • Google পত্রক বিনামূল্যে, এটি ব্যক্তি এবং ছোট ব্যবসার জন্য সাশ্রয়ী করে তোলে৷
  • Google অন্যান্য স্যুট টুলের সাথে সহজেই একত্রিত হয়।
  • আপনি ওয়েব স্ক্র্যাপিং কাজগুলি স্বয়ংক্রিয় করতে ম্যাক্রো বা স্ক্রিপ্ট ব্যবহার করতে পারেন।
  • আপনি গুগল শীট সূত্র ব্যবহার করে সহজেই স্ক্র্যাপ করা ডেটা বিশ্লেষণ করতে পারেন।

মাত্র এক ক্লিকে যেকোনো ওয়েবপেজ থেকে টেক্সট বের করুন। ন্যানোনেটের দিকে যান ওয়েবসাইট স্ক্র্যাপার, URL যোগ করুন এবং "স্ক্র্যাপ" এ ক্লিক করুন এবং ওয়েবপৃষ্ঠার পাঠ্যটিকে একটি ফাইল হিসাবে অবিলম্বে ডাউনলোড করুন৷ এখন বিনামূল্যে এটি চেষ্টা করুন.

Nanonets' ওয়েবসাইট স্ক্র্যাপার


গুগল শীট ওয়েব স্ক্র্যাপিং এর জন্য কোন ফাংশন ব্যবহার করবেন?

এখানে কিছু ফাংশন রয়েছে যা আপনি ব্যবহার করতে পারেন যখন আপনাকে Google পত্রক ব্যবহার করে ওয়েবপৃষ্ঠাগুলি স্ক্র্যাপ করতে হবে৷

IMPORTHTML:

HTML পেজ থেকে টেবিল এবং তালিকা বের করুন।

=IMPORTHTML(url, query, index)
  • url: আপনি যে ওয়েবপৃষ্ঠাটি স্ক্র্যাপ করতে চান তার লিঙ্ক এটি
  • প্রশ্ন: ডেটা টাইপ - টেবিল, তালিকা
  • index: আপনি যদি একটি নির্দিষ্ট টেবিল বের করতে চান তবে আপনি এটি ব্যবহার করতে পারেন

উদাহরণ:

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)","table",1)

IMPORTXML:

XML পৃষ্ঠাগুলি থেকে ডেটা বের করুন।

=IMPORTXML(url, xpath_query)
  • url: আপনি যে ওয়েবপৃষ্ঠাটি স্ক্র্যাপ করতে চান তার লিঙ্ক এটি
  • xpath_query: XPath এক্সপ্রেশন যা আপনি যে ডেটা বের করতে চান তা সনাক্ত করে

উদাহরণ:

=IMPORTXML("https://www.w3schools.com/xml/note.xml", "//note/to")

তথ্য আমদানি:

CSV এবং TSV ফাইল থেকে ডেটা বের করুন।

=IMPORTDATA(url)
  • url: আপনি যে CSV বা TSV ফাইল থেকে ডেটা বের করতে চান তার URL

উদাহরণ:

=IMPORTDATA("https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2021-financial-year-provisional/Download-data/annual-enterprise-survey-2021-financial-year-provisional-size-bands.csv")

REGEXTRACT:

এই ফাংশনটি এমন ডেটা বের করতে পারে যা রেগুলার এক্সপ্রেশন প্যাটার্নের সাথে মেলে।

=REGEXEXTRACT(text, regular_expression)
  • পাঠ্য: আপনি যে পাঠ্যটি প্যাটার্নের জন্য অনুসন্ধান করতে চান
  • regular_expression: আপনি যে প্যাটার্নটি মেলে ধরতে চান

উদাহরণ:

=REGEXEXTRACT("1 pound = $1.40", "$d+.d+")

দ্রষ্টব্য: এই ফাংশনগুলি প্রতিটি ওয়েবসাইটের জন্য কাজ নাও করতে পারে৷ এটি ওয়েবসাইটের লেআউটের উপর নির্ভর করে। আপনার যদি আরও ডেটার প্রয়োজন হয়, আপনি পাইথন এবং জাভা ব্যবহার করে ওয়েব স্ক্র্যাপিং টিউটোরিয়ালগুলি অবলম্বন করতে পারেন বা Nanonets এর মতো ওয়েবসাইট-টু-টেক্সট সরঞ্জামগুলি ব্যবহার করতে পারেন।

আসুন Google পত্রকগুলিতে একটি HTML টেবিল বের করার চেষ্টা করি। আমরা থেকে টেবিল স্ক্র্যাপ করার চেষ্টা করবে একাডেমি পুরস্কার বিজয়ী চলচ্চিত্রের তালিকা উইকিপিডিয়া পৃষ্ঠা।

  1. Google পত্রক খুলুন।
  2. একটি নতুন কক্ষে, টাইপ করুন =IMPORTHTML(url, query, index)

1. আমাদের কোড হয়ে যায়,

 =IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1) 

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_Academy_Award-winning_films","table",1)

উইকিপিডিয়া পৃষ্ঠায় প্রথম টেবিলটি স্ক্র্যাপ করবে

3. ফলাফল পরীক্ষা করুন

গুগল শীট ওয়েব স্ক্র্যাপিং ব্যবহার করে ডেটা কীভাবে স্ক্র্যাপ করবেন?

আসুন দেখুন কিভাবে Google Sheets ব্যবহার করে শিরোনাম, বিবরণ, H1 এবং আরও অনেক কিছু স্ক্র্যাপ করবেন। Google পত্রকগুলির সাথে H1 স্ক্র্যাপিং শুরু করার জন্য, আমরা এই বিশেষটির জন্য IMPORTXML ফাংশন ব্যবহার করব ন্যানোনেট পৃষ্ঠা. এখানে পদক্ষেপগুলি রয়েছে:

  • একটি নতুন বা বিদ্যমান Google পত্রক খুলুন।
  • একটি ঘরে, নিম্নলিখিত সূত্রটি টাইপ করুন:
=IMPORTXML(“https://nanonets.com/image-to-text”, “//h1/text()”)
  • H1 ট্যাগ বের করতে, নিম্নলিখিত XPath এক্সপ্রেশনটি ব্যবহার করুন: //h1/text()
  • শিরোনাম ট্যাগ বের করতে, নিম্নলিখিত XPath অভিব্যক্তিটি ব্যবহার করুন: //title/text()
  • মেটা বর্ণনা ট্যাগ বের করতে, নিম্নলিখিত XPath এক্সপ্রেশন ব্যবহার করুন: //meta[@name='description']/@content
  • সমস্ত পৃষ্ঠার লিঙ্কগুলি বের করতে, নিম্নলিখিত XPath অভিব্যক্তিটি ব্যবহার করুন: //a/@href

এন্টার টিপুন এবং Google পত্রক স্বয়ংক্রিয়ভাবে ডেটা স্ক্র্যাপ করবে এবং নির্বাচিত ঘরে এটি প্রদর্শন করবে।

তারপরে আপনি একই বা ভিন্ন ওয়েব পৃষ্ঠাগুলি থেকে অতিরিক্ত ডেটা স্ক্র্যাপ করতে অন্য কক্ষে সূত্রটি অনুলিপি করতে পারেন।


মাত্র এক ক্লিকে যেকোনো ওয়েবপেজ থেকে টেক্সট বের করুন। ন্যানোনেটের দিকে যান ওয়েবসাইট স্ক্র্যাপার, URL যোগ করুন এবং "স্ক্র্যাপ" এ ক্লিক করুন এবং ওয়েবপৃষ্ঠার পাঠ্যটিকে একটি ফাইল হিসাবে অবিলম্বে ডাউনলোড করুন৷ এখন বিনামূল্যে এটি চেষ্টা করুন.

Nanonets' ওয়েবসাইট স্ক্র্যাপার


গুগল শীট ওয়েব স্ক্র্যাপার ব্যবহার করার অসুবিধাগুলি কী কী?

  • Google পত্রক সীমিত ক্ষমতা আছে. জটিল লেআউটের ক্ষেত্রে, এটি গতিশীল বিষয়বস্তু পরিচালনা করতে পারে না।
  • Google শীট ওয়েব স্ক্র্যাপিং সূত্র ব্যবহার করে ডেটা স্ক্র্যাপ করার সময় ডেটার অসঙ্গতি থাকতে পারে।
  • ওয়েবসাইট থেকে ডেটা স্ক্র্যাপ করার সময়, আপনি অসাবধানতাবশত সংবেদনশীল বা গোপনীয় তথ্য স্ক্র্যাপ করতে পারেন। এটি গোপনীয়তা এবং নিরাপত্তা উদ্বেগ বাড়াতে পারে, বিশেষ করে যদি স্ক্র্যাপ করা ডেটা ভাগ করা হয় বা একটি অনিরাপদ স্থানে সংরক্ষণ করা হয়।

টিপ: গুগল শীট ওয়েব স্ক্র্যাপিং মেটা শিরোনাম, তালিকা বা টেবিল নিষ্কাশনের মতো অ-জটিল ওয়েব স্ক্র্যাপিং কাজের জন্য একটি দুর্দান্ত বিকল্প। জটিল কাজের জন্য, আপনার ওয়েব স্ক্র্যাপিং টুল ব্যবহার করা উচিত।

বিবরণ

আমি কি গুগল শীট দিয়ে ওয়েব স্ক্র্যাপ করতে পারি?

হ্যাঁ, Google পত্রকের অন্তর্নির্মিত বৈশিষ্ট্য রয়েছে যেমন IMPORTHTML, IMPORTXML, IMPORTDATA,

এবং REGEXTRACT যা আপনাকে ওয়েবসাইটগুলি থেকে সরাসরি Google পত্রকগুলিতে ডেটা ক্যাপচার করতে দেয়৷ যাইহোক, কার্যকারিতা সীমিত হতে পারে, এবং আরও জটিল ওয়েব স্ক্র্যাপিং কাজের জন্য একটি পৃথক ওয়েব স্ক্র্যাপার ব্যবহার করা বা কাস্টম কোড লেখার প্রয়োজন হতে পারে।

আমি কিভাবে একটি Google শীটে ডেটা স্ক্র্যাপ করব?

আপনি IMPORTHTML, IMPORTXML, IMPORTDATA, বা REGEXTRACT এর মতো অন্তর্নির্মিত ফাংশনগুলির মধ্যে একটি ব্যবহার করে একটি Google শীটে ডেটা স্ক্র্যাপ করতে পারেন৷ এই ফাংশনগুলি আপনাকে ওয়েবসাইট, CSV বা TSV ফাইলগুলি থেকে ডেটা বের করতে এবং রেগুলার এক্সপ্রেশন প্যাটার্নের সাথে মেলে। সহজভাবে URL, ক্যোয়ারী, সূচী, বা রেগুলার এক্সপ্রেশন প্যাটার্ন নির্দিষ্ট করুন এবং ডেটা স্ক্র্যাপ করা হবে এবং আপনার Google শীটে পপুলেট করা হবে।

সময় স্ট্যাম্প:

থেকে আরো এআই এবং মেশিন লার্নিং