Amazon SageMaker Data Wrangler দিয়ে JSON এবং ORC ডেটা প্রস্তুত ও বিশ্লেষণ করুন

উত্স নোড: 1600106

অ্যামাজন সেজমেকার ডেটা র্যাংলার এর একটি নতুন ক্ষমতা আমাজন সেজমেকার এটি ডেটা বিজ্ঞানী এবং প্রকৌশলীদের জন্য একটি ভিজ্যুয়াল ইন্টারফেসের মাধ্যমে মেশিন লার্নিং (ML) অ্যাপ্লিকেশনগুলির জন্য ডেটা প্রস্তুত করতে দ্রুত করে তোলে৷ ডেটা প্রস্তুতি হল ML জীবনচক্রের একটি গুরুত্বপূর্ণ পদক্ষেপ, এবং ডেটা র‍্যাংলার একটি বিরামহীন, ভিজ্যুয়াল, লো-কোড অভিজ্ঞতায় ML-এর জন্য ডেটা আমদানি, প্রস্তুত, রূপান্তর, বৈশিষ্ট্যযুক্ত এবং বিশ্লেষণের জন্য একটি শেষ থেকে শেষ সমাধান প্রদান করে৷ এটি আপনাকে সহজেই এবং দ্রুত AWS উপাদানগুলির সাথে সংযোগ করতে দেয় আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, এবং AWS লেক গঠন, এবং বাহ্যিক উত্স যেমন স্নোফ্লেক। ডেটা র্যাংলার CSV এবং Parquet-এর মতো স্ট্যান্ডার্ড ডেটা প্রকারগুলিকেও সমর্থন করে৷

ডেটা র‍্যাংলার এখন অতিরিক্তভাবে অপ্টিমাইজ করা সারি কলামারকে সমর্থন করে (ওআরসি), জাভাস্ক্রিপ্ট অবজেক্ট নোটেশন (JSON), এবং JSON লাইনস (JSONL) ফাইল ফরম্যাট:

  • ওআরসি - ORC ফাইল ফরম্যাট হাইভ ডেটা সঞ্চয় করার একটি অত্যন্ত কার্যকর উপায় প্রদান করে। এটি অন্যান্য হাইভ ফাইল ফরম্যাটের সীমাবদ্ধতা অতিক্রম করার জন্য ডিজাইন করা হয়েছিল। হাইভ ডেটা পড়া, লেখা এবং প্রক্রিয়াকরণ করার সময় ORC ফাইলগুলি ব্যবহার করে কার্যক্ষমতা উন্নত হয়। Hadoop ইকোসিস্টেমে ORC ব্যাপকভাবে ব্যবহৃত হয়।
  • তাদেরকে JSON - JSON ফাইল ফরম্যাট হল একটি হালকা ওজনের, সাধারণত ব্যবহৃত ডেটা ইন্টারচেঞ্জ ফরম্যাট।
  • JSONL – JSON লাইন, যাকে নিউলাইন-ডিলিমিটেড JSONও বলা হয়, স্ট্রাকচার্ড ডেটা সংরক্ষণের জন্য একটি সুবিধাজনক ফর্ম্যাট যা একবারে একটি রেকর্ড প্রক্রিয়া করা যেতে পারে।

ডেটাসেটগুলি ডেটা র্যাংলারে আমদানি করার আগে আপনি ORC, JSON, এবং JSONL ডেটার পূর্বরূপ দেখতে পারেন৷ আপনি ডেটা আমদানি করার পরে, আপনি JSON স্ট্রিং বা অ্যারে ধারণ করে এমন কলামগুলির সাথে কাজ করতে সদ্য চালু হওয়া ট্রান্সফরমারগুলির মধ্যে একটি ব্যবহার করতে পারেন যা সাধারণত নেস্টেড JSONগুলিতে পাওয়া যায়।

ডেটা র্যাংলারের সাথে ORC ডেটা আমদানি এবং বিশ্লেষণ করুন

ডাটা র‍্যাংলারে ওআরসি ডেটা আমদানি করা সহজ এবং অন্য কোনও সমর্থিত ফর্ম্যাটে ফাইল আমদানি করার মতো। Amazon S3 এ আপনার ORC ফাইল ব্রাউজ করুন এবং বিশদ বিবরণ ফলক, আমদানির সময় ফাইলের ধরন হিসাবে ORC নির্বাচন করুন।

আপনি যদি ডেটা র্যাংলারে নতুন হন, পর্যালোচনা করুন ডেটা র্যাংলার দিয়ে শুরু করুন. এছাড়াও, দেখুন আমদানি বিভিন্ন আমদানি বিকল্প সম্পর্কে জানতে.

ডেটা র্যাংলারের সাথে JSON ডেটা আমদানি এবং বিশ্লেষণ করুন

এখন Data Wrangler এর সাথে JSON ফরম্যাটে ফাইল ইম্পোর্ট করি এবং JSON স্ট্রিং বা অ্যারে ধারণ করে এমন কলামগুলির সাথে কাজ করি। আমরা নেস্টেড JSON এর সাথে কীভাবে মোকাবিলা করতে হয় তাও প্রদর্শন করি। ডেটা র্যাংলারের সাথে, Amazon S3 থেকে JSON ফাইল আমদানি করা একটি বিরামহীন প্রক্রিয়া। এটি অন্য কোনো সমর্থিত বিন্যাসে ফাইল আমদানি করার মতো। আপনি ফাইলগুলি আমদানি করার পরে, আপনি নিম্নলিখিত স্ক্রিনশটে দেখানো হিসাবে JSON ফাইলগুলির পূর্বরূপ দেখতে পারেন৷ ফাইলের ধরনটি JSON-এ সেট করা নিশ্চিত করুন৷ বিশদ বিবরণ পেন।

এর পরে, আসুন আমদানি করা JSON ফাইলের কাঠামোগত কলামগুলিতে কাজ করি।

JSON ফাইলে স্ট্রাকচার্ড কলামগুলি মোকাবেলা করার জন্য, ডেটা র্যাংলার দুটি নতুন রূপান্তর প্রবর্তন করছে: সমতল স্ট্রাকচার্ড কলাম এবং অ্যারে কলাম বিস্ফোরিত করুন, যা নীচে পাওয়া যাবে কাঠামোবদ্ধ কলাম পরিচালনা করুন বিকল্প মধ্যে ট্রান্সফর্ম যোগ করুন পেন।

এর প্রয়োগ করে শুরু করা যাক অ্যারে কলাম বিস্ফোরিত করুন আমাদের আমদানি করা ডেটার একটি কলামে রূপান্তর করুন। রূপান্তর প্রয়োগ করার আগে, আমরা কলামটি দেখতে পারি topping এর সাথে JSON অবজেক্টের একটি অ্যারে id এবং type কি।

আমরা রূপান্তর প্রয়োগ করার পরে, আমরা ফলাফল হিসাবে যোগ করা নতুন সারিগুলি পর্যবেক্ষণ করতে পারি। অ্যারের প্রতিটি উপাদান এখন ডেটাফ্রেমে একটি নতুন সারি।

এখন প্রয়োগ করা যাক সমতল স্ট্রাকচার্ড কলাম উপর রূপান্তর topping_flattened কলাম যা এর ফলে তৈরি হয়েছিল অ্যারে কলাম বিস্ফোরিত করুন রূপান্তর আমরা পূর্ববর্তী ধাপে প্রয়োগ করেছি।

রূপান্তর প্রয়োগ করার আগে, আমরা কীগুলি দেখতে পারি id এবং type মধ্যে topping_flattened কলাম।

রূপান্তর প্রয়োগ করার পরে, আমরা এখন কীগুলি পর্যবেক্ষণ করতে পারি id এবং type অধীনে topping_flattened নতুন কলাম হিসাবে কলাম topping_flattened_id এবং topping_flattened_type, যা রূপান্তরের ফলে তৈরি হয়। আপনার কাছে কমা দ্বারা আলাদা করা কী নামগুলি প্রবেশ করে শুধুমাত্র নির্দিষ্ট কীগুলিকে সমতল করার বিকল্প রয়েছে৷ চাবি চ্যাপ্টা. যদি খালি রাখা হয়, JSON স্ট্রিং বা স্ট্রাকটের ভিতরের সমস্ত কী সমতল করা হয়।

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে ORC এবং JSON-এ ফাইল ফরম্যাট সহজে Data Wrangler-এর মাধ্যমে আমদানি করা যায়। আমরা নতুন চালু হওয়া রূপান্তরগুলিও প্রয়োগ করেছি যা আমাদেরকে JSON ডেটাতে যেকোন কাঠামোগত কলামকে রূপান্তর করতে দেয়। এটি JSON স্ট্রিং বা অ্যারে ধারণ করে এমন কলামগুলির সাথে কাজ করা একটি বিরামহীন অভিজ্ঞতা তৈরি করে৷

পরবর্তী পদক্ষেপ হিসাবে, আমরা আপনাকে আপনার নিজস্ব ডেটা র্যাংলার ভিজ্যুয়াল ইন্টারফেসে প্রদর্শিত উদাহরণগুলি প্রতিলিপি করার পরামর্শ দিই। আপনার যদি ডেটা র‍্যাংলার সম্পর্কিত কোনো প্রশ্ন থাকে, তাহলে নির্দ্বিধায় মন্তব্য বিভাগে সেগুলি ছেড়ে দিন।


লেখক সম্পর্কে

বালাজী তোমামালা অ্যামাজন সেজমেকারের একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি অ্যামাজন সেজমেকার ডেটা র্যাংলারকে সহায়তা করেন এবং পারফরম্যান্স এবং স্কেলেবল সফ্টওয়্যার তৈরির বিষয়ে উত্সাহী। কাজের বাইরে, তিনি গল্প পড়া এবং ভলিবল খেলা উপভোগ করেন।

অরুণপ্রসথ শংকর AWS এর সাহায্যে একটি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং (এআই / এমএল) বিশেষজ্ঞ সলিউশন সমাধান আর্কিটেক্ট যা বিশ্বব্যাপী গ্রাহকদের মেঘে কার্যকরভাবে এবং দক্ষতার সাথে তাদের এআই সমাধানগুলি স্কেল করতে সহায়তা করে। অল্প সময়ে, অরুণ সায়েন্স-ফাই সিনেমা দেখা এবং শাস্ত্রীয় সংগীত শুনতে উপভোগ করেন।

সূত্র: https://aws.amazon.com/blogs/machine-learning/prepare-and-analyze-json-and-orc-data-with-amazon-sagemaker-data-wrangler/

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং ব্লগ