Amazon ESDM adalah layanan data besar yang ditawarkan oleh AWS untuk menjalankan Apache Spark dan aplikasi sumber terbuka lainnya di AWS untuk membangun jaringan pipa data yang dapat diskalakan dengan cara yang hemat biaya. Pemantauan log yang dihasilkan dari pekerjaan yang diterapkan pada klaster EMR sangat penting untuk membantu mendeteksi masalah kritis secara waktu nyata dan mengidentifikasi akar penyebab dengan cepat.
Mendorong log itu ke dalam amazoncloudwatch memungkinkan Anda untuk memusatkan dan mendorong kecerdasan yang dapat ditindaklanjuti dari log Anda untuk mengatasi masalah operasional tanpa perlu menyediakan server atau mengelola perangkat lunak. Anda dapat langsung mulai menulis kueri dengan agregasi, filter, dan ekspresi reguler. Selain itu, Anda dapat memvisualisasikan data deret waktu, menelusuri peristiwa log individual, dan mengekspor hasil kueri ke dasbor CloudWatch.
Untuk menelan log yang bertahan di Cloud komputasi elastis Amazon (Amazon EC2) dari klaster EMR ke CloudWatch, Anda dapat menggunakan Agen CloudWatch. Ini menyediakan cara sederhana untuk mendorong log dari instans EC2 ke CloudWatch.
Agen CloudWatch adalah paket perangkat lunak yang berjalan secara mandiri dan berkelanjutan di server Anda. Anda dapat menginstal dan mengonfigurasi agen CloudWatch untuk mengumpulkan log sistem dan aplikasi dari instans EC2, host lokal, dan aplikasi dalam container. CloudWatch memproses dan menyimpan log yang dikumpulkan oleh agen CloudWatch, yang selanjutnya membantu kinerja dan pemantauan kesehatan infrastruktur dan aplikasi Anda.
Dalam postingan ini, kami membuat klaster EMR dan memusatkan log langkah EMR dari tugas di CloudWatch. Ini akan memudahkan Anda mengelola kluster EMR, memecahkan masalah, dan memantau kinerja. Solusi ini sangat membantu jika Anda ingin menggunakan CloudWatch untuk mengumpulkan dan memvisualisasikan log, metrik, dan data peristiwa secara real-time, menyederhanakan pemeliharaan infrastruktur dan aplikasi Anda.
Ikhtisar solusi
Solusi yang disajikan dalam posting ini didasarkan pada konfigurasi spesifik di mana tingkat konkurensi langkah EMR diatur ke 1. Ini berarti bahwa hanya satu langkah yang dijalankan pada satu waktu di cluster. Penting untuk diperhatikan bahwa jika tingkat konkurensi langkah EMR diatur ke nilai yang lebih besar dari 1, solusinya mungkin tidak berfungsi seperti yang diharapkan. Kami sangat menyarankan untuk memverifikasi Anda konkurensi langkah EMR konfigurasi sebelum menerapkan solusi yang disajikan dalam posting ini.
Diagram berikut menggambarkan arsitektur solusi.
Alur kerja meliputi langkah-langkah berikut:
- Pengguna memulai tugas Apache Spark EMR, membuat langkah di kluster EMR. Menggunakan Apache Spark, beban kerja didistribusikan ke berbagai node cluster EMR.
- Di setiap node (instance EC2) klaster, agen CloudWatch mengawasi direktori log yang berbeda, menangkap entri baru dalam file log dan mendorongnya ke CloudWatch.
- Pengguna dapat melihat log langkah yang mengakses grup log berbeda dari konsol CloudWatch. Log langkah yang ditulis oleh Amazon EMR adalah sebagai berikut:
- pengawas — Informasi tentang pemrosesan langkah. Jika langkah Anda gagal saat memuat, Anda dapat menemukan jejak tumpukan di log ini.
- stderr — Saluran kesalahan standar Spark saat memproses langkah.
- stdout — Saluran keluaran standar Spark saat memproses langkah.
Kami menyediakan Formasi AWS Cloud template dalam posting ini sebagai panduan umum. Template menunjukkan cara mengonfigurasi agen CloudWatch di Amazon EMR untuk mendorong log Spark ke CloudWatch. Anda dapat meninjau dan menyesuaikannya sesuai kebutuhan untuk menyertakan konfigurasi keamanan Amazon EMR Anda. Sebagai praktik terbaik, kami menyarankan untuk menyertakan konfigurasi keamanan Amazon EMR Anda di template mengenkripsi data dalam perjalanan.
Anda juga harus menyadari bahwa beberapa sumber daya yang digunakan oleh tumpukan ini menimbulkan biaya saat tetap digunakan.
Di bagian selanjutnya, kita melalui langkah-langkah berikut:
- Buat dan unggah skrip bootstrap ke an Layanan Penyimpanan Sederhana Amazon (Amazon S3).
- Gunakan template CloudFormation untuk membuat sumber daya berikut:
- Pantau log Spark di konsol CloudWatch.
Prasyarat
Posting ini mengasumsikan bahwa Anda memiliki yang berikut:
Buat dan unggah skrip bootstrap ke bucket S3
Untuk informasi lebih lanjut, lihat Mengunggah objek dan Menginstal dan menjalankan agen CloudWatch di server Anda.
Untuk membuat dan mengunggah skrip bootstrap, selesaikan langkah-langkah berikut:
- Buat file lokal bernama
bootstrap_cloudwatch_agent.sh
dengan konten berikut: - Di konsol Amazon S3, pilih bucket S3 Anda.
- pada benda tab, pilih Unggah.
- Pilih Tambahkan file, lalu pilih skrip bootstrap.
- Pilih Unggah, lalu pilih nama file:
bootstrap_cloudwatch_agent.sh
. - Pilih Salin S3 URI. Kami menggunakan nilai ini di langkah selanjutnya.
Sediakan sumber daya dengan templat CloudFormation
Pilih Luncurkan Stack untuk meluncurkan tumpukan CloudFormation di akun Anda dan menerapkan template:
Templat ini membuat peran IAM, profil instans IAM, parameter Pengelola Sistem, dan kluster EMR. Kluster memulai Aplikasi contoh estimasi Spark PI. Anda akan ditagih untuk sumber daya AWS yang digunakan jika Anda membuat tumpukan dari template ini.
Wizard CloudFormation akan meminta Anda untuk mengubah atau memberikan parameter berikut:
- Jenis Instance - The jenis contoh untuk semua grup contoh. Standarnya adalah m4.xlarge.
- InstanceCountCore – Jumlah instance dalam grup instance inti. Standarnya adalah 2.
- Label Rilis EMRR - The Label rilis Amazon EMR Anda ingin menggunakan. Standarnya adalah emr-6.9.0.
- BootstrapScriptPath – Jalur S3 skrip bootstrap penginstalan agen CloudWatch yang Anda salin sebelumnya.
- Subnet – Subnet EC2 tempat cluster diluncurkan. Anda harus memberikan parameter ini.
- EC2KeyPairNama – Keypair EC2 opsional untuk menghubungkan ke node cluster, sebagai alternatif untuk Session Manager.
Pantau aliran log
Setelah tumpukan CloudFormation berhasil diterapkan, di konsol CloudWatch, pilih Grup log di panel navigasi. Kemudian filter grup log dengan awalan /aws/emr/master
.
ID dalam grup log sesuai dengan ID instans EC2 dari node utama EMR. Jika Anda memiliki beberapa klaster EMR, Anda dapat menggunakan ID ini untuk mengidentifikasi klaster EMR tertentu, berdasarkan ID node utama.
Di grup log, Anda akan menemukan tiga aliran log yang berbeda.
Aliran log berisi informasi berikut:
- langkah-stdout – Saluran keluaran standar Spark saat memproses langkah.
- langkah-stderr – Saluran kesalahan standar Spark saat memproses langkah.
- pengontrol langkah – Informasi tentang pemrosesan langkah. Jika langkah Anda gagal saat memuat, Anda dapat menemukan jejak tumpukan di log ini.
Membersihkan
Untuk menghindari tagihan di masa mendatang di akun Anda, hapus sumber daya yang Anda buat di panduan ini. Kluster EMR akan dikenakan biaya selama kluster aktif, jadi hentikan setelah selesai.
- Di konsol CloudFormation, di panel navigasi, pilih Tumpukan.
- Pilih tumpukan yang Anda luncurkan (
EMR-CloudWatch-Demo
), lalu pilih Delete. - Kosongkan wadah S3 Anda buat.
- Hapus keranjang S3 Anda buat.
Kesimpulan
Sekarang setelah Anda menyelesaikan langkah-langkah dalam panduan ini, Anda memiliki agen CloudWatch yang berjalan di host klaster Anda dan dikonfigurasikan untuk mendorong log langkah EMR ke CloudWatch. Dengan fitur ini, Anda dapat secara efektif memantau kesehatan dan kinerja pekerjaan Spark Anda yang berjalan di Amazon EMR, mendeteksi masalah kritis secara waktu nyata dan mengidentifikasi akar penyebab dengan cepat.
Anda dapat mengemas dan menerapkan solusi ini melalui template CloudFormation seperti template contoh ini, yang membuat peran profil instans IAM, parameter Pengelola Sistem, dan kluster EMR.
Untuk melangkah lebih jauh, pertimbangkan untuk menggunakan log ini di alarm CloudWatch untuk peringatan di a filter grup-metrik log. Anda bisa mengumpulkannya dengan alarm lain ke dalam a alarm komposit atau konfigurasikan tindakan alarm seperti pengiriman Layanan Pemberitahuan Sederhana Amazon (Amazon SNS) pemberitahuan untuk memicu proses yang digerakkan oleh peristiwa seperti AWS Lambda fungsi.
tentang Penulis
Ennio Pastore adalah Arsitek Data Senior di tim AWS Data Lab. Dia adalah penggila segala sesuatu yang berhubungan dengan teknologi baru yang berdampak positif pada bisnis dan mata pencaharian umum. Ennio memiliki lebih dari 10 tahun pengalaman dalam analitik data. Dia membantu perusahaan mendefinisikan dan mengimplementasikan platform data lintas industri, seperti telekomunikasi, perbankan, game, ritel, dan asuransi.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/big-data/push-amazon-emr-step-logs-from-amazon-ec2-instances-to-amazon-cloudwatch-logs/
- :adalah
- 1
- 10
- 100
- 9
- a
- Tentang Kami
- mengakses
- Akun
- di seluruh
- tindakan
- aktif
- tambahan
- alamat
- Agen
- alarm
- alert
- Semua
- alternatif
- Amazon
- Amazon EC2
- Amazon ESDM
- analisis
- dan
- Apache
- Apache Spark
- Aplikasi
- aplikasi
- arsitektur
- ADALAH
- AS
- At
- secara mandiri
- AWS
- Perbankan
- berdasarkan
- BE
- sebelum
- mulai
- TERBAIK
- Besar
- Big data
- Bootstrap
- membangun
- bisnis
- by
- CAN
- Menangkap
- penyebab
- Saluran
- beban
- Pilih
- Kelompok
- mengumpulkan
- Perusahaan
- lengkap
- Lengkap
- menghitung
- konfigurasi
- Menghubungkan
- Mempertimbangkan
- konsul
- Konten
- terus menerus
- Core
- berkorespondensi
- hemat biaya
- Biaya
- bisa
- membuat
- dibuat
- menciptakan
- membuat
- kritis
- menyesuaikan
- data
- Data Analytics
- Default
- menunjukkan
- menyebarkan
- dikerahkan
- menyebarkan
- berbeda
- direktori
- didistribusikan
- turun
- mendorong
- setiap
- Terdahulu
- mudah
- gema
- efektif
- memungkinkan
- penggemar
- kesalahan
- penting
- Eter (ETH)
- Acara
- peristiwa
- segala sesuatu
- contoh
- diharapkan
- pengalaman
- ekspor
- ekspresi
- gagal
- Fitur
- File
- File
- menyaring
- filter
- Menemukan
- berikut
- berikut
- Untuk
- dari
- fungsi
- lebih lanjut
- masa depan
- game
- Umum
- dihasilkan
- Go
- lebih besar
- Kelompok
- Grup
- membimbing
- Memiliki
- Kesehatan
- membantu
- bermanfaat
- membantu
- sangat
- host
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTML
- http
- HTTPS
- IAM
- ID
- mengenali
- mengidentifikasi
- Dampak
- melaksanakan
- mengimplementasikan
- penting
- in
- memasukkan
- termasuk
- Termasuk
- sendiri-sendiri
- industri
- informasi
- Infrastruktur
- install
- Instalasi
- contoh
- asuransi
- Intelijen
- masalah
- IT
- Pekerjaan
- Jobs
- jpg
- json
- laboratorium
- jalankan
- diluncurkan
- meluncurkan
- Tingkat
- 'like'
- pemuatan
- lokal
- Panjang
- pemeliharaan
- membuat
- mengelola
- manajer
- cara
- cara
- Metrik
- memodifikasi
- Memantau
- pemantauan
- lebih
- beberapa
- nama
- Bernama
- Navigasi
- dibutuhkan
- membutuhkan
- New
- Teknologi baru
- berikutnya
- simpul
- node
- pemberitahuan
- pemberitahuan
- jumlah
- of
- ditawarkan
- on
- ONE
- open source
- operasional
- Lainnya
- keluaran
- paket
- pane
- parameter
- parameter
- tertentu
- khususnya
- path
- prestasi
- Platform
- plato
- Kecerdasan Data Plato
- Data Plato
- positif
- Pos
- praktek
- disajikan
- primer
- proses
- pengolahan
- Profil
- memberikan
- menyediakan
- ketentuan
- Dorong
- Mendorong
- segera
- nyata
- real-time
- sarankan
- reguler
- terkait
- melepaskan
- tinggal
- Sumber
- Hasil
- eceran
- ulasan
- Peran
- akar
- Run
- berjalan
- terukur
- bagian
- keamanan
- mengirim
- senior
- Seri
- layanan
- Sidang
- set
- harus
- Sederhana
- So
- Perangkat lunak
- larutan
- beberapa
- percikan
- tertentu
- tumpukan
- standar
- awal
- Mulai
- dimulai
- Langkah
- Tangga
- berhenti
- penyimpanan
- toko
- pelurusan
- stream
- subnet
- berhasil
- seperti itu
- Sudo
- sistem
- sistem
- Mengambil
- tim
- Teknologi
- telekomunikasi
- Template
- bahwa
- Grafik
- Mereka
- Ini
- tiga
- Melalui
- waktu
- Seri waktu
- untuk
- jejak
- memicu
- menggunakan
- nilai
- memverifikasi
- View
- walkthrough
- jam tangan
- Cara..
- yang
- sementara
- akan
- dengan
- tanpa
- Kerja
- alur kerja
- penulisan
- tertulis
- yaml
- tahun
- Anda
- zephyrnet.dll