Optimalkan Analisis Data Anda dengan Amazon Athena: Fitur, Manfaat, dan Strategi Biaya

Posted by taufik

May 27, 2024

Amazon Athena

Amazon Athena adalah layanan kueri interaktif berbasis SQL yang sangat fleksibel dan mudah digunakan terutama untuk data yang disimpan di Amazon Simple Storage Service (S3). Amazon S3 adalah layanan AWS yang memudahkan komputasi skala web dengan berbagai kegunaan, seperti penyimpanan data, pengarsipan, hosting situs web, pencadangan dan pemulihan data, serta hosting aplikasi. 

Amazon Athena membantu Anda menganalisis data besar, baik itu data tidak terstruktur, semi-terstruktur, maupun terstruktur. Layanan ini sangat berguna untuk berbagai kebutuhan seperti penelitian, analisis log, dan Online Analytical Processing (OLAP). Penggunaannya sangat sederhana—cukup pilih data di Amazon S3, tentukan skema, dan jalankan kueri dengan SQL kemudian data akan langsung tersedia untuk Anda. 

Anda bisa mengakses Amazon Athena melalui AWS Management Console, API, atau driver ODBC atau JDBC. Dengan menggunakan driver ODBC atau JDBC, Anda bisa menjalankan kueri, menambahkan tabel atau partisi secara otomatis. 

Untuk memulai menggunakan Amazon Athena, Anda dapat masuk ke AWS Management Console untuk Athena. Di sana, Anda dapat membuat skema dengan menulis pernyataan Data Definition Language (DDL) di konsol atau menggunakan wizard pembuatan tabel. Setelah itu, Anda dapat langsung mulai mengkueri data menggunakan editor kueri bawaan. Athena mengkueri data langsung dari Amazon S3 sehingga Anda tidak perlu memuat data terlebih dahulu. 

Benefit dan fitur dari Amazon Athena

Serverless

Amazon Athena adalah layanan tanpa server, jadi Anda tidak perlu repot mengelola infrastrukturnya. Meskipun begitu, Anda tetap bisa mendapatkan kinerja cepat tanpa harus mengatur cluster atau hal-hal teknis lainnya. Kueri dapat dilakukan secara otomatis secara bersamaan, bahkan pada data yang sangat besar. Data disimpan di Amazon S3 dengan tingkat keandalan sangat tinggi yang mencapai 99,999999999% untuk setiap objek yang tersimpan. 

Mudah melakukan kueri SQL

Amazon Athena mudah digunakan karena Anda tak perlu memahami ETL yang rumit. Arsitektur Athena juga fleksibel, jadi Anda tidak terikat pada satu vendor atau layanan tertentu. Anda bisa menggunakan berbagai format file open source dan beralih antar mesin kueri tanpa harus ubah skema data yang sudah ada. Anda juga bisa menjalankan beberapa kueri sekaligus. 

Integrasi dengan Layanan AWS

Untuk meningkatkan efisiensi dan fungsionalitas analitik data, Anda dapat mengintegrasikan Amazon Athena dengan berbagai layanan AWS lainnya. Misalnya, integrasi dengan Amazon S3 memudahkan akses dan pengelolaan data secara efisien. 

Anda juga dapat menghubungkan Athena dengan AWS Lambda dan Glue untuk mengotomatisasi proses analitik dan ETL sehingga mengurangi pekerjaan manual. Selain itu, integrasi dengan QuickSight dan CloudWatch menyediakan alat untuk visualisasi dan pemantauan hasil kueri. 

Penggunaan Redshift Spectrum dan CloudTrail bersama Athena memungkinkan fleksibilitas dalam memilih alat terbaik untuk setiap kebutuhan analitik, sekaligus memastikan data tetap skalabel dan aman. 

High-Speed Performance

Athena dirancang untuk memberikan kinerja yang cepat. Arsitekturnya dapat secara otomatis menangani kueri dalam ukuran atau tingkat kompleksitas apa pun, sehingga menghasilkan hasil dengan cepat, bahkan pada dataset yang besar. 

Harga AWS Athena

Anda hanya membayar untuk jumlah data yang diproses oleh kueri SQL yang Anda jalankan. Biaya dihitung berdasarkan jumlah terabyte (TB) data yang diproses dengan biaya sebesar $5 per TB. 

Model pembayaran per kueri ini menawarkan fleksibilitas, tetapi juga memiliki kelemahan. Jika kueri tidak direncanakan dengan baik, hal ini bisa menyebabkan biaya yang tidak terduga. Tanpa kueri yang efisien dan strategi partisi yang tepat, Anda mungkin secara tidak sengaja mengakses data yang tidak diperlukan, yang pada akhirnya meningkatkan biaya secara tidak perlu. 

Berikut adalah cara untuk mengurangi biaya: 

Manfaatkan Partisi: Bagi data menjadi beberapa partisi, seperti berdasarkan tanggal atau kategori. Dengan cara ini, Athena hanya akan memproses partisi yang relevan dengan kueri Anda sehingga mengurangi jumlah data yang diproses. 

Kompresi Data: Kompresi data sebelum menyimpannya di S3 dapat mengurangi biaya karena data yang terkompresi memerlukan lebih sedikit ruang penyimpanan dan waktu pemrosesan. 

Gunakan Format Data Terkompresi: Memakai format data kolumnar seperti Apache Parquet atau ORC dapat mengurangi jumlah data yang diproses secara signifikan karena hanya kolom yang relevan dengan kueri yang akan diproses. 

Contoh perhitungan biaya, jika Anda memiliki data sebesar 1 TB di S3 dan Anda menjalankan kueri yang memproses seluruh data tersebut. Biaya untuk kueri ini akan dihitung sebagai berikut: 

– 1 TB data x $5 per TB = $5 

Namun, jika Anda menggunakan partisi dan hanya memproses 100 GB (0,1 TB) dari data tersebut, biaya akan menjadi: 

– 0,1 TB data x $5 per TB = $0,50 

Amazon Athena tidak mengenakan biaya tambahan untuk pengaturan atau administrasi layanan. Anda hanya membayar berdasarkan data yang diproses oleh kueri Anda, tanpa biaya minimum atau komitmen jangka panjang. Namun, ada biaya tambahan jika Anda: 

  • Transfer data masuk ke Athena gratis, namun transfer data keluar dapat dikenakan biaya tambahan. 
  • Ada biaya tambahan untuk penyimpanan data di Amazon S3. 
  • Memanfaatkan layanan tambahan atau fitur lain di AWS yang terkait dengan Athena seperti transfer data antar wilayah atau penggunaan enkripsi. 

Kapan Harus Menggunakan Amazon Athena Dibandingkan dengan Layanan Big Data Lainnya

Selain Amazon Athena, AWS juga menawarkan berbagai layanan analitik lainnya seperti Amazon Redshift, AWS Glue dan Amazon EMR yang masing-masing memiliki kekuatan dan kegunaan tertentu. Berikut adalah panduan tentang kapan sebaiknya Anda menggunakan Amazon Athena dibandingkan dengan layanan AWS lainnya. 

Kebutuhan Analisis Ad-hoc

Jika Anda punya data di Amazon S3 dan butuh alat untuk menjalankan kueri SQL serverless, Anda bisa langsung menggunakan Athena tanpa harus mengurus kluster atau basis data. 

Format Data yang Didukung

Athena mendukung berbagai format data seperti CSV, JSON, ORC, Avro, dan Parquet. Jika data Anda tersimpan dalam berbagai format di S3, Anda dapat langsung menganalisisnya tanpa perlu mengubah formatnya terlebih dahulu. 

Pemrosesan Data yang Sederhana

Anda hanya perlu memproses data dengan tugas-tugas sederhana seperti penyaringan, penggabungan, dan agregasi dataset. 

Integrasi dengan AWS Glue Data Catalog

Jika Anda sudah menggunakan AWS Glue untuk mengatur data Anda, Athena bisa langsung menjalankan kueri SQL pada data yang sudah terdaftar di katalog Glue.

Namun, kapan Anda sebaiknya menggunakan layanan analitik AWS lainnya adalah ketika: 

Amazon Redshift 

  • Anda memerlukan platform data warehousing untuk menganalisis data besar dan kompleks dengan performa tinggi. 
  • Anda ingin mengintegrasikan data dari berbagai sumber dan melakukan kueri kompleks serta membuat laporan interaktif. 
  • Anda mencari kemampuan OLAP (Online Analytical Processing) yang canggih dan integrasi yang kuat dengan alat BI (Business Intelligence) seperti Tableau, Looker, atau Amazon QuickSight. 

AWS Glue 

  • Anda memerlukan layanan ETL (Extract, Transform, Load) untuk mengumpulkan, membersihkan, dan memproses data dari berbagai sumber sebelum disimpan di S3 atau dimuat ke dalam data warehouse seperti Redshift. 
  • Anda membutuhkan otomatisasi untuk mengelola data dan metadata dengan efisien. 

Amazon EMR (Elastic MapReduce) 

  • Jika Anda harus mengolah data dalam jumlah besar menggunakan kerangka kerja seperti Apache Hadoop, Spark, HBase, atau Presto. 
  • Jika Anda ingin memiliki kendali penuh terhadap konfigurasi kluster dan kemampuan untuk meningkatkan kinerja pemrosesan data. 
  • Jika Anda bekerja dengan big data dan memerlukan solusi yang dapat disesuaikan untuk mengolah data dalam batch dan streaming yang rumit. 

 Amazon Athena bersama Central Data Technology

Jadi, gunakan Amazon Athena ketika Anda butuh solusi cepat dan mudah untuk menganalisis data ad-hoc yang tersimpan di S3, serta jika Anda menginginkan integrasi dengan AWS Glue Data Catalog serta berbagai format data. AWS Athena menawarkan solusi canggih tanpa server untuk kueri pada data besar di Amazon S3. Meski model harga pay-per-query memberi fleksibilitas, penting untuk mengelola dan mengoptimalkan biaya AWS Athena secara efektif.  Sebagai Advanced Partner AWS, Central Data Technology dapat membantu Anda memahami rincian harga Athena, menerapkan strategi pengoptimalan biaya, dan membantu dalam memilih layanan AWS lainnya untuk analitik yang efisien dan hemat biaya. Hubungi kami sekarang di sini. 

whatsapp icon.png
Start a Conversation

Privacy & Policy

PT Central Data Technology (“CDT” or “us”) is strongly committed to ensuring that your privacy is protected as utmost importance to us. https://centraldatatech.com/ , we shall govern your use of this website, including all pages within this website (collectively referred to herein below as this “Website”), we want to contribute to providing a safe and secure environment for visitors.

The following are terms of privacy policy (“Privacy Policy”) between you (“you” or “your”) and CDT. By accessing the website, you acknowledge that you have read, understood and agree to be bound by this Privacy Policy

Use of The Subscription Service by CDT and Our Customers

When you request information from CDT and supply information that personally identifies you or allows us to contact you, you agree to disclose that information with us. CDT may disclose such information for marketing, promotional and activity only for the purpose of CDT and the Website.

Collecting Information

You are free to explore the Website without providing any personal information about yourself. When you visit the Website or register for the subscription service, we provide some navigational information for you to fill out your personal information to access some content we offered.

CDT may collect your personal data such as your name, email address, company name, phone number and other information about yourself or your business. We are collecting your data in some ways, online and offline. CDT collects your data online using features of social media, email marketing, website, and cookies technology. We may collect your data offline in events like conference, gathering, workshop, etc. However, we will not use or disclose those informations with third party or send unsolicited email to any of the addresses we collect, without your express permission. We ensure that your personal identities will only be used in accordance with this Privacy Policy.

How CDT Use the Collected Information

CDT use the information that is collected only in compliance with this privacy policy. Customers who subscribe to our subscription services are obligated through our agreements with them to comply with this Privacy Policy.

In addition to the uses of your information, we may use your personal information to:

  • Improve your browsing experience by personalizing the websites and to improve the subscription services.
  • Send information about CDT.
  • Promote our services to you and share promotional and informational content with you in accordance with your communication preferences.
  • Send information to you regarding changes to our customers’ terms of service, Privacy Policy (including the cookie policy), or other legal agreements

Cookies Technology

Cookies are small pieces of data that the site transfers to the user’s computer hard drive when the user visits the website. Cookies can record your preferences when visiting a particular site and give the advantage of identifying the interest of our visitor for statistical analysis of our site. This information can enable us to improve the content, modifying and making our site more user friendly.

Cookies were used for some reasons such as technical reasons for our website to operate. Cookies also enable us to track and target the interest of our users to enhance the experience of our website and subscription service. This data is used to deliver customized content and promotions within the Helios to customers who have an interest on particular subjects.

You have the right to decide whether to accept or refuse cookies. You can edit your cookies preferences on browser setup. If you choose to refuse the cookies, you may still use our website though your access to some functionality and areas of our website may be restricted.

This Website may also display advertisements from third parties containing links to other websites of interest. Once you have used these links to leave our site, please note that we do not have any control over the website. CDT cannot be responsible for the protection and privacy of any information that you provide while visiting such websites and this Privacy Policy does not govern such websites.

Control Your Personal Data

CDT give control to you to manage your personal data. You can request access, correction, updates or deletion of your personal information. You may unsubscribe from our marketing activity by clicking unsubscribe us from the bottom of our email or contacting us directly to remove you from our subscription list.

We will keep your personal information accurate, and we allow you to correct or change your personal identifiable information through marketing@centraldatatech.com