Paper Legendaris Pembuka Pintu Era Teknologi Big Data dan Cloud Computing dari Google

Data yang dihasilkan di Internet setiap menitnya - domo.com
Data yang dihasilkan di Internet setiap menitnya – domo.com

Lahirnya Era Big Data dan Cloud Computing

Suatu Era pasti ada awal dan akhirnya. Demikian pula yang terjadi pada Era Big Data dan Cloud Computing. Perkembangan Era Big tidak bisa terlepas dari Era Internet yang dimulai dari penelitian di tahun 1960-an hingga saat ini yang memungkinkan semua komputer terhubung ke dalam suatu jaringan berskala global sehingga mempermudah pertukaran data dan aliran informasi ke seluruh dunia (hingga saat ini diperkirakan lebih dari 1 milyar perangkat yang terhubung dengan Internet). Internet juga telah melahirkan aplikasi-aplikasi populer seperti email, chat apps, VOIP (Voice Over Internet Protocol), FTP, dan yang paling populer adalah World Wide Web (biasa disebut Web) sehingga lahirlah Era World Wide Web (atau singkatnya Era Web).

Era Web dimulai saat Tim Berners-Lee memperkenalkan teknologi hyperlink, web server, HTML (Hypertext Markup Language), dan URL (Uniform Resource Locator) dan URI (Uniform Resource Identifier), pada tahun 1991. Teknologi ini memungkinkan berbagi informasi dalam wujud teks, gambar, video, dan konten multimedia lainnya serta dapat melakukan navigasi dengan menggunakan hyperlink (tautan). Seiring bertambahnya waktu, informasi yang terdapat pada Web semakin banyak dan pencarian terhadap informasi yang tepat juga semakin sulit, untuk itulah muncul layanan mesin pencari (search engine) yang membantu pengguna Internet mencari informasi pada Web. Hingga saat ini diperkirakan lebih dari 4,44 milyar halaman web yang tersedia di Internet.

Dan dari Internet dan Web juga lahir layanan online yang dapat menggantikan program-program tradisional yang ada di desktop seperti email client, word processor, dan lain-lain. Layanan online tersebutlah yang disebut dengan layanan cloud computing. Layanan cloud computing terdiri dari 3 kelompok berdasarkan jenis model layanannya yaitu IaaS (Infrastructure as a Service, contohnya: Windows Azure, Amazon AWS, & Google Compute Engine), PaaS (Platform as a Service, contohnya: Windows Azure, Amazon AWS, Salesforce.com, & Google App Engine), dan SaaS (Software as a Service, hampir semua aplikasi web populer yang kita gunakan seperti Facebook, YouTube, Google Search, Gmail, MS Office 365, dll). Saat ini layanan cloud computing sudah menjadi bagian hidup dari pengguna Internet dunia.

Data yang dikelola dan dihasilkan oleh layanan cloud computing ini sangatlah besar, sebagai contoh Facebook dan Google Search. Pada September 2014, Facebook telah memiliki lebih 800 juta pengguna aktif. Seperti terlihat pada gambar diawal artikel ini, setiap menitnya pengguna Facebook membagikan dari lebih dari 2,4 juta konten yang bermacam-macam seperti update status, gambar, video, undangan bermain game, tombol like, dan lain-lain. Di sisi lain Google harus mengumpulkan data dan informasi sebanyak mungkin dari 4,44 milyar halaman web yang ada di Internet dimana di dalamnya terdapat gambar, video, dokumen, dan konten lainnya. Selain itu setiap ketukan keyboard yang kita lakukan, setiap klik yang kita lakukan pada tautan hasil pencarian, setiap klik pada iklan, dan kegiatan lainnya dicatat oleh Google dan akan digunakan untuk memperbaiki produk dan hasil pencarian. Bukan hanya pengguna yang menghasilkan data, tetapi ribuan bahkan jutaan mesin yang ada di dalam data center juga menghasilkan data yang tidak kalah besarnya. Bahkan menurut sebuah penelitian pada tahun 2013, 90% data yang ada di dunia saat ini, dihasilkan pada dua tahun belakangan.

Setiap hari perusahaan-perusahaan teknologi raksasa ini harus berhadapan dengan data yang sangat besar dengan skala petabytes (1 petabyte = 1 juta Gigabyte) setiap harinya. Selain volume data yang sangat masif, kecepatan data yang mengalir ke dalam sistem mereka juga sangat tinggi dan jenis data yang harus disimpan sangat beragam. Data yang sangat besar tersebut harus diolah untuk dapat menghasilkan informasi yang berharga dan membantu proses pengambilan keputusan. Dan dari ilustrasi itulah kita dapat mengenal Era Big Data. Big Data ditandai dengan ciri-ciri volume data yang sangat besar, kecepatan data aliran data yang tinggi, dan juga ragam data yang harus disimpan dan olah juga bermacam-macam. Ketiga faktor big data itu pula yang menjadi tantangan bagi penyedia layanan cloud computing.

 Solusi big data berawal dari sebuah paper

Pada tahun awal tahun 2000-an tidak banyak solusi yang dapat digunakan perusahaan-perusahaan untuk menyimpan dan mengolah data dalam jumlah yang sangat besar. Kalaupun ada solusi tersebut sangatlah mahal dan tidak terjangkau oleh perusahaan-perusahaan kecil yang baru saja berdiri. Kemudian pada tahun 2003, pada konferensi tingkat dunia yang diadakan dua tahun sekali, ACM Symposium on Operating Systems Principles (SOSP), di New York pada saat itu, Google membawakan sebuah paper yang berjudul ‘The Google File System‘ (GFS). Paper tersebut menjelaskan sebuah teknologi file system terdistribusi yang mudah diubah sesuai kebutuhan (scalable) yang telah digunakan secara internal di dalam perusahaan Google. Kelebihan teknologi ini adalah untuk penyimpanan data tersebut dapat menggunakan ratusan bahkan ribuan komputer dengan spesifikasi yang tidak terlalu tinggi sehingga lebih murah dalam implementasinya. Teknologi ini memungkinkan Google untuk menyimpan data yang sangat besar sehingga dapat digunakan untuk keperluan penelitian dan pengembangan produk yang membutuhkan data set yang besar.

Di tahun berikutnya, Google kembali mengeluarkan sebuah paper yang berjudul ‘MapReduce: Simplified Data Processing on Large Clusters‘ pada konferensi tahunan USENIX Symposium on Operating Systems Design and Implementation (OSDI 2004). Paper tersebut membahas sebuah metode MapReduce yang digunakan Google dalam mengolah data yang sangat besar yang disimpan di dalam GFS. Dengan menggunakan MapReduce, data yang tersimpan di dalam GFS dapat diproses secara paralel sehingga komputasi menjadi jauh lebih cepat. Google menggunakan MapReduce untuk menyelesaikan permasalahan machine learning berskala besar, permasalah clustering pada Google News dan Froogle, ekstraksi data untuk menghasilkan pencarian terpopuler, ekstraksi properti halaman web untuk eksperimen dan produk-produk baru, dan komputasi graph skala besar.

Dari kedua paper tersebut, pada tahun 2005, Doug Cutting dan Mike Cafarella yang saat itu sedang mengerjakan sebuah project search engine yang disebut Nutch, membutuhkan sebuah solusi untuk membuat search engine yang dikembangkan mereka tersebut dapat memproses lebih banyak data lagi. Untuk itulah mereka mencoba untuk melakukan implementasi GFS dan MapReduce ke dalam project mereka hingga akhirnya mereka direkrut oleh Yahoo! untuk mengembangkan project mereka lebih lanjut. Pada tahun 2008 Yahoo! berhasil melakukan implementasi GFS dan MapReduce yang mereka beri nama Hadoop (nama Hadoop berasal dari nama mainan anak Doug Cutting yang berbentuk gajah). Kemudian pada tahun 2009 Yahoo! memberikan source code Hadoop kepada komunitas open-source dan pada tahun 2011, Hadoop secara resmi diluncurkan. Hadoop inilah yang saat ini digunakan oleh banyak perusahaan-perusahaan teknologi dunia untuk memproses Big Data.

Inilah Riset Talkers sedikit sejarah mengenai perkembangan teknologi Big Data dibalik perusahaan-perusahaan teknologi dunia. Ingin tau lebih lanjut? Ikuti terus setiap artikel di Riset Talk. Dan tidak lupa kami mengajak para Riset Talkers untuk menularkan kecintaan terhadap riset dan teknologi.

 

Update:

Berikut adalah daftar perusahaan yang telah menggunakan Hadoop:

https://wiki.apache.org/hadoop/PoweredBy

Author Image

About Anang D. Satria

Anang Dista Satria has passion in computer science research and technopreneurship. His dream is to build his own hi-tech research based company.

Leave a Reply

Your email address will not be published. Required fields are marked *