Untitled
Fawn computing

http://www.cs.cmu.edu/~vrv/papers/hotos2009/#www-hamilton-terasort

Fast Array Wimpy Nodes (FAWN)

James Hamilton memanggilnya sebagai ‘CEMS’, yang higher performance berbanding FAWN, tetapi masih lagi disifatkan sebagai extremely scale out/horizontally.

FAWN membawa maksud scale-out yang extreme (pada kesimpulan peribadi saya). FAWN adalah sebuah cluster (atau supercomputer) yang menghubungkan beribu-ribu (atau mungkin puluhan ribu) buah low-end embedded dan power efficient computer (yang biasa digunakan untuk thin-client, network appliance, etc.). Konsep ini sama seperti untuk IBM’s Blue Gene yang sangat berkuasa.

FAWN dicipta untuk social networking websites dan data-intensive computing, yang mana mereka memprocess banyak data setiap hari. Kebanyakkan data center di dunia ini, consume 1MW+ power. Bagi Microsoft, cost bill electric untuk 3 tahun adalah 2 kali kos pembelian server equipment mereka. Ini sangatlah membebankan.

Bagi FAWN, prototype mereka adalah menggunakan Alix3C2 dari PCEngines (China) dengan 500MHz AMD Geode, 256MB RAM dan 4GB Sandisk CompactFlash, consume hanya 4 watts pada full load.

Data Intensive Computing

Seek-bound Workload – biasanya untuk social networking sites, online web apps

Seek-bound boleh dimaksudkan sebagai read-mostly workload dalam random access patterns untuk small object dari corpus data yang besar (mungkin bermaksud: mencari sesuatu file dari sebuah coleksi data yang besar). Banyak digunakan untuk Internet Applications

Access times untuk random small block of data untuk magnetic HDD puratanya 3 – 5 ms, iaitu 200-300 request per second, per disk. Social Networking Services (SNS) perlu melakukan berjuta-juta random accesses per second. Oleh itu, mereka substitute magnetic HDDs kepada large-cluster-based memory caches seperti memchached. Segelintirnya menggunakan Flash SSD sebagai storage utama.

Seek-bound workload biasanya melibatkan penggunaan database.

Scan Bound Workload – biasanya untuk search engine

Scan-bound yang dimaksudkan mungkin ialah machine kita terpaksa scan storage dan sorting resultnya. Biasanya digunakan untuk large-scale data nalaysis. Analasis untuk dataset yang besar dan unstructured diperlukan untuk kita membuat process data-mining dan application seperti machine learning.

Sebagai contoh, Yahoo telah memenangi pertandingan Terabyte Sort (TeraSort) benchmark pada 2008, menggunakan Hadoop. System tersebut mengandungi 960 buah computer, 4000 buah disk, 16TB RAM setiap satu dapat sorting 1TB dalam 209 seconds. Tetapi, Google dapat sorting 1TB dalam 60+ seconds menggunakan 1000 buah computer yang lebih kurang sama (150 watts each) dan 12,000 buah HDDs.

Untuk ‘acara’ sorting 1PB data, Google menggunakan 48,000 buah HDDs dan sorting mengambil masa 6 jam 2 minit. Yahoo mengambil masa 10 jam+. Untuk 48,000 buah HDDs, Google tidak menggunakan sepenuhnya capasity storage tersebut. Dan, untuk memberikan redundancy, Google replicate setiap data kepada 3 kepada hard disk yang berbeza.

Scan-bound workload biasanya melibatkan Hadoop, MapReduce, etc.



Conclussion … Apa pandangan peribadi saya

Lebih kurang CEMS, FAWN lebih extreme scale out.

Berdasarkan result FAWN-SEEK, system platform mungkin lebih powerful dan lebih effiecient berbanding conventional system :



System / Storage

QPS

Watts

Queries/sec/Watt

Embedded Systems

Alix3c2 / Sandisk(CF)

1697

4

424

Soekris / Sandisk(CF)

334

3.75

89

Traditional Systems

Desktop / Mobi(SSD)

5800

83

69.9

MacbookPro / HD

66

29

2.3

Desktop / HD

171

87

1.96

FAWN-SEEK

Tetapi, FAWN mungkin fail untuk scan-bound workload (sorting 1GB storage):

System / Storage

Time taken

Watts

Sort efficiency

Alix3c2 / Sandisk(CF)

160

4

1.6MB per joule

Desktop / HD

53

130

0.2MB per joule

FAWN-SCAN

Mungkin FAWN fail dalam category scan-bound kerana FAWN hanya dilengkapi dengan 256MB RAM sahaja.

Tujuan FAWN mengaplikasikan low-end embedded processor adalah kerana sekarang ini, perkembangan processor lebih cepat kepada power consuming berbanding performance.

http://www.cs.cmu.edu/~vrv/papers/hotos2009/images/inst_power_color.png

Selain itu, mungkin processor low-end dan component-component low-end dipilih kerana processor sebenarnya tidak dapat memprocess data dengan efficient apabila storage terlalu banyak.

System FAWN biasanya ialah: PCEngines ALIX3C2 dan Soekris net5501. Dari segi performance dan harga, ALIX3C2 lebih baik dan berpatutan. ALIX3C2 mengandungi 500MHz AMD Geode x86 architecture, 256MB RAM. Harganya+4GB CF storage ialah USD 120. Harga bagi setiap MB RAM ialah USD0.46875 (lebih 10 kali ganda lebih mahal berbanding computer conventional). Harga bagi setiap GB HDD pula ialah USD 30 (lebih 10 kali ganda lebih mahal berbanding computer conventional). ALIX3C2 mungkin tidak sesuai untuk digandingkan bersama dengan SSD mahupun HDD kerana capacity RAM yang tersangat sedikit.

Dari segi power efficiency, tidak dapat dinafikan bahawa FAWN sangat berjaya. Tetapi, costnya adalah terlalu mahal. Mungkin perkiraan yang rapi juga ingin mewujudkan data center menggunakan architecture FAWN. Perkara yang perlu diambil kira adalah electricity bill (monthly untuk beberapa tahun), one-time cost, keluasan kawasan yang diperlukan dan aspek-aspek lain sebelum membangunkan data center tersebut.

ktia ingin membina datacenter FAWN, 4,000,000GB / 4PB storage. Setiap node, 4GB. Oleh itu, ini bermakna 1,000,000 buah nodes. Sebuah rack boleh menampung 20 buah chassis 2U. Sebuah chassis boleh menampung 20 buah nodes. Ini bermakna, 1,000,000 buah node boleh disimpan dalam 2,500 buah rack. Datacenter ini akan consume 4 Megawatt. Costnya adalah USD 120,000,000.

FAWN tidak relevan !!!

kita ingin membina datacenter dengan system conventional, 4PB storage.