ARM csatája az adatközpontért: A versenyzők

Az első vállalkozásra kész állapotban az ARM-alapú szerverek egyre közelebb kerülnek a kiadáshoz, és további részletek merülnek fel arról, hogy mire képesek ezek az energiaelosztó rendszerek.

A közelgő 64 bites gépeket sokkal szélesebb körű feladatok megoldására tervezték, mint a néhány 32 bites ARM-alapú szerver, amelyet néhány vállalat kipróbált ebben az évben.

A webes kiszolgálás helyett ezeket a rendszereket azért fejlesztették ki, hogy a Hadoop klaszterek adatelemzésére is szolgáltassanak, adatokat gyűjtsenek és töltsönek be a NoSQL adattárolókba, streaming médiába és nagy teljesítményű számításba, valamint a feldolgozási feladatok megosztását GPU-kkal, FPGA-kkal vagy ASIC-okkal.

Az ilyen munkákat számítási szempontból könnyű munkaterhelésekre lehet felosztani, és párhuzamosan feldolgozhatják a több ezer wimpy alapprocesszoros klaszter. Az alacsony fogyasztású szerverek sűrű fürtjei hatékonyan tudják kezelni ezeket a párhuzamosan elvégzhető feladatokat, mint kisebb számú nagy teljesítményű chip, jobb teljesítményt nyújtva wattonként és négyzetlábonként az adatközpont helyén, ami fontos intézkedés a nagy szerver birtok üzemeltetésének költségeinek csökkentésére.

Ezért érdeklődik az apró, energiatakarékos ARM-alapú lapkakészletek, amelyek manapság gyakrabban megtalálhatók a mobiltelefonokban és táblagépekben, és szoros, csomagolt szerverfürtökben történő felhasználása iránti érdeklődés.

Az ezen webes kiszolgálás, az adatelemzés, az adatfolyam-közvetítés és az egyéb feladatok kezeléséhez szükséges szoftverek arányos része jó úton halad, hogy készen álljanak az ARM-alapú szerverek termelésre. De mi van a hardverrel?

Ezeknek a szervereknek a tápellátása számos cég lapkakészletét fogja képezni, de a születő ARM-alapú kiszolgálóterület fő szereplői valószínűleg az Applied Micro lesz az X-Gene kártyáikkal és az AMD-vel, amely az x86-on túllép az Opteron A1100 processzorával.

Ezek a jövőbeni chipek az ARM v8 architektúrán alapulnak, amely támogatja az üzleti szempontból kritikusnak ítélt funkciókat. A v8 nemcsak az első ARM-architektúra, amely támogatja a 64 bites magokat, hanem további vállalati szintű funkciókat is hoz, például a hibajavító kód (ECC) memóriáját.

Azok a szerverek, amelyek mögött a kiszolgáló chipsetek vannak, a Hot Chips konferencián vettek részt Cupertinóban ezen a héten, hogy részleteket készítsenek chipeik és a kiszolgálók képességeiről.

Alkalmazott Micro X-Gene

Mikor jár ki?

Az X-Gene rendszer három generációját egy chipen tervezik. A kiszolgálók piacán az első az X-Gene1 processzor, amely várhatóan idén ősszel lesz elérhető a termelési rendszerekben. Az X-Gene processzort már tesztelték a HP Moonshot szerverekben, bevezetésre került a HPC és az Eurotech, az E4 és a Mitac vállalati célú rendszereiben.

Utódja, az X-Gene 2 már elérhető mintavételre, az X-Gene 3-ot pedig 2015-ben engedik a mintavételhez.

A szemüveg

Az X-Gene 1 nyolc maggal rendelkezik, amelyek 2, 4 GHz frekvencián működnek. 40 nm-es folyamatra állítják elő - minél kisebb a folyamat, annál több tranzisztort lehet becsavarni a forgács felületére, lehetővé téve a wattonkénti jobb feldolgozási teljesítményt. A chip szuperskaláris architektúrája lehetővé teszi processzoronként egynél több utasítás kezelését, egy négy utasításos széles feldolgozási csővezetékkel, amely képes a megrendelésen kívüli végrehajtásra, ez az optimalizálás csökkenti a kezelési utasítások késését. Az Applied Micro szerint a chip képes "több mint 100 utasítást repülni" kezelni.

Minden processzormag párja megosztja az L1 utasításokat és az adat-gyorsítótárat, valamint az L2-gyorsítótárat. A magokhoz hálózati kapcsolaton keresztül, amely az adatok koherenciáját tartja fenn a gyorsítótárak között, 8 MB L3 gyorsítótár és két kétcsatornás DDR3 memóriavezérlő van. A lapkakészlet akár 128 GB DDR memóriát képes támogatni, amely 1600 MT / s sebességgel képes.

A lapkakészlet integrálja a hálózati hardvert, és így nincs szükség különálló kártyákra, például I / O vezérlő hubra, NIC-re és alaplapkezelő vezérlőre - ezzel csökkentve a további költségeket és az energiafogyasztást.

Az I / O számára a lapkakészlet négy 10 gigabites Ethernet csatlakozást és hat PCI-E 3.0 bővítőhelyet, valamint több Sata 3 portot támogat.

Az X-Gene jövőbeli kiadásai tovább javítják a teljesítményt, és lehetővé teszik a táblán alapuló szerverek számára a munkaterhelés kezelését, ahol alacsony alkalmazási késleltetés szükséges. Az X-Gene 2 hozzáadja az RDMA-t a konvergált Ethernethez vagy az RoCE-hez. Az RoCE fontos jellemzője az elosztott rendszerekben, mivel csökkenti a fürt kiszolgálói közötti késést. Ez a szolgáltatás lehetővé teszi, hogy az X-Gene klaszter egyik kiszolgálócsomópontja közvetlenül továbbítson adatokat egy másik csomópont memóriájába és a memóriából 10 Gbps Ethernet-en keresztül, csökkentve az egyes csomópontok CPU-jának elvégzett munkát és javítva az adatátviteli sebességet. A Roce használatával az X-Gene 2 bebizonyította, hogy képes az alkalmazás késleltetését körülbelül 5 mikrosekundumra csökkenteni, akár tízszer gyorsabban, mint az X-Gene 1, az Applied Micro szerint.

Az X-Gene 2 egy 28 nm-es folyamatban készül, legfeljebb 2, 8 GHz-es órajelű maggal rendelkezik, és négy memóriacsatornát támogat. A teljesítmény javítása érdekében a processzor magjában építészeti módosításokat hajtanak végre.

Teljesítmény

Ami fontos az alacsony energiájú kiszolgálók klaszterén történő párhuzamos kezelésre alkalmas munkaterhelések esetében - például a webes kezelőfelületek, a keresőmotorok, a NoSQL adattárolók, az adatelemzési munka, mint a Hadoop, és a médiaszolgáltatás -, azok túlmutató tényezők óra sebesség. Az Applied Micro úgy véli, hogy az X-Gene az ilyen munkaterhelések alapvető mutatóival szolgál, mint például az utasítás kiadási szélessége, a processzor gyorsítótár-hierarchiájának szintek száma, a gyorsítótár mérete CPU-nként és a processzor memória sávszélessége.

A grafikon azt mutatja, hogy az X-Gene 2 miként veri ezeket az intézkedéseket a versenytársakkal - balról jobbra a Cavium ThunderX Arm SoC, az Intel mikroszerver-célzott nyolcmagos C2000 Atom processzora, zöld színben pedig az X-Gene 2. A szélső jobb oldalán található az Intel Xeon E5-2600 v2 processzor, amely, bár a magasabb teljesítés többet fizet.

Az SPEC2006_rate processzor referenciaértékeiben az X-Gene 2 wattonként 55% -kal jobb teljesítményt nyújt, mint az X-Gene 1, és az ApacheBench webes kiszolgálási pontszáma 25% -kal növeli a teljesítményt.

Az Intel kiszolgálókkal összehasonlítva az X-Gene versenybe fog állni. Az Applied Micro szerint az első generációs lapkakészlet Ivy Bridge vagy Haswell Xeon teljesítményét képes biztosítani, míg az X-Gene 2 nagyobb teljesítményt nyújt alacsonyabb teljesítmény mellett és késleltetésre alkalmas. -érzékeny fürtözött alkalmazások.

Az Applied Micro szerint az X-Gene 2 rendszerek egy rackje kb. 30 kilovattot eléget, és 6480 szálat csomagol 2, 8 GHz-en. A klaszter 50 TB memóriát és 48 TBps memória sávszélességet fog biztosítani. A memóriakártyás teszt során másodpercenként 750 millió tranzakciót fog kezelni, a tranzakciók 95 százaléka 40 milliszekundum alatt érkezik. Az Intel Xeon E5-2630 v2 processzorain alapuló, 80, két foglalatos gépből álló csoport, amely magonként hat maggal és tizenkét szálkal rendelkezik, 1920 szálat szállít és másodpercenként körülbelül 400 millió tranzakciót szállít ugyanazon memcachelt teszttel, ugyanabban a teljes energia borítékban. 30 KW. Ezeket a referenciaértékeket az Applied Micro biztosítja, ezért azokat megfelelő szintű szkepticizmussal kell kezelni mindaddig, amíg nem ellenőrzik.

Az Intel szerint az Applied Micro teljesítménybecsléseit nem lehet ellenőrizni, mivel "még senki sem látott X-Gene 1-alapú rendszert referenciaértékekkel az iparági szabványos alkalmazásokkal", és jelezte, hogy az összehasonlításban használt Xeon-beállítást az X-Gene javára súlyozhatják.

Az Intelnek különféle energiaellátási lehetősége van, kevésbé hatékony SoC-k, amelyek a kiszolgálói piacra irányulnak, az Avoton sorozatot az Intel Atom családban, és az Intel a maga részéről állítja, hogy ezek energiahatékonyabbak.

"Az X-Gene 1 40 nm-es folyamaton alapul, 8 maggal és durván 35 - 40 W TDP-vel ami a gép maximális energiafogyasztását tükrözi. Összehasonlításképpen: az Atom C2000 (Avoton) 8 maggal rendelkezik, valamint 20W TDP-vel". - mondta az Intel szóvivője.

"Az X-Gene várhatóan 35 -40 W TDP-vel fog rendelkezni 8 magra, csomópontteljesítmény 59W, szemben a 8magos, 20W Avoton és 28-35W csomópontteljesítményre. Legjobb eset forgatókönyv számukra - ugyanaz a teljesítmény kétszer annyi teljesítménynél."

Mire az X-Gene 2 eléri a produkciós szervereket, az Intel valószínűleg frissítette a szerver chip-sorozatát Broadwell-EP és Broadwell-EX Xeon chipekkel - tovább javítva a teljesítményt wattonként.

Az X-Gene 3 maximálisan 64-re növeli a magszámot, növeli az órasebességet 3GHz-re, és bevezeti a 2. generációs RoCE-t. Ez az X-gént egy 16 nm-es gyártási folyamatba mozgatja, FinFET tranzisztorokkal.

Mire használhatja őket?

Az Applied Micro szerint az X-Gene család "nagyjából bármi számára használható, ami a mai adatközpontban fut".

Ez magában foglalja a nagyszabású webhelyek és szolgáltatások tárolását; internetes keresési szolgáltatások, például adatszolgáltatás és adatgyűjtés; NoSQL adattárolás és visszakeresés; adatanalitikai szolgáltatások, például információ osztályozás, szűrés és kivonás; és a média tárolása és streamingje.

Az X-Gene 2 felhőalapú és HPC alkalmazások szélesebb skálájához alkalmazható, mint elődje, alacsony késleltetésű, kiszolgálók közötti adatátvitel miatt, amelyet a Roce engedélyez.

Az X-Gene egyet már elkészítették a HPC és más adatközpontok munkaterhelésének kezelésére, amikor az Nvidia Tesla GPU K20 gyorsítóval párosul. Az X-Gene / Nvidia Tesla gyorsító párosítást a Cirrascale, E4 és Eurotech szervereknél használják. Mindegyik kiszolgálót úgy tervezték, hogy különféle munkaterhelésekre, a Cirrascale-re a HPC és a vállalati terhelésekre specializálódjon, míg az E4 a szeizmikus, jel- és képfeldolgozásra, valamint a nagy adatkészletek elleni feladatok futtatására szolgál a térkép-csökkentés segítségével.

AMD "Seattle" Opteron 1100

Mikor jár ki?

A negyedik negyedévre eső mennyiségű hajó miatt

A szemüveg

Rendszer egy chipre, amely nyolc ARM Cortex A57 processzormag körül épül fel, órákon 2 GHz felett. Mindegyik processzormag megosztja 48KB L1 utasítást és 32KB L2 adat gyorsítótárat, valamint 1 MB L2 gyorsítótárat - akár 4 MB L2 gyorsítótárat biztosítva a teljes chip számára. Összesen 8 MB egységes L3 gyorsítótár van megosztva a magok között.

Támogatás akár 128 GB DDR3 vagy DDR4 ECC memória számára puffer nélküli DIMM, regisztrált DIMMS vagy SODIMM memóriaként.

A lapkakészlet az ARM Rendszermemória-kezelő egységét használja, amely lehetővé teszi a különféle hipervizorok számára, hogy a vendég operációs rendszereket külön RAM-készletekben tartsák.

A 28 nm-es eljárással készített SoC támogatja az I / O széles tartományát is, beleértve egy nyolc sávos PCI Express 3 vezérlőt, két 10 GB / s Ethernet csatlakozást és nyolc SATA 3 portot. Ezenkívül rendelkezik egy dedikált 1GbE rendszerkezelő porttal (RGMII).

Rendszervezérlő processzor, egy ARM Cortex A5-alapú chip, szolgál az energia vezérlésére, a rendszer konfigurálására, a rendszerindítás kezdeményezésére és a rendszerkezelési funkciók szolgáltató processzoraként való működésre.

A kriptográfiai társprocesszor dedikált gyorsítóként működik a titkosításhoz és a dekódoláshoz, valamint a tömörítéshez és a dekompresszióhoz, az algoritmusokhoz. A gyorsított algoritmusok az Advanced Encryption Standard, az elliptikus görbe kriptográfia, az RSA, a Secure Hash algoritmus, a Zlib tömörítés, a Zlib dekompresszió és a True Hardware Random Number Generator.

Az AMD az ARM és az x86 chipek pin-kompatibilis változatán is dolgozik - lehetővé teszi számukra, hogy csatlakozzanak ugyanabba a socket-be, és szükség szerint cseréljék őket.

Teljesítmény

Az AMD észrevételei alapján az AnandTech technológiai oldal azt is becsülte, hogy a nyolcmagos változat 80-as pontszámot érhet el az SPECint_rate benchmarkban, összesen 10 magonként.

Az energiafogyasztást nem erősítik meg, de az Anandtech becslése szerint a TDP 25W.

Mire használhatja őket?

Az AMD elvárja, hogy az Opteron A1100 alkalmas legyen olyan munkaterhelés kezelésére, amelynek számítási igénye csekély, és ahol az adatokat gyorsan ki kell kapcsolni a processzorra és ki.

"Ilyen munkaterhelésnél a kisebb magokkal és gyorsítótárakkal rendelkező" Seattle "processzorok ugyanolyan teljesítményt nyújthatnak, mint a nagy magokkal és gyorsítótárakkal ellátott hagyományos kiszolgálók, de sokkal kevesebb energiát és területet használnak" - mondta az AMD a Hot Chips előadásában. konferencián.

Lehetséges felhasználások lehetnek a LAMP verem webkiszolgálók, valamint a memóriakódú és a hűtőtároló szerverek. A Facebook már kísérletezett egy ARM-alapú rendszer használatával az OCP Open Vault tárolótömb alapjaként.

Sean White-t, az AMD mérnökét is idézték a Cupertino-i Hot Chip konferencián, amelyben azt állította, hogy a vállalat fontolóra veszi a processzor testreszabását az adott ipar igényeinek kielégítésére. Az Intel a közelmúltban kibővítette a lehetőségeket nagy ügyfelek számára is, akik egyedi szilíciumot szeretnének.

Milyen más Arm szerver táblák jelennek meg?

Ebben az évben számos más ARM-alapú, on-chip-en (SoC) processzort indítanak, amelyek célja az adatközponti feladatok széles skálájának elvégzése - a kiszolgálói munkaterhelések kezelésétől a tárolótömbök futtatásáig és a virtualizált hálózati funkciókig.

Ezen igények kielégítésére az ARM-alapú SoC-k különböző vállalatok munkáiban vannak, köztük a Broadcom, a Cavium és a Texas Instruments.

© Copyright 2021 | mobilegn.com