NVIDIAn niin sanotut "hot chipit" ovat itse asiassa "kuumia alustoja"

Sep 03, 2024

Jätä viesti

NVIDIA keskittyy järjestelmätason ja datakeskustason suunnitteluprojekteihin, joiden tavoitteena on luoda kehittyneitä järjestelmiä ja alustoja, jotka pystyvät käsittelemään monimutkaisia generatiivisia tekoälyhaasteita.

Aiemmin tässä kuussa NVIDIA kohtasi harvinaisia huonoja uutisia, kun raportit nousivat esiin, että yrityksen odotetut "Blackwell" GPU-kiihdytit saattavat viivästyä jopa kolmella kuukaudella suunnitteluvirheiden vuoksi. NVIDIAn tiedottaja kuitenkin sanoi, että kaikki etenee suunnitellusti. Jotkut toimittajat ilmoittivat, että mikään ei ole muuttunut, kun taas toiset havaitsivat tavanomaisia viivästyksiä.

Alan sisäpiiriläiset odottavat, että kun NVIDIA raportoi Q2 FY2025 -talouden tuloksestaan ensi keskiviikkona, käyttäjät saavat enemmän käsitystä Blackwellin tilasta.

On raportoitu, että Blackwell chips-B100, B200 ja GB{3}}ovat tämän vuoden Hot Chips -konferenssin kohokohta, joka pidetään ensi viikolla Stanfordin yliopistossa Kaliforniassa. NVIDIA esittelee arkkitehtuurinsa, esittelee yksityiskohtaisesti joitain uusia innovaatioita, hahmottelee tekoälyn käyttöä sirusuunnittelussa ja keskustelee nestejäähdytystutkimuksesta datakeskuksissa, joita käytetään näiden kasvavien tekoälytyökuormien suorittamiseen. NVIDIAn Accelerated Computing Productsin johtajan Dave Salvatorin mukaan yritys esittelee myös Blackwell-siruja, jotka jo toimivat yhdessä sen palvelinkeskuksista.

Blackwell chips

▲ Blackwell-sirut

Suuri osa siitä, mitä NVIDIA keskustelee Blackwellistä, on jo tiedossa, kuten Blackwell Ultra GPU julkaistaan ensi vuonna ja seuraavan sukupolven Rubin GPU ja Vera CPU alkavat julkaista vuonna 2026. Salvator kuitenkin korosti, että puhuessaan Blackwellistä, on ratkaisevan tärkeää nähdä se alustana eikä yhtenä siruna. Salvator esitti tämän asian toimittajille ja analyytikoille pidetyssä tiedotustilaisuudessa tällä viikolla osana Hot Chipsiin valmistautumista.

"Kun ajattelee NVIDIAa ja rakentamiamme alustoja, GPU, verkko ja jopa prosessorimme ovat vasta alkua", hän sanoi. "Teemme järjestelmätason ja datakeskustason suunnittelua rakentaaksemme näitä järjestelmiä ja alustoja, jotka voivat todella toimia ja vastata todella vaikeisiin luoviin tekoälyhaasteisiin. Olemme nähneet mallien mittakaavan kasvavan ajan myötä ja useimpien generatiivisten tekoälysovellusten täytyy toimia reaaliajassa, ja johtopäätösten vaatimukset ovat kasvaneet dramaattisesti viime vuosina.

ANNOUNCING NVIDIA BLACKWELLPLATFORM FOR TRILLION-PARAMETER SCALE GENERATIE AI

Tämä ei sisällä vain Blackwell-grafiikkasuorittimia ja Grace-suorittimia, vaan myös NVLink Switch -piirit, Bluefield{0}} DPU:t, ConnextX-7 ja ConnectX-8 NIC-kortit, Spectrum-4 Ethernet-kytkimet ja Quantum -3 InfiniBand-kytkimet. Salvator tarjosi myös erilaisia näkemyksiä NVLink Switchille (alla), computeille, Spectrum-X800:lle ja Quantum-X800:lle.

NVIDIA esitteli kauan odotetun Blackwell-arkkitehtuurin GTC 2024 -konferenssissaan tämän vuoden maaliskuussa, ja hyperscale-toimittajat ja OEM-valmistajat kirjautuivat nopeasti sisään. Yhtiön kohteena on nopeasti kasvava generatiivisen tekoälyn kenttä, jossa suuret kielimallit (LLM) ovat yhä massiivisempia. Kesäkuussa lanseerattu Metan Llama 3.1 on osoitus tästä trendistä, ja siinä on malli, jossa on 4,05 biljoonaa parametria. Salvator totesi, että kun LLM:t kasvavat, reaaliaikaisten päätelmien kysyntä jatkuu, mikä edellyttää enemmän laskentaa ja alhaisempaa latenssia, mikä vaatii alustan lähestymistapaa.

"Kuten useimpien muiden LLM:ien kanssa, tämän mallin tarjoamien palveluiden odotetaan toimivan reaaliajassa. Tämän saavuttamiseksi tarvitset useita GPU: ita. Haasteena on löytää valtava tasapaino GPU:iden korkean suorituskyvyn, GPU:iden korkean käyttöasteen ja hyvän käyttökokemuksen tarjoamisen välillä näitä tekoälypohjaisia palveluita käyttäville loppukäyttäjille", hän sanoi.

Nopeuden tarve

Blackwellin myötä NVIDIA on kaksinkertaistanut kunkin kytkimen kaistanleveyden ja kasvattanut sen 900 Gt/s:sta 1,8 Tt/s:iin. Yrityksen SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) -tekniikka tuo enemmän tietojenkäsittelyä kytkimissä oleviin järjestelmiin. Sen avulla voimme purkaa joitain tehtäviä grafiikkasuorittimesta suorituskyvyn nopeuttamiseksi ja myös sujuvan verkkoliikenteen NVLink-kankaan kautta. Nämä ovat innovaatioita, joita jatkamme alustatasolla.

Monisolmuinen GB200 NVL72 on nestejäähdytteinen runko, joka yhdistää 72 Blackwell GPU:ta ja 36 Grace-suoritinta telinemittakaavassa. NVIDIA väittää, että se tarjoaa paremman päättelyn suorituskyvyn biljoonaparametriisille LLM:ille, kuten GPT-MoE-1.8T, jotka toimivat tehokkaasti yhtenä GPU:na. Sen suorituskyky on 30 kertaa suurempi kuin HGX H100 -järjestelmässä, ja harjoitusnopeus on neljä kertaa nopeampi kuin H100.

NVIDIA on myös lisännyt alkuperäisen tuen FP4:lle käyttämällä yhtiön Quasar Quantization System -järjestelmää, joka tarjoaa saman tarkkuuden kuin FP16 ja vähentää kaistanleveyden käyttöä 75 %. Quasar-kvantisointijärjestelmä on ohjelmisto, joka hyödyntää Blackwellin muuntajamoottoria tarkkuuden varmistamiseksi. Salvator osoitti tämän vertaamalla generatiivisia tekoälykuvia, jotka on luotu FP4:llä ja FP16:lla, ja näiden kahden välillä oli vain vähän tai ei ollenkaan eroa.

Käyttämällä FP4:ää mallit voivat käyttää vähemmän muistia ja toimia jopa paremmin kuin FP8 Hopperin GPU:ssa.

Nestejäähdytysjärjestelmät

Nestejäähdytyksen osalta NVIDIA ottaa käyttöön lämpimän veden suoran siru-siru-menetelmän, joka voi vähentää datakeskuksen virrankulutusta 28%.

Salvator sanoi: "Mielenkiintoista tässä menetelmässä on jotkin sen eduista, joita ovat lisääntynyt jäähdytystehokkuus, alhaisemmat käyttökustannukset, pidennetty palvelimen käyttöikä ja mahdollisuus käyttää talteen otettua lämpöä muihin käyttötarkoituksiin. Se auttaa ehdottomasti parantamaan jäähdytystehokkuutta. Yksi Tämä saavutetaan, kuten nimestä voi päätellä, että tämä järjestelmä ei käytä jäähdyttimiä Meidän ei tarvitse käyttää jäähdyttimiä, mikä säästää energiaa ja alentaa käyttökustannuksia."

Toinen aihe on se, kuinka NVIDIA hyödyntää tekoälyä suunnitellakseen tekoälypiirinsä Verilogilla, laitteiston kuvauskielellä, jota on käytetty neljäkymmentä vuotta piirien kuvaamiseen koodissa. NVIDIA edistää tätä työtä itsenäisen Verilog-agentin VerilogCoderin avulla.

AI chips

Hän sanoi: "Tutkijamme ovat kehittäneet suuren kielimallin, joka voi nopeuttaa järjestelmiämme kuvaavan Verilog-koodin luomista. Käytämme sitä tulevissa tuotesukupolvissa auttaaksemme näiden koodien rakentamisessa. Se voi tehdä monia asioita. Se voi auttaa nopeuttaa suunnittelu- ja todentamisprosessia. Se voi nopeuttaa suunnittelun manuaalisia toimintoja ja automatisoida monia tehtäviä."