Ne dozvolite da skladištenje postane ključno usko grlo u obuci modela

Rečeno je da se tehnološke kompanije ili bore za GPU-ove ili su na putu da ih nabave. U aprilu je izvršni direktor Tesle Elon Musk kupio 10.000 GPU-a i izjavio da će kompanija nastaviti da kupuje veliku količinu GPU-a od NVIDIA-e. Na strani preduzeća, IT osoblje se takođe trudi da osigura da se GPU-ovi konstantno koriste kako bi se maksimizirao povrat ulaganja. Međutim, neke kompanije mogu otkriti da, dok se broj GPU-ova povećava, GPU-ov mirovanje postaje sve ozbiljniji.

Ako nas je istorija naučila bilo čemu o računarstvu visokih performansi (HPC), to je da skladištenje i umrežavanje ne bi trebalo da budu žrtvovani na račun previše fokusiranja na računarstvo. Ako skladište ne može efikasno prenositi podatke do računarskih jedinica, čak i ako imate najviše GPU-a na svetu, nećete postići optimalnu efikasnost.

Prema Mikeu Matchettu, analitičaru u Small World Big Data, manji modeli se mogu izvršavati u memoriji (RAM), što omogućava više fokusa na računanje. Međutim, veći modeli kao što je ChatGPT sa milijardama čvorova ne mogu se pohraniti u memoriju zbog visoke cijene.

„Ne možete da stavite milijarde čvorova u memoriju, tako da skladište postaje još važnije“, kaže Matchett. Nažalost, skladištenje podataka se često zanemaruje tokom procesa planiranja.

Općenito, bez obzira na slučaj upotrebe, postoje četiri zajedničke točke u procesu obuke modela:

1. Model trening
2. Aplikacija za zaključivanje
3. Skladištenje podataka
4. Ubrzano računarstvo

Prilikom kreiranja i implementacije modela, većina zahtjeva daje prioritet brzim dokazima koncepta (POC) ili okruženjima za testiranje kako bi se započelo obučavanje modela, pri čemu se potreba za pohranom podataka ne uzima u obzir.

Međutim, izazov leži u činjenici da obuka ili primjena zaključivanja može trajati mjesecima ili čak godinama. Mnoge kompanije brzo povećavaju veličinu svojih modela tokom ovog vremena, a infrastruktura se mora proširiti kako bi se prilagodila rastućim modelima i skupovima podataka.

Google-ovo istraživanje o milionima radnih opterećenja obuke za ML otkriva da se u prosjeku 30% vremena obuke troši na cevovod ulaznih podataka. Dok su se prošla istraživanja fokusirala na optimizaciju GPU-a kako bi se ubrzala obuka, mnogi izazovi i dalje ostaju u optimizaciji različitih dijelova cevovoda podataka. Kada imate značajnu računsku snagu, pravo usko grlo postaje koliko brzo možete unijeti podatke u proračune da biste dobili rezultate.

Konkretno, izazovi u skladištenju i upravljanju podacima zahtijevaju planiranje rasta podataka, omogućavajući vam da kontinuirano izvlačite vrijednost podataka kako napredujete, posebno kada se upustite u naprednije slučajeve upotrebe kao što su duboko učenje i neuronske mreže, koje postavljaju veće zahtjeve pred skladištenje u smislu kapaciteta, performansi i skalabilnosti.

posebno:

Skalabilnost
Mašinsko učenje zahtijeva rukovanje ogromnim količinama podataka, a kako se obim podataka povećava, poboljšava se i preciznost modela. To znači da preduzeća moraju prikupljati i pohranjivati ​​više podataka svaki dan. Kada se skladište ne može skalirati, radna opterećenja koja zahtijevaju velike količine podataka stvaraju uska grla, ograničavajući performanse i rezultirajući skupim GPU-om u mirovanju.

Fleksibilnost
Fleksibilna podrška za više protokola (uključujući NFS, SMB, HTTP, FTP, HDFS i S3) je neophodna da bi se zadovoljile potrebe različitih sistema, umjesto da bude ograničena na jedan tip okruženja.

Latencija
I/O latencija je kritična za izgradnju i korištenje modela jer se podaci čitaju i čitaju više puta. Smanjenje I/O latencije može skratiti vrijeme obuke modela za dane ili mjesece. Brži razvoj modela direktno se pretvara u veće poslovne prednosti.

Propusnost
Propusnost sistema za skladištenje je ključna za efikasnu obuku modela. Procesi obuke uključuju velike količine podataka, obično u terabajtima po satu.

Paralelni pristup
Da bi se postigla visoka propusnost, modeli obuke dijele aktivnosti na više paralelnih zadataka. To često znači da algoritmi mašinskog učenja pristupaju istim datotekama iz više procesa (potencijalno na više fizičkih servera) istovremeno. Sistem skladištenja mora da se nosi sa istovremenim zahtevima bez ugrožavanja performansi.

Sa svojim izvanrednim mogućnostima u malim kašnjenjima, velikom propusnošću i paralelnim I/O velikih razmjera, Dell PowerScale je idealna dopuna za skladištenje GPU-ubrzanog računarstva. PowerScale efikasno smanjuje vreme potrebno za modele analize koji obučavaju i testiraju višeterabajtne skupove podataka. U PowerScale all-flash memoriji, propusni opseg se povećava za 18 puta, eliminirajući I/O uska grla, i može se dodati postojećim Isilon klasterima kako bi se ubrzala i otključala vrijednost velikih količina nestrukturiranih podataka.

Štaviše, mogućnosti višeprotokolnog pristupa PowerScale-a pružaju neograničenu fleksibilnost za radna opterećenja, omogućavajući skladištenje podataka pomoću jednog protokola i pristupanje pomoću drugog. Konkretno, moćne karakteristike, fleksibilnost, skalabilnost i funkcionalnost PowerScale platforme pomažu u rješavanju sljedećih izazova:

- Ubrzajte inovacije do 2,7 puta, smanjujući ciklus obuke modela.

- Uklonite I/O uska grla i obezbijedite bržu obuku i validaciju modela, poboljšanu tačnost modela, poboljšanu produktivnost u nauci o podacima i maksimizirani povrat ulaganja u računarstvo korištenjem funkcija korporativnog nivoa, visokih performansi, konkurentnosti i skalabilnosti. Povećajte tačnost modela dubljim skupovima podataka u višoj rezoluciji tako što ćete iskoristiti do 119 PB efektivnog kapaciteta skladištenja u jednom klasteru.

- Ostvarite implementaciju u velikom obimu tako što ćete pokrenuti male i nezavisno skaliranje računanja i skladištenja, pružajući robusnu zaštitu podataka i sigurnosne opcije.

- Poboljšajte produktivnost nauke o podacima pomoću analitike na mjestu i unaprijed potvrđenih rješenja za brže implementacije s niskim rizikom.

- Iskorištavanje dokazanih dizajna zasnovanih na najboljim tehnologijama, uključujući NVIDIA GPU ubrzanje i referentne arhitekture sa NVIDIA DGX sistemima. Visoke performanse i konkurentnost PowerScale ispunjavaju zahtjeve za performanse skladištenja u svakoj fazi mašinskog učenja, od prikupljanja podataka i pripreme do obuke modela i zaključivanja. Zajedno sa OneFS operativnim sistemom, svi čvorovi mogu neprimetno da rade u okviru istog OneFS vođenog klastera, sa funkcijama na nivou preduzeća, kao što su upravljanje performansama, upravljanje podacima, bezbednost i zaštita podataka, omogućavajući brži završetak obuke modela i validaciju za preduzeća.


Vrijeme objave: Jul-03-2023