DomAktualnościArchitektura pamięci masowej zoptymalizowana pod kątem sztucznej inteligencji

Architektura pamięci masowej zoptymalizowana pod kątem sztucznej inteligencji

Infrastruktura pamięci masowej nowej generacji, zaprojektowana tak, aby pomóc systemom sztucznej inteligencji obsługiwać ogromną pamięć kontekstową i rozumowanie wieloobrotowe, zmieni sposób obsługi obciążeń wnioskowania na dużą skalę.



Pojawiła się nowa klasa technologii pamięci masowej firmy NVIDIA zorientowanej na sztuczną inteligencję, która stawia czoła jednemu z najtrudniejszych wyzwań współczesnych obciążeń AI: wydajnemu zarządzaniu i udostępnianiu ogromnych ilości danych kontekstowych podczas wnioskowania.Tradycyjne hierarchie pamięci masowej i pamięci zbudowane z myślą o ogólnych obliczeniach, a nie o konkretnych potrzebach sztucznej inteligencji, mają trudności z dotrzymaniem kroku, gdy modele przekształcają się w wieloagentowe, wieloobrotowe systemy wnioskowania, które wymagają trwałej pamięci kontekstowej o dużej pojemności.

Podstawą rozwoju jest wyspecjalizowany procesor danych, który stanowi podstawę nowo ogłoszonej architektury pamięci masowej natywnej dla sztucznej inteligencji, która rozszerza pamięć procesora graficznego i dzieli pamięć podręczną wnioskowania o wartości klucza (KV) pomiędzy klastrami, zapewniając wysoką przepustowość i przewidywalne opóźnienia.Zmiana ta wynika z przejścia sztucznej inteligencji z przetwarzania pojedynczych podpowiedzi na wnioskowanie ciągłe w długim kontekście, w przypadku którego duża pamięć współdzielona jest niezbędna do szybkości reakcji i dokładności.

Kluczowe cechy to:

Rozszerza pamięć GPU o pojemność pamięci podręcznej klucz-wartość w skali klastra, umożliwiającą wnioskowanie w długim kontekście.
Do 5 razy większa przepustowość tokenów na sekundę w porównaniu z tradycyjną pamięcią masową.
Przyspieszane sprzętowo rozmieszczanie pamięci podręcznej KV zmniejsza obciążenie metadanych i ruch danych.
Efektywne udostępnianie kontekstu pomiędzy węzłami poprzez wysokowydajną sieć Ethernet.
Do 5 razy lepsza wydajność energetyczna w porównaniu z konwencjonalnymi architekturami pamięci masowej.
Partnerzy branżowi, w tym główni dostawcy pamięci masowych i systemów, już budują platformy pomocnicze, planując dostępność w drugiej połowie 2026 r. Wczesne testy porównawcze i prognozy podkreślają znaczny wzrost wydajności i efektywności w przypadku obciążeń wnioskowania zależnych od szybkiego dostępu do kontekstu i udostępniania.Oprócz czystej wydajności nowa infrastruktura uwzględnia skalowalność i efektywność energetyczną – dwa ograniczenia, które nękają centra danych w miarę rosnącego obciążenia sztuczną inteligencją.Oddzielając usługi pamięci masowej od procesorów hosta i umożliwiając przyspieszane sprzętowo umieszczanie danych w pamięci podręcznej typu klucz-wartość, architektura zapewnia nawet pięciokrotną poprawę tokenów przetwarzanych na sekundę i efektywność energetyczną w porównaniu z konwencjonalnymi systemami pamięci masowej przy podobnych obciążeniach.

Konstrukcja ta zapewnia również ściślejszą integrację między wysokowydajnymi funkcjami sieciowymi, pamięcią i pamięcią masową, wykorzystując zaawansowane struktury Ethernet w celu zapewnienia zdalnego, bezpośredniego dostępu do pamięci między serwerami o niskim opóźnieniu.Rezultatem jest podstawa, która lepiej dostosowuje się do ewoluujących paradygmatów wnioskowania, w których trwałość pamięci i współdzielenie kontekstu między węzłami mają kluczowe znaczenie.W miarę ewolucji infrastruktury sztucznej inteligencji ta warstwa pamięci masowej może stać się kluczowym czynnikiem umożliwiającym usługi sztucznej inteligencji nowej generacji, zmniejszając opóźnienia i koszty energii, jednocześnie obsługując bardziej złożone zadania wnioskowania na dużą skalę.