Architektura pamięci masowej zoptymalizowana pod kątem sztucznej inteligencji
Infrastruktura pamięci masowej nowej generacji, zaprojektowana tak, aby pomóc systemom sztucznej inteligencji obsługiwać ogromną pamięć kontekstową i rozumowanie wieloobrotowe, zmieni sposób obsługi obciążeń wnioskowania na dużą skalę.
Pojawiła się nowa klasa technologii pamięci masowej firmy NVIDIA zorientowanej na sztuczną inteligencję, która stawia czoła jednemu z najtrudniejszych wyzwań współczesnych obciążeń AI: wydajnemu zarządzaniu i udostępnianiu ogromnych ilości danych kontekstowych podczas wnioskowania.Tradycyjne hierarchie pamięci masowej i pamięci zbudowane z myślą o ogólnych obliczeniach, a nie o konkretnych potrzebach sztucznej inteligencji, mają trudności z dotrzymaniem kroku, gdy modele przekształcają się w wieloagentowe, wieloobrotowe systemy wnioskowania, które wymagają trwałej pamięci kontekstowej o dużej pojemności.
Podstawą rozwoju jest wyspecjalizowany procesor danych, który stanowi podstawę nowo ogłoszonej architektury pamięci masowej natywnej dla sztucznej inteligencji, która rozszerza pamięć procesora graficznego i dzieli pamięć podręczną wnioskowania o wartości klucza (KV) pomiędzy klastrami, zapewniając wysoką przepustowość i przewidywalne opóźnienia.Zmiana ta wynika z przejścia sztucznej inteligencji z przetwarzania pojedynczych podpowiedzi na wnioskowanie ciągłe w długim kontekście, w przypadku którego duża pamięć współdzielona jest niezbędna do szybkości reakcji i dokładności.
Kluczowe cechy to:
Rozszerza pamięć GPU o pojemność pamięci podręcznej klucz-wartość w skali klastra, umożliwiającą wnioskowanie w długim kontekście.
Do 5 razy większa przepustowość tokenów na sekundę w porównaniu z tradycyjną pamięcią masową.
Przyspieszane sprzętowo rozmieszczanie pamięci podręcznej KV zmniejsza obciążenie metadanych i ruch danych.
Efektywne udostępnianie kontekstu pomiędzy węzłami poprzez wysokowydajną sieć Ethernet.
Do 5 razy lepsza wydajność energetyczna w porównaniu z konwencjonalnymi architekturami pamięci masowej.
Partnerzy branżowi, w tym główni dostawcy pamięci masowych i systemów, już budują platformy pomocnicze, planując dostępność w drugiej połowie 2026 r. Wczesne testy porównawcze i prognozy podkreślają znaczny wzrost wydajności i efektywności w przypadku obciążeń wnioskowania zależnych od szybkiego dostępu do kontekstu i udostępniania.Oprócz czystej wydajności nowa infrastruktura uwzględnia skalowalność i efektywność energetyczną – dwa ograniczenia, które nękają centra danych w miarę rosnącego obciążenia sztuczną inteligencją.Oddzielając usługi pamięci masowej od procesorów hosta i umożliwiając przyspieszane sprzętowo umieszczanie danych w pamięci podręcznej typu klucz-wartość, architektura zapewnia nawet pięciokrotną poprawę tokenów przetwarzanych na sekundę i efektywność energetyczną w porównaniu z konwencjonalnymi systemami pamięci masowej przy podobnych obciążeniach.
Konstrukcja ta zapewnia również ściślejszą integrację między wysokowydajnymi funkcjami sieciowymi, pamięcią i pamięcią masową, wykorzystując zaawansowane struktury Ethernet w celu zapewnienia zdalnego, bezpośredniego dostępu do pamięci między serwerami o niskim opóźnieniu.Rezultatem jest podstawa, która lepiej dostosowuje się do ewoluujących paradygmatów wnioskowania, w których trwałość pamięci i współdzielenie kontekstu między węzłami mają kluczowe znaczenie.W miarę ewolucji infrastruktury sztucznej inteligencji ta warstwa pamięci masowej może stać się kluczowym czynnikiem umożliwiającym usługi sztucznej inteligencji nowej generacji, zmniejszając opóźnienia i koszty energii, jednocześnie obsługując bardziej złożone zadania wnioskowania na dużą skalę.