epoint

Na blogu firmy AMD opublikowano informacje na temat postępów w realizacji celu „30×25”, czyli wysiłków, aby do 2025 roku 30-krotnie zwiększyć efektywność energetyczną sprzętu AMD napędzającego superkomputery i sztuczną inteligencję. Firma potwierdziła, że jest obecnie na poziomie 28,3-krotnej poprawy w tej dziedzinie w porównaniu do stanu na 2020 rok.

W ciągu ostatnich dwóch lat generatywna sztuczna inteligencja stała się głównym przedmiotem zainteresowania, a miliardy ludzi i organizacji codziennie korzystają z narzędzi AI. W miarę przyspieszania adopcji i pojawiania się nowych aplikacji nowe centra danych pojawiają się online, aby wspierać tę transformacyjną technologię – ale energia jest krytycznym czynnikiem ograniczającym.

Na tych wczesnych etapach transformacji sztucznej inteligencji zapotrzebowanie na moc obliczeniową będzie nadal niemal nienasycone. A w centrum danych każdy wat energii zużywanej przez chip ma wpływ na jego zapotrzebowanie na energię, całkowity koszt posiadania, emisję dwutlenku węgla i, co najważniejsze, jego wydajność obliczeniową. Aby kontynuować postęp w dziedzinie sztucznej inteligencji i poszerzyć dostęp do niej, branża musi dostarczać procesory o wyższej wydajności i bardziej energooszczędne.

Zwiększanie efektywności energetycznej poprzez cel 30×25

W 2021 roku ogłosiliśmy nasz cel 30×25, czyli wizję zapewnienia 30-krotnej poprawy efektywności energetycznej procesorów AMD EPYC™ i akceleratorów AMD Instinct™ zasilających sztuczną inteligencję i obliczenia o wysokiej wydajności (HPC) do 2025 roku w porównaniu z rokiem 2020. Osiągnęliśmy stały postęp w realizacji naszego celu poprzez dopracowanie każdej warstwy, od krzemu po oprogramowanie.

Dzięki połączeniu postępów w architekturze i optymalizacji oprogramowania osiągnęliśmy ~28,3-krotną poprawę efektywności energetycznej w 2024 r. przy użyciu akceleratorów AMD Instinct™ MI300X w połączeniu z procesorami hosta AMD EPYC™ 9575F, w porównaniu do poziomu wyjściowego z 2020 r.

Energooszczędne projektowanie zaczyna się na poziomie architektury

Firma AMD przyjmuje holistyczne podejście do energooszczędnego projektowania, równoważąc postępy w wielu złożonych dźwigniach architektonicznych, które składają się na projekt układu scalonego, obejmując ścisłą integrację obliczeń i pamięci z architekturą chipletów, zaawansowanym opakowaniem, partycjami oprogramowania i nowymi połączeniami. Jednym z naszych głównych celów we wszystkich naszych produktach jest uzyskanie jak największej wydajności przy jednoczesnym zrównoważeniu zużycia energii. AMD przyjmuje holistyczne podejście do energooszczędnego projektowania, równoważąc postępy w wielu złożonych dźwigniach architektonicznych, które składają się na projektowanie chipów, obejmując ścisłą integrację obliczeń i pamięci z architekturami chipletów, zaawansowanym opakowaniem, partycjami oprogramowania i nowymi połączeniami. Jednym z naszych głównych celów we wszystkich naszych produktach jest uzyskanie jak największej wydajności przy jednoczesnym zrównoważeniu zużycia energii.

Akceleratory AMD Instinct MI300X zawierają bezprecedensowe 153 miliardy tranzystorów i wykorzystują zaawansowane upakowanie 3.5D CoWoS, aby zminimalizować zużycie energii komunikacyjnej i narzut ruchu danych. Dzięki ośmiu matrycom obliczeniowym wykonanym w technologii 5 nm nałożonym na cztery matryce IO wykonane w technologii 6 nm, wszystkie ściśle połączone z wiodącymi w branży 192 GB pamięci o wysokiej przepustowości (HBM3) działającej z prędkością 5,2 terabajta na sekundę, akceleratory te mogą pozyskiwać i przetwarzać ogromne ilości danych w niewiarygodnym tempie.

Microsoft i Meta korzystają z tych możliwości, wykorzystując akceleratory MI300X do zasilania kluczowych usług, w tym całego ruchu na żywo w modelach Llama 405B firmy Meta.

Pojemność i przepustowość pamięci odgrywają kluczową rolę w wydajności i efektywności sztucznej inteligencji, a my jesteśmy zaangażowani w dostarczanie wiodącej w branży pamięci z każdą generacją akceleratorów AMD Instinct. Zwiększenie pamięci na chipach, poprawa lokalności dostępu do pamięci poprzez partycje programowe oraz optymalizacja sposobu przetwarzania danych poprzez umożliwienie wysokiej przepustowości między chipletami może obniżyć zużycie energii przez połączenia i całkowite zużycie energii przez komunikację, zmniejszając ogólne zapotrzebowanie systemu na energię. Efekty te są zwielokrotniane w klastrach i centrach danych.

Jednak nie tylko akceleratory wpływają na wydajność i energooszczędność AI. Połączenie ich z odpowiednim hostem CPU ma kluczowe znaczenie dla zapewnienia akceleratorom danych dla wymagających obciążeń AI. Procesory AMD EPYC 9575F są dostosowane do rozwiązań AI opartych na GPU, a nasze testy wykazały do 8% szybsze przetwarzanie niż w przypadku konkurencyjnych procesorów dzięki wyższej częstotliwości taktowania boost.

Ciągłe doskonalenie dzięki optymalizacjom oprogramowania

Otwarty stos oprogramowania AMD ROCm™ zapewnia również znaczne skoki wydajności sztucznej inteligencji, umożliwiając nam kontynuowanie optymalizacji wydajności i efektywności energetycznej naszych akceleratorów długo po ich dostarczeniu do klientów.

Odkąd wprowadziliśmy na rynek akceleratory AMD Instinct MI300X, podwoiliśmy wydajność wnioskowania i uczenia[iii] w szerokiej gamie najpopularniejszych modeli sztucznej inteligencji dzięki ulepszeniom ROCm. Nieustannie dopracowujemy, a nasze zaangażowanie w otwarty ekosystem z partnerami takimi jak PyTorch i Hugging Face oznacza, że programiści mają dostęp do codziennych aktualizacji najnowszych bibliotek ROCm, aby zapewnić, że ich aplikacje są zawsze maksymalnie zoptymalizowane.

Dzięki ROCm rozszerzyliśmy również obsługę formatów matematycznych o niższej abstrakcji specyficznych dla AI, w tym FP8, umożliwiając większą wydajność energetyczną wnioskowania i szkolenia AI. Wykorzystanie formatów matematycznych o niższej precyzji może złagodzić wąskie gardła pamięci i zmniejszyć opóźnienia związane z formatami o wyższej precyzji, umożliwiając obsługę większych modeli w ramach tych samych ograniczeń sprzętowych, umożliwiając bardziej wydajne procesy uczenia i wnioskowania. Nasza najnowsza wersja ROCm 6.3 nadal zwiększa wydajność, efektywność i skalowalność.

Dokąd zmierzamy?

Nasze wysokowydajne procesory AMD EPYC i akceleratory AMD Instinct zasilają sztuczną inteligencję na dużą skalę, odkrywając niesamowite spostrzeżenia dzięki najszybszym superkomputerom na świecie i umożliwiając centrom danych osiągnięcie więcej przy mniejszej powierzchni. Nie spuszczamy nogi z gazu – nadal przesuwamy granice wydajności i efektywności energetycznej dla sztucznej inteligencji i obliczeń o wysokiej wydajności dzięki holistycznemu projektowaniu chipów. Co więcej, nasze otwarte podejście do oprogramowania pozwala nam wykorzystać zbiorowe innowacje w otwartym ekosystemie, aby konsekwentnie i często zwiększać wydajność i efektywność.

Dzięki naszemu przemyślanemu podejściu do współprojektowania sprzętu i oprogramowania, jesteśmy pewni naszej mapy drogowej, aby przekroczyć cel 30×25 i podekscytowani przyszłymi możliwościami, w których widzimy drogę do ogromnej poprawy efektywności energetycznej w ciągu najbliższych kilku lat.

Ponieważ sztuczna inteligencja nadal się rozprzestrzenia, a zapotrzebowanie na moc obliczeniową przyspiesza, efektywność energetyczna staje się coraz ważniejsza poza krzemem, ponieważ rozszerzamy naszą uwagę na zużycie energii na poziomie systemu, szafy i klastra. Z niecierpliwością czekamy na więcej informacji na temat naszych postępów i tego, co nastąpi po 30×25, kiedy zakończymy realizację celu w przyszłym roku.

Subscribe
Powiadom o
guest
0 komentarzy
najstarszy
najnowszy oceniany
Inline Feedbacks
View all comments