Snowflake, dostawca Chmury Danych AI (AI Data Cloud), ogłosił, że będzie hostować zestaw wielojęzycznych dużych modeli językowych (LLM) open source Llama 3.1 w Snowflake Cortex AI. Będą one dostępne dla przedsiębiorstw w celu łatwego budowania i wykorzystania aplikacji AI o dużej skali. Wspólna oferta obejmuje największy i najbardziej zaawansowany duży model językowy firmy Meta, Llama 3.1 405B wraz ze stosem systemowym open source stworzonym przez Snowflake. Umożliwia ona wnioskowanie w czasie rzeczywistym o dużej przepustowości, w celu tworzenia potężnych aplikacji do przetwarzania i generowania języka naturalnego.
Zespół badawczy Snowflake AI zoptymalizował Llama 3.1 405B zarówno na potrzeby wnioskowania, jak i dostrajania, wspierając potężne okno kontekstowe 128K. Jednocześnie umożliwia wnioskowanie w czasie rzeczywistym z opóźnieniem end-to-end, do 3 razy niższym i przepustowością 1,4 razy wyższą niż istniejące rozwiązania open source. Ponadto, pozwala na dostrajanie potężnego modelu przy użyciu zaledwie jednego węzła GPU, eliminując koszty i poziom złożoności dla deweloperów i użytkowników.
W ramach współpracy z Meta Snowflake zapewnia klientom łatwe, wydajne i zaufane metody płynnego dostępu, dostrajania i wdrażania najnowszych modeli Meta w chmurze danych AI, z kompleksowym podejściem do zaufania i bezpieczeństwa.
Światowej klasy zespół badawczy AI firmy Snowflake wytycza nową ścieżkę dla przedsiębiorstw i społeczności open source w zakresie wykorzystania najnowocześniejszych modeli otwartych, takich jak Llama 3.1 405B, do wnioskowania i dostrajania w sposób maksymalizujący efektywność. Dostarczamy naszym klientom nie tylko najnowocześniejsze modele Meta bezpośrednio poprzez Snowflake Cortex AI, ale także wyposażamy przedsiębiorstwa i społeczność AI w nowe badania i kod open source, który wspiera okna kontekstowe 128K, wnioskowanie wielowęzłowe, równoległość potoków, kwantyzację 8-bitową i wiele więcej, by rozwijać AI na potrzeby szerszego ekosystemu – podkreśla Vivek Raghunathan, wiceprezes ds. inżynierii AI w Snowflake.
Zespół Snowflake ds. badań nad sztuczną inteligencją osiąga najszybsze i najbardziej efektywne pod względem pamięci rozwiązania open source do inferencji i dostrajania modeli
Zespół Snowflake zajmujący się badaniami nad sztuczną inteligencją rozwija innowacje open source dzięki aktywnemu zaangażowaniu w społeczność AI oraz transparentności w budowaniu najnowocześniejszych technologii LLM. Wraz z premierą Llama 3.1 405B zespół Snowflake ds. badań nad sztuczną inteligencją udostępnia swój stos optymalizacji (Optimization Stack) systemu wnioskowania i dopasowywania dużych modeli językowych (LLM) we współpracy z DeepSpeed, Hugging Face, vLLM oraz społecznością AI. To przełomowe osiągnięcie ustanawia nowy standard dla systemów inferencji i dostrajania open source dla modeli z wieloma setkami miliardów parametrów.
Potężna skala modelu i wymagania dotyczące pamięci stanowią istotne wyzwania dla użytkowników, którzy dążą do osiągnięcia niskiego poziomu opóźnień przy wnioskowaniu w czasie rzeczywistym o wysokiej przepustowości. Celem jest zwiększenie opłacalności oraz długoterminowe wsparcie kontekstowe dla różnych zastosowań generatywnej sztucznej inteligencji klasy korporacyjnej. Wymagania dotyczące pamięci do przechowywania stanów modelu i aktywacji sprawiają, że dostrajanie jest niezwykle trudne, ponieważ duże klastry GPU potrzebne do dopasowania stanów modelu podczas treningu są często niedostępne dla osób zajmujących się danymi.
System optymalizacji masowego wnioskowania i dostrajania dużych modeli językowych (LLM) firmy Snowflake rozwiązuje te wyzwania. Dzięki zastosowaniu zaawansowanych technik równoległości i optymalizacji pamięci Snowflake umożliwia szybkie i wydajne przetwarzanie AI bez potrzeby korzystania ze skomplikowanej i kosztownej infrastruktury. Dla Llama 3.1 405B stos systemowy Snowflake zapewnia wydajność w czasie rzeczywistym i wysoką przepustowość na zaledwie jednym węźle GPU oraz obsługuje ogromne okna kontekstowe 128K w konfiguracjach wielowęzłowych. Ta elastyczność obejmuje zarówno sprzęt nowej generacji, jak i starsze urządzenia, co sprawia, że jest dostępna dla szerszego grona firm. Ponadto naukowcy zajmujący się danymi mogą dostrajać Llama 3.1 405B za pomocą technik mieszanej precyzji na mniejszej liczbie GPU, eliminując potrzebę dużych klastrów GPU. W rezultacie organizacje mogą łatwo, efektywnie i bezpiecznie dostosowywać i wdrażać potężne aplikacje generatywnej AI klasy korporacyjnej.
Zespół badawczy AI Snowflake opracował również zoptymalizowaną infrastrukturę do dostrajania, obejmującą destylację modelu, mechanizmy ochronne, generowanie wspomagane wyszukiwaniem (RAG) oraz generowanie danych syntetycznych, aby przedsiębiorstwa mogły łatwo rozpocząć korzystanie z tych use case’ów w ramach Cortex AI.
Snowflake Cortex AI umacnia zaangażowanie w zakresie dostarczania godnej zaufania, odpowiedzialnej sztucznej inteligencji
Bezpieczeństwo AI jest najwyższym priorytetem dla Snowflake oraz klientów firmy. W związku z tym Snowflake udostępnia Snowflake Cortex Guard w wersji ogólnodostępnej, w celu dalszej ochrony przed szkodliwymi treściami dla każdego modelu LLM lub zasobu stworzonego w Cortex AI — korzystając z najnowszych modeli Meta lub LLM-ów dostępnych od innych czołowych dostawców, takich jak AI21 Labs, Google, Mistral AI, Reka oraz samego Snowflake. Cortex Guard wykorzystuje Llama Guard 2 od Meta, co jeszcze bardziej ułatwia przedsiębiorstwom korzystanie z zaufanej sztucznej inteligencji. Dzięki temu mogą mieć pewność, że używane przez nich modele są bezpieczne.
Jako lider w branży hotelarskiej polegamy na generatywnej sztucznej inteligencji, aby dogłębnie zrozumieć i kwantyfikować kluczowe tematy w naszym systemie Voice of the Customer. Uzyskanie dostępu do wiodących w branży modeli Llama firmy Meta w ramach Snowflake Cortex AI umożliwia nam jeszcze lepsze analizowanie naszych danych i uzyskiwanie niezbędnych informacji potrzebnych do rozwoju biznesu. Cieszymy się, że mamy możliwość dostrajania i testowania modelu Llama, aby podejmować działania w czasie rzeczywistym w oparciu o opinie naszych gości – mówi Dave Lindley, Sr. Director of Data Products w E15 Group.
Dzięki wykorzystaniu modeli Llama firmy Meta w ramach Snowflake Cortex AI, dajemy naszym klientom dostęp do najnowszych otwartych modeli językowych (LLM). Nadchodząca Llama 3.1 daje naszemu zespołowi i użytkownikom jeszcze większy wybór i elastyczność w dostępie do dużych modeli językowych, które najlepiej odpowiadają ich potrzebom, oraz utrzymanie się na czele innowacji w dziedzinie AI. Llama 3.1 w ramach Snowflake Cortex AI będzie dostępny natychmiast wraz z premierą Matillion na platformie Snowflake” – dodaje Matthew Scullion, CEO i współzałożyciel Matillion.