Dostawca największej polskiej chmury publicznej, firma CloudFerro opracowała Sherlock – platformę, która daje dostęp do zaawansowanych modeli sztucznej inteligencji, m.in. takich jak Bielik 11B v2.3 Instruct, zapewniając jednocześnie pełną kontrolę nad danymi i zgodność z lokalnymi regulacjami. To narzędzie zaprojektowane z myślą o organizacjach, które chcą wdrożyć AI bez konieczności zarządzania skomplikowaną infrastrukturą.
Platforma Sherlock udostępnia modele mające zastosowanie m.in. do obsługi wielkoskalowych analiz tekstu, takich jak przetwarzanie dokumentów, budowa systemów rekomendacyjnych czy wsparcie systemów RAG (Retrieval-Augmented Generation).
Bielik 11B v2.3 Instruct to pierwszy zaawansowany model językowy opracowany na bazie danych w języku polskim, który powstał we współpracy inicjatywy open-science SpeakLeash (Spichlerz) i Akademickiego Centrum Komputerowego Cyfronet AGH. Dzięki temu model oferuje unikalną zdolność pracy z polskojęzycznymi dokumentami i danymi, rozumie lokalne niuanse i kulturową specyfikę komunikacji. Model Bielik wyróżnia się głęboką integracją z polskim kontekstem kulturowym i językowym. Model Llama 3.1 70B to z kolei największy i najbardziej zaawansowany model w ofercie, idealny do złożonych, wielojęzycznych zadań wymagających głębokiej analizy i generowania treści. Oba modele można łatwo integrować i testować w aplikacjach AI, dzięki standardowemu API zgodnemu z OpenAI.
Platforma daje także dostęp do dwóch modeli do tworzenia numerycznej reprezentacji tekstu (z ang. text embeddings): BGE-Multilingual-Gemma2 i e5-mistral-7b-instruct, które umożliwiają tworzenie zaawansowanych systemów wyszukiwania semantycznego oraz analizę dużych zbiorów danych i mogą posłużyć do budowy systemu identyfikującego kluczowe podobieństwa między tekstami. Przykładowo, na bazie tej technologii mogą powstawać aplikacje typu chatbot lub wyszukiwarka, analizujące ogromne zbiory dokumentów, co jest szczególnie użyteczne w dziedzinach, takich jak prawo, medycyna czy nauka.
Wsparcie polskiego ekosystemu AI
Sherlock, oprócz dostępu do globalnych modeli, takich jak Llama 3.1 70B, wzmacnia rozwój polskich inicjatyw AI. Bielik, opracowany na bazie największego polskiego zbioru danych tekstowych, jest jednym z niewielu modeli zdolnych do tak precyzyjnej pracy w polskim środowisku językowym.
Sherlock bazuje na architekturze chmurowej, wyposażonej w wysokowydajne procesory GPU, dzięki czemu użytkownik nie musi ponosić wysokich kosztów inwestycji we własną infrastrukturę IT i zarządzania nią. Organizacje mogą natychmiast rozpocząć korzystanie z zaawansowanych modeli AI, skupiając się na rozwoju swoich rozwiązań zamiast na zarządzaniu infrastrukturą techniczną. To otwiera drzwi do eksploracji sztucznej inteligencji dla mniejszych organizacji, które wcześniej nie mogły sobie pozwolić na tego typu technologie.
Potrzeba lokalnych rozwiązań AI wynika z kilku kluczowych powodów – od głębokiego zrozumienia specyfiki językowej i kulturowej, po kwestie bezpieczeństwa danych. W świecie, gdzie dane stanowią jedno z najcenniejszych aktywów, CloudFerro oferuje rozwiązanie zgodne z lokalnymi regulacjami. Modele działają w zamkniętym środowisku, a dane użytkowników nie są wykorzystywane do trenowania ani przechowywane w systemie. To szczególnie istotne dla sektorów regulowanych, takich jak opieka zdrowotna, administracja publiczna czy bankowość, gdzie przesyłanie danych do zewnętrznych systemów chmurowych często stanowi barierę nie do pokonania – podkreśla Jan Szypulski, product manager w CloudFerro.
Pierwsze globalne embeddingi dla obserwacji Ziemi
CloudFerro, we współpracy z Φ-lab, laboratorium badawczym ESA, wprowadziło także pierwsze globalne embeddingi AI dla obserwacji Ziemi (EO), które przekształcają ogromne zbiory danych satelitarnych w łatwe do analizy wektorowe reprezentacje numeryczne. Embeddingi (wektorowy opis obrazów przetworzony modelami AI) zyskują coraz większe znaczenie w obserwacji Ziemi. Mogą być wykorzystywane przez naukowców zajmujących się teledetekcją, analityków GIS oraz badaczy środowiska pracujących ze zobrazowaniami satelitarnymi i danymi geoprzestrzennymi. Dzięki przetworzeniu ponad 62 TB danych z programu Copernicus i wykorzystaniu zaawansowanych modeli AI, takich jak DINOv2, udało się stworzyć 200 milionów embeddingów, które znacząco upraszczają i przyspieszają pracę z danymi w teledetekcji i zarządzaniu środowiskiem.
Stworzenie embeddingów dla obserwacji Ziemi jest wynikiem specjalizacji CloudFerro w sektorze kosmicznym. Firma dostarcza innowacyjne usługi chmurowe do przetwarzania i przechowywania wielopetabajtowych zbiorów danych satelitarnych z obserwacji Ziemi i jest głównym wykonawcą (prime contractor) realizującym kluczowe projekty dla Europejskiej Agencji Kosmicznej. Razem z partnerami z konsorcjum tworzy i obsługuje platformę Copernicus Data Space Ecosystem, która jest głównym punktem dostępu do danych programu Copernicus.
Przyszłość platformy Sherlock
CloudFerro planuje rozwój platformy Sherlock, poprzez wprowadzenie kolejnych modeli językowych, funkcji generacji obrazów oraz rozwiązań wykorzystywanych w dziedzinie obserwacji Ziemi. Dzięki temu platforma będzie mogła odpowiadać na coraz bardziej złożone potrzeby użytkowników, jednocześnie pozostając prostym w obsłudze narzędziem.
Sherlock jest przykładem na to, że lokalne, niezależne rozwiązania AI mogą nie tylko dorównywać globalnym graczom, ale także oferować wartość, której nie zapewnią modele tworzone z myślą o międzynarodowych odbiorcach. Sherlock pokazuje, że rozwój AI może być zdecentralizowany – oparty o lokalne zasoby, wiedzę i potrzeby – dodaje ekspert.