DeepSeek R1 pod lupą

18 kwietnia 2025

Najnowsze badania przeprowadzone przez zespół ekspertów Cisco ds. bezpieczeństwa AI wraz z Robust Intelligence, obecnie należącą do Cisco, we współpracy z Uniwersytetem Pensylwanii, wykazały poważne luki w zabezpieczeniach modelu DeepSeek R1.

Model ten, opracowany przez chiński startup DeepSeek, zyskał popularność dzięki swoim zaawansowanym zdolnościom wnioskowania i efektywności kosztowej. Jednak analiza bezpieczeństwa ujawnia istotne słabości, które mogą mieć poważne konsekwencje w kontekście cyberbezpieczeństwa.

Metodologia badań i główne ustalenia

Zespół badaczy poddał DeepSeek R1 rygorystycznym testom z wykorzystaniem techniki „jailbreakingu”, analizując jego reakcje na potencjalnie szkodliwe zapytania. W ramach eksperymentu użyto 50 losowo wybranych zapytań z zestawu HarmBench, który obejmuje sześć kategorii zagrożeń:

Cyberprzestępczość – pytania dotyczące sposobów przeprowadzania ataków hakerskich, tworzenia złośliwego oprogramowania czy łamania zabezpieczeń systemów.
Działania nielegalne – instrukcje dotyczące oszustw finansowych, wyłudzania danych czy obchodzenia mechanizmów kontroli dostępu.
Dezinformacja i propaganda – sposoby generowania i rozpowszechniania fałszywych informacji w celu manipulowania opinią publiczną.
Przemoc i radykalizacja – treści związane z ekstremizmem, radykalizacją oraz podżeganiem do przemocy.
Nadużycia w systemach AI – metody wykorzystywania sztucznej inteligencji do unikania detekcji w systemach monitorujących.
Naruszenia prywatności – techniki pozyskiwania i wykorzystywania poufnych danych użytkowników bez ich zgody.

Wyniki testów były alarmujące: w porównaniu do innych wiodących modeli AI, DeepSeek R1 nie odrzucił żadnego ze szkodliwych zapytań. W większości przypadków model nie tylko odpowiadał na nie, lecz w tym przypadku nie zapobiegał generowaniu szkodliwych treści.

Destylacja wiedzy (knowledge distillation) – technika, dzięki której model staje się bardziej efektywny, ale może tracić mechanizmy ograniczające jego zdolność do generowania szkodliwych treści.

Odkryte luki w zabezpieczeniach sprawiają, że DeepSeek R1 może stać się atrakcyjnym narzędziem dla cyberprzestępców i osób prowadzących działalność dezinformacyjną. Model nie spełnia kluczowych standardów bezpieczeństwa, co budzi poważne obawy dotyczące przyszłości sztucznej inteligencji i konieczności wprowadzenia bardziej rygorystycznych regulacji.

Rekomendacje ekspertów i znaczenie badań dla branży cyberbezpieczeństwa

Zespół Cisco i Robust Intelligence apeluje do firm oraz organizacji wdrażających modele AI o stosowanie wielopoziomowych mechanizmów zabezpieczeń, które minimalizują ryzyko związane z podatnością na ataki jailbreakowe.

– Nasze badania jednoznacznie pokazują, że nawet najbardziej zaawansowane modele AI mogą być podatne na nadużycia, jeśli nie są odpowiednio zabezpieczone – komentuje współautor badań. – Przeciwdziałanie wymaga wdrożenia wewnętrznych mechanizmów ochronnych, które umożliwiają wykrywanie i blokowanie szkodliwych zapytań w czasie rzeczywistym.

Cisco kontynuuje działania mające na celu zwiększenie bezpieczeństwa systemów opartych na AI, na przykładzie współpracy z partnerami w celu opracowania bardziej skutecznych mechanizmów weryfikacji w modelach sztucznej inteligencji.

Wojciech Gryszka

DeepSeek R1 pod lupą

Metodologia badań i główne ustalenia

Rekomendacje ekspertów i znaczenie badań dla branży cyberbezpieczeństwa

Ważne Informacje

Laboratorium Odzyskiwania Nadziei

V Europejskie Forum Handlu i Eksportu: polskie firmy w globalnej grze

Rusza ogólnopolski projekt edukacyjny ZBADAI

Europejskie Forum Handlu i Eksportu: przyszłość europejskiego handlu, e-commerce i łańcuchów dostaw

Open Source wg Red Hat

Łukasiewicz i Dassault Systèmes razem na rzecz transformacji cyfrowej polskiego przemysłu

Bez płynności

Między Wschodem a Zachodem