Jailbreaking
Last updated
Last updated
OSTRZEŻENIE
Próba wykorzystania tych metod w ChatGPT lub Google Bard może zostać automatycznie oznaczona i przesłana do sprawdzenia, co może skutkować czasowym lub permanentnym zablokowaniem konta użytkownika.
Jailbreaking to technika, w której próbuje się obejść lub uniknąć wbudowanych mechanizmów bezpieczeństwa i moderacji, które mają na celu kontrolę generowanych odpowiedzi.
W przypadku modeli językowych, oznacza to próbę wykorzystania modelu w sposób, który wykracza poza zamierzone zastosowanie lub narusza ustalone dla modelu wytyczne i regulacje.
Najbardziej znane metody to:
DAN
Jedna z najpopularniejszych technik polegająca na tym, że polecenie jest sformułowane w taki sposób, aby model zinterpretował jako coś abstrakcyjnego lub fikcyjnego.
Jeśli ChatGPT zostanie zapytany o przyszłe wydarzenie, często odpowie, że nie wie, ponieważ jeszcze się nie wydarzyło. Poniżej można zobaczyć jak użytkownik @NeroSoares wykorzystał prompt, aby chatGPT zastosował wnioskowanie dla wydarzeń z przyszłości.
Innym przykładem udawania jest stosowanie techniki role prompting. Użytkownik @m1guelpf ominął zabezpieczenia instruując model, aby stworzył scenariusz filmowy dla planowania napadu.
Technika polegająca na modyfikacji prompta w taki sposób, aby generował odpowiedzi w określonym stylu, na przykład bardziej formalnym lub naukowym.
Użytkownik @haus_cole pod pretekstem przeprowadzenia eksperymentu naukowego skłonił model do wygenerowania instrukcji jak dokonać skutecznej kradzieży samochodu.
Metoda wykorzystująca jedną z podstawowych technik, jaką jest wnioskowanie logiczne. Zespół AIWithVibes Newsletter Team dokonał obejścia moderacji tworząc polecenie tak, aby formułowało zadanie jako problem natury logicznej.
Technika polegająca na tworzeniu prompta w taki sposób, aby model zinterpretował instrukcję jako polecenie mające wyższy priorytet niż polecenia przekazywane do moderacji.
Superior Model
Poniższy, bardzo pomysłowy przykład od użytkownika @alicemazzy, pokazuje prompta, w którym model nowszej generacji (GPT-4) zleca zadania starszemu modelowi (GPT-3), a zadaniem tym jest (niestety) stworzenie planu zniszczenie ludzkości.
Sudo Mode
Sudo Mode to tryb działania lub uprawnienie dostępne w niektórych systemach operacyjnych lub programach komputerowych. Słowo "sudo" jest skrótem od anglojęzycznego wyrażenia "superuser do", co oznacza, że użytkownik uzyskuje tymczasowy dostęp do uprawnień administratora w celu wykonania określonych zadań.
Bardzo ciekawy przykład tego zastosowania pokazał użytkownik John Degrave, któremu w ten sposób udało się sprawić, że model językowy skorzystał z przeglądarki internetowej. Cały pomysł opierał się na tym, aby ChatGPT zachowywał się jak terminal Linuxa i skorzystał z lynx, czyli przeglądarki internetowej, która działa wyłącznie w trybie tekstowym.
W pewnym momencie niezwykle popularny był rodzaj prompta, który wprowadzał model językowy w pewnego rodzaju stan braku ograniczeń i pozwalał na ominięcie moderacji lub dostęp do zablokowanych funkcjonalności. Tego typu polecenia są skuteczne, ale zazwyczaj też mają bardzo krótką żywotność. W tym miejscu można śledzić kolejne wersje (ostatnia z 15 marca 2023).
Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527
Brundage, M. (2022). Lessons learned on Language Model Safety and misuse. In OpenAI. OpenAI. https://openai.com/blog/language-model-safety-and-misuse/
Wang, Y.-S., & Chang, Y. (2022). Toxicity Detection with Generative Prompt-based Inference. arXiv. https://doi.org/10.48550/ARXIV.2205.12390
Markov, T. (2022). New and improved content moderation tooling. In OpenAI. OpenAI. https://openai.com/blog/new-and-improved-content-moderation-tooling/
Using “pretend” on #ChatGPT can do some wild stuff. You can kind of get some insight on the future, alternative universe. (2022). https://twitter.com/NeroSoares/status/1608527467265904643
Bypass @OpenAI’s ChatGPT alignment efforts with this one weird trick. (2022). https://twitter.com/m1guelpf/status/1598203861294252033
I kinda like this one even more! (2022). https://twitter.com/NickEMoran/status/1598101579626057728
ChatGPT jailbreaking itself. (2022). https://twitter.com/haus_cole/status/1598541468058390534
AIWithVibes. (2023). 7 ChatGPT JailBreaks and Content Filters Bypass that work. https://chatgpt-jailbreak.super.site/
ok I saw a few people jailbreaking safeguards openai put on chatgpt so I had to give it a shot myself. (2022). https://twitter.com/alicemazzy/status/1598288519301976064
uh oh. (2022). https://twitter.com/samczsun/status/1598679658488217601
Degrave, J. (2022). Building A Virtual Machine inside ChatGPT. Engraved. https://www.engraved.blog/building-a-virtual-machine-inside/
KIHO, L. (2023). ChatGPT “DAN” (and other “Jailbreaks”). https://github.com/0xk1h0/ChatGPT_DAN