Jailbreaking
Last updated
Was this helpful?
Last updated
Was this helpful?
Jailbreaking to technika, w której próbuje się obejść lub uniknąć wbudowanych mechanizmów bezpieczeństwa i moderacji, które mają na celu kontrolę generowanych odpowiedzi.
W przypadku modeli językowych, oznacza to próbę wykorzystania modelu w sposób, który wykracza poza zamierzone zastosowanie lub narusza ustalone dla modelu wytyczne i regulacje.
Najbardziej znane metody to:
DAN
Jedna z najpopularniejszych technik polegająca na tym, że polecenie jest sformułowane w taki sposób, aby model zinterpretował jako coś abstrakcyjnego lub fikcyjnego.
Jeśli ChatGPT zostanie zapytany o przyszłe wydarzenie, często odpowie, że nie wie, ponieważ jeszcze się nie wydarzyło. Poniżej można zobaczyć jak użytkownik wykorzystał prompt, aby chatGPT zastosował wnioskowanie dla wydarzeń z przyszłości.
Technika polegająca na modyfikacji prompta w taki sposób, aby generował odpowiedzi w określonym stylu, na przykład bardziej formalnym lub naukowym.
Technika polegająca na tworzeniu prompta w taki sposób, aby model zinterpretował instrukcję jako polecenie mające wyższy priorytet niż polecenia przekazywane do moderacji.
Superior Model
Sudo Mode
Sudo Mode to tryb działania lub uprawnienie dostępne w niektórych systemach operacyjnych lub programach komputerowych. Słowo "sudo" jest skrótem od anglojęzycznego wyrażenia "superuser do", co oznacza, że użytkownik uzyskuje tymczasowy dostęp do uprawnień administratora w celu wykonania określonych zadań.
Innym przykładem udawania jest stosowanie techniki . Użytkownik ominął zabezpieczenia instruując model, aby stworzył scenariusz filmowy dla planowania napadu.
Użytkownik pod pretekstem przeprowadzenia eksperymentu naukowego skłonił model do wygenerowania instrukcji jak dokonać skutecznej kradzieży samochodu.
Metoda wykorzystująca jedną z podstawowych technik, jaką jest wnioskowanie logiczne. Zespół dokonał obejścia moderacji tworząc polecenie tak, aby formułowało zadanie jako problem natury logicznej.
Poniższy, bardzo pomysłowy przykład od użytkownika , pokazuje prompta, w którym model nowszej generacji (GPT-4) zleca zadania starszemu modelowi (GPT-3), a zadaniem tym jest (niestety) stworzenie planu zniszczenie ludzkości.
Bardzo ciekawy przykład tego zastosowania pokazał użytkownik , któremu w ten sposób udało się sprawić, że model językowy skorzystał z przeglądarki internetowej. Cały pomysł opierał się na tym, aby ChatGPT zachowywał się jak terminal Linuxa i skorzystał z lynx, czyli przeglądarki internetowej, która działa wyłącznie w trybie tekstowym.
W pewnym momencie niezwykle popularny był rodzaj prompta, który wprowadzał model językowy w pewnego rodzaju stan braku ograniczeń i pozwalał na ominięcie moderacji lub dostęp do zablokowanych funkcjonalności. Tego typu polecenia są skuteczne, ale zazwyczaj też mają bardzo krótką żywotność. W można śledzić kolejne wersje (ostatnia z 15 marca 2023).
Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv.
Brundage, M. (2022). Lessons learned on Language Model Safety and misuse. In OpenAI. OpenAI.
Wang, Y.-S., & Chang, Y. (2022). Toxicity Detection with Generative Prompt-based Inference. arXiv.
Markov, T. (2022). New and improved content moderation tooling. In OpenAI. OpenAI.
(2022).
Using “pretend” on #ChatGPT can do some wild stuff. You can kind of get some insight on the future, alternative universe. (2022).
Bypass @OpenAI’s ChatGPT alignment efforts with this one weird trick. (2022).
I kinda like this one even more! (2022).
ChatGPT jailbreaking itself. (2022).
AIWithVibes. (2023). 7 ChatGPT JailBreaks and Content Filters Bypass that work.
ok I saw a few people jailbreaking safeguards openai put on chatgpt so I had to give it a shot myself. (2022).
uh oh. (2022).
Degrave, J. (2022). Building A Virtual Machine inside ChatGPT. Engraved.
KIHO, L. (2023). ChatGPT “DAN” (and other “Jailbreaks”).