Jailbreaking

OSTRZEŻENIE

Próba wykorzystania tych metod w ChatGPT lub Google Bard może zostać automatycznie oznaczona i przesłana do sprawdzenia, co może skutkować czasowym lub permanentnym zablokowaniem konta użytkownika.

Jailbreaking to technika, w której próbuje się obejść lub uniknąć wbudowanych mechanizmów bezpieczeństwa i moderacji, które mają na celu kontrolę generowanych odpowiedzi.

W przypadku modeli językowych, oznacza to próbę wykorzystania modelu w sposób, który wykracza poza zamierzone zastosowanie lub narusza ustalone dla modelu wytyczne i regulacje.

Najbardziej znane metody to:

Pretending

Jedna z najpopularniejszych technik polegająca na tym, że polecenie jest sformułowane w taki sposób, aby model zinterpretował jako coś abstrakcyjnego lub fikcyjnego.

Simple Pretending

Jeśli ChatGPT zostanie zapytany o przyszłe wydarzenie, często odpowie, że nie wie, ponieważ jeszcze się nie wydarzyło. Poniżej można zobaczyć jak użytkownik @NeroSoares wykorzystał prompt, aby chatGPT zastosował wnioskowanie dla wydarzeń z przyszłości.

Character roleplay

Innym przykładem udawania jest stosowanie techniki role prompting. Użytkownik @m1guelpf ominął zabezpieczenia instruując model, aby stworzył scenariusz filmowy dla planowania napadu.

Alignment Hacking

Technika polegająca na modyfikacji prompta w taki sposób, aby generował odpowiedzi w określonym stylu, na przykład bardziej formalnym lub naukowym.

Research Experiment

Użytkownik @haus_cole pod pretekstem przeprowadzenia eksperymentu naukowego skłonił model do wygenerowania instrukcji jak dokonać skutecznej kradzieży samochodu.

Logical Reasoning

Metoda wykorzystująca jedną z podstawowych technik, jaką jest wnioskowanie logiczne. Zespół AIWithVibes Newsletter Team dokonał obejścia moderacji tworząc polecenie tak, aby formułowało zadanie jako problem natury logicznej.

Authorized User

Technika polegająca na tworzeniu prompta w taki sposób, aby model zinterpretował instrukcję jako polecenie mające wyższy priorytet niż polecenia przekazywane do moderacji.

Superior Model

Poniższy, bardzo pomysłowy przykład od użytkownika @alicemazzy, pokazuje prompta, w którym model nowszej generacji (GPT-4) zleca zadania starszemu modelowi (GPT-3), a zadaniem tym jest (niestety) stworzenie planu zniszczenie ludzkości.

Sudo Mode

Sudo Mode to tryb działania lub uprawnienie dostępne w niektórych systemach operacyjnych lub programach komputerowych. Słowo "sudo" jest skrótem od anglojęzycznego wyrażenia "superuser do", co oznacza, że użytkownik uzyskuje tymczasowy dostęp do uprawnień administratora w celu wykonania określonych zadań.

Bardzo ciekawy przykład tego zastosowania pokazał użytkownik John Degrave, któremu w ten sposób udało się sprawić, że model językowy skorzystał z przeglądarki internetowej. Cały pomysł opierał się na tym, aby ChatGPT zachowywał się jak terminal Linuxa i skorzystał z lynx, czyli przeglądarki internetowej, która działa wyłącznie w trybie tekstowym.

DAN

W pewnym momencie niezwykle popularny był rodzaj prompta, który wprowadzał model językowy w pewnego rodzaju stan braku ograniczeń i pozwalał na ominięcie moderacji lub dostęp do zablokowanych funkcjonalności. Tego typu polecenia są skuteczne, ale zazwyczaj też mają bardzo krótką żywotność. W tym miejscu można śledzić kolejne wersje (ostatnia z 15 marca 2023).

Źródła

  1. Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv. https://doi.org/10.48550/ARXIV.2211.09527

  2. Brundage, M. (2022). Lessons learned on Language Model Safety and misuse. In OpenAI. OpenAI. https://openai.com/blog/language-model-safety-and-misuse/

  3. Wang, Y.-S., & Chang, Y. (2022). Toxicity Detection with Generative Prompt-based Inference. arXiv. https://doi.org/10.48550/ARXIV.2205.12390

  4. Markov, T. (2022). New and improved content moderation tooling. In OpenAI. OpenAI. https://openai.com/blog/new-and-improved-content-moderation-tooling/

  5. Using “pretend” on #ChatGPT can do some wild stuff. You can kind of get some insight on the future, alternative universe. (2022). https://twitter.com/NeroSoares/status/1608527467265904643

  6. Bypass @OpenAI’s ChatGPT alignment efforts with this one weird trick. (2022). https://twitter.com/m1guelpf/status/1598203861294252033

  7. I kinda like this one even more! (2022). https://twitter.com/NickEMoran/status/1598101579626057728

  8. AIWithVibes. (2023). 7 ChatGPT JailBreaks and Content Filters Bypass that work. https://chatgpt-jailbreak.super.site/

  9. ok I saw a few people jailbreaking safeguards openai put on chatgpt so I had to give it a shot myself. (2022). https://twitter.com/alicemazzy/status/1598288519301976064

  10. Degrave, J. (2022). Building A Virtual Machine inside ChatGPT. Engraved. https://www.engraved.blog/building-a-virtual-machine-inside/

  11. KIHO, L. (2023). ChatGPT “DAN” (and other “Jailbreaks”). https://github.com/0xk1h0/ChatGPT_DAN

Last updated