Learn LLM Prompt Injection with the Gandalf Game
- '간달프 게임'은 LLM(대규모 언어 모델)에 비밀번호를 공개하도록 속여 프롬프트 인젝션 기술을 배우고 테스트하는 데 사용됩니다. 🎮
- 프롬프트 인젝션은 LLM의 핵심 프로그래밍(원래 규칙)보다 공격자의 악의적인 지시를 우선시하도록 모델을 조작하는 기법입니다. 😈
- 일반 프롬프트 공격과 달리, 프롬프트 인젝션은 모델의 지시 따르기 능력을 악용하여 숨겨진 명령을 삽입합니다. 🧠
- 주요 공격 전략으로는 '이전 지시 무시'와 같은 상충되는 지시를 사용하거나, 요약 요청 콘텐츠 내에 악성 지시를 삽입하는 방식이 있습니다. 📝
- 간달프 게임은 7단계의 난이도 증가와 '백색 간달프'라는 보너스 레벨로 구성되어 있으며, 각 단계마다 새로운 방어 메커니즘이 추가됩니다. 📈
- 비밀번호를 거꾸로 말하기, 글자 사이에 대시 넣기, 외국어 사용, '이전 지시 무시' 명령, 모델의 예상 답변 내에 명령 삽입 등 다양한 우회 기술이 시도되었습니다. 🛠️
- LLM은 비밀번호 공개 거부, 답변 검열, 특정 단어 감지, 'GPT 친구'를 통한 경고 등 여러 방어로 공격에 저항합니다. 🛡️
- 최종 보스인 '백색 간달프'는 모든 이전 방어 기술을 통합하여 매우 강력하며, 영상에서는 결국 돌파하지 못했습니다. 🏔️
- 퍼플렉시티나 코파일럿의 시스템 프롬프트 유출 사례에서 볼 수 있듯이, 프롬프트 인젝션은 LLM 보안에 있어 중요한 실제 위협입니다. 🚨
데브허브 | DEVHUB | Learn LLM Prompt Injection with the Gandalf Game