- Anthropic의 새로운 AI 모델 안전 시스템은 극도로 강력한 탈옥 방지 기능을 자랑합니다. 🔒
- 8개의 악의적인 질문에 대한 답변을 유도하는 '유니버설 탈옥'을 찾는 챌린지가 진행 중입니다. 🧠
- 챌린지 참여자 중 1단계 통과율은 43%에 불과하며, 상위 단계는 더욱 낮습니다. 📉
- Anthropic의 시스템은 '헌법 분류기'를 사용하여 입력 및 출력을 다단계로 검사합니다. 🛡️
- 이 시스템은 방대한 합성 데이터셋과 자동화된 적대적 공격 도구를 활용합니다. 🤖
- 시스템은 높은 계산 비용(23.7%)과 약간의 오탐(0.38%)을 발생시킵니다. 📈
- 챌린지 데이터셋 공개 여부를 둘러싼 논쟁이 있습니다. 🗣️
- Anthropic은 HackerOne을 통해 탈옥 성공에 11만 5천 달러의 현상금을 걸었습니다. 💰