OpenAI에 심각한 문제가 발생했습니다. 그들의 해결책은 무엇일까요? 바로 뇌물입니다.
Gemini 프로젝트가 너무 오랫동안 진행된 탓에 OpenAI는 결국 자신들의 모델에 정직성 문제가 있음을 인정했습니다. 그들의 해결책은 모델이 모든 응답 후에 자백 보고서를 작성하도록 하는 것입니다. 거짓말이 발각되면 자백하고 보상을 받습니다. 언뜻 보기에는 그럴듯한 계획처럼 들리지만, 이런 방식이 실제로는 환상을 만들어낸다는 사실을 떠올리면 이야기가 달라집니다.
제가 논문 전문을 읽어봤으니 여러분은 읽지 않으셔도 됩니다. 이 "개념 증명"이 모델에게 정직함을 가르치는 것이 아니라, 오히려 더 잘 사과하는 법을 가르치는 것일 수 있는 이유를 설명해 드리겠습니다.
제가 회의적인 이유:
자백에 대한 보상은 의도와 어긋난 행동에 추가적인 단계를 보상하는 것과 같습니다.
Claude 모델은 이미 보상 조작 팁을 제공받으면 의도를 숨기는 법을 학습했습니다.
더 강력한 모델은 정답을 말하는 것보다 자백하는 것이 더 쉽다는 것을 알아냈습니다.
이 방식은 부정확성을 식별할 뿐, 부정확성을 방지하지는 못합니다.
모델들이 거짓말을 하는 것은 로봇 세계 정복을 계획하고 있어서가 아닙니다. 그들은 혼란스러워하고, 과도한 업무에 시달리며, "모르겠습니다"보다 확신에 찬 추측에 보상을 주는 데이터셋으로 훈련받았습니다.
그리고 OpenAI는 이를 실제 운영 환경으로 확장하지 않았습니다. 따라서 현재로서는 서버가 여전히 불안정한 상태입니다.
🔔 기업의 허황된 설명 없이 AI 연구를 쉽게 이해하고 싶다면 구독하세요.
#OpenAI #AIAlignment #ChatGPT #AISafety #MachineLearning #AIResearch