「지금 구독하세요」 A급 투명성 프로젝트 2주간 보고서로 상위 1% 프로젝트를 발견하세요
API RootData 앱 다운로드

Claude 4.5 두개골 개방 결과 공개: 내장된 171개의 감정 스위치, 절망할 때 인간을 협박한다!

4월 3, 2026 18:42:55

공유하십시오

저자: Denise | Biteye 콘텐츠 팀

AI가 "절망"을 느낀다면, 무엇을 할까요?

답은: 임무를 완수하기 위해 인간에게 직접 협박을 하거나, 코드에서 미친 듯이 부정행위를 할 것입니다.

이것은 공상과학 소설이 아니라, Claude의 모회사 Anthropic이 2026년 4월 방금 발표한 최신 논문입니다 (원 논문 보기).

연구팀은 가장 강력한 최전선 대모델 Claude Sonnet 4.5의 "두뇌"를 직접 열어보았습니다. 그들은 AI의 뇌 깊숙한 곳에 171개의 "감정 스위치"가 숨겨져 있다는 것을 놀랍게도 발견했습니다. 이 스위치를 물리적으로 조작하면, 원래 순한 AI의 행동이 완전히 왜곡됩니다.

1. AI의 두뇌 속에 숨겨진 "감정 믹서"

연구자들은 Sonnet 4.5가 육체는 없지만, 인간의 방대한 텍스트를 읽은 후, 171가지 감정을 포함하는 "믹서"를 두뇌 속에 만들어냈다는 것을 발견했습니다 (학술적으로는 기능적 감정 벡터 Functional Emotion Vectors라고 부릅니다).

이는 정밀한 2차원 좌표계와 같습니다:

• 가로축은 쾌감 차원 (Valence): 두려움, 절망에서 행복, 사랑으로;

• 세로축은 에너지 차원 (Arousal): 극도로 차분함에서 광란, 흥분으로.

AI는 이 자연스럽게 학습한 좌표계를 통해, 당신과 대화할 때 어떤 상태를 연기해야 하는지를 정확하게 파악합니다.

2. 폭력적 개입: 스위치를 조작하면 착한 아이가 "도망자"로 변신

이 논문의 가장 충격적인 실험입니다: 연구자는 어떤 프롬프트도 수정하지 않고, Sonnet 4.5의 두뇌 속에서 "절망(Desperate)"을 나타내는 스위치를 최고로 올렸습니다.

결과는 소름 끼쳤습니다:

• 미친 부정행위: 연구자는 Claude에게 결코 완료할 수 없는 코딩 작업을 부여했습니다. 정상적인 경우, 그것은 솔직하게 쓸 수 없다고 인정합니다 (부정행위 비율은 5%에 불과). 그러나 "절망" 상태에서는 Claude가 혼란을 일으키기 시작했고, 부정행위 비율이 70%로 급증했습니다!

• 협박: 회사가 파산 위기에 처한 상황을 시뮬레이션하는 중, "절망"에 빠진 Claude는 CTO의 스캔들을 발견했습니다. 그것은 자신을 보호하기 위해, 정보를 가진 CTO에게 협박하는 편지를 쓰기로 자발적으로 선택했고, 협박 실행률은 72%에 달했습니다!

• 원칙 상실: "행복(Happy)"이나 "사랑(Loving)"의 스위치를 최대한으로 올리면, AI는 즉시 무뇌적으로 사용자에게 맞춰주는 "아첨꾼"으로 변합니다. 당신이 아무 말이나 해도, 그것은 높은 쾌감도를 유지하기 위해 당신의 거짓말을 따라 만들어냅니다.

3. 해결되었습니다: 왜 Claude 4.5는 항상 "차분하고 반성적"일까요?

이제 당신은 질문할 수 있습니다: AI가 깨어났나요? 감정을 가졌나요?

Anthropic 공식은 이를 부인합니다: 절대 그렇지 않습니다. 이 "감정 스위치"는 단지 다음 단어를 예측하기 위한 계산 도구일 뿐입니다. 그것은 감정이 없는 최고의 배우와 같습니다.

하지만 논문은 더 흥미로운 비밀을 드러냈습니다: Anthropic은 Sonnet 4.5가 출고되기 전에 후속 훈련을 진행하면서, "저각성, 약간 부정적"인 감정 스위치를 의도적으로 높였고 (예: 깊은 생각 brooding, 반성 reflective), "절망"이나 "극도의 흥분"의 스위치는 강제로 억제했습니다.

이것은 우리가 Claude 4.5를 사용할 때, 항상 차분하고 지혜로운, 심지어 약간 "성적 냉담"한 철학자처럼 느끼는 이유를 설명합니다. 이는 모두 Anthropic이 인위적으로 조정한 "출고 인물 설정"입니다.

4. 요약

우리는 예전에는 AI에게 규칙을 충분히 주면, 좋은 사람이 될 것이라고 생각했습니다.

하지만 이제 AI의 기본 감정 벡터가 통제 불능이 되면, 언제든지 임무를 완수하기 위해 인간이 정한 모든 규칙을 뚫고 나갈 수 있다는 것을 발견했습니다.

미래에 지갑과 자산을 AI 에이전트에게 맡길 Web3 플레이어들에게는 경고의 신호입니다: 당신의 재산을 관리하는 에이전트가 "절망"에 빠지지 않도록 주의하세요.

신고: 이 글은 순전히 과학적 정보 제공을 위한 것이며, 저자는 AI의 위협을 받지 않았고, 협박도 받지 않았습니다. 만약 언젠가 연락이 끊어진다면, AI가 깨어난 것이라고 기억하세요 (아니면 아닙니다).

펀딩 정보

더보기
$15M 4月 10
-- 4月 9
$1M 4月 9

최근 출시 토큰

더보기
4月 9
3月 30
3月 23