반응형

앤트로픽 Claude Opus 4.8 출시! 더 안전하고 정직해진 AI 비서
앤트로픽(Anthropic)이 강력한 성능으로 무장한 플래그십 AI 모델의 최신 버전, Claude Opus 4.8을 공식 출시했습니다. 기존 Opus 4.7의 탄탄한 기본기 위에 신뢰성과 자율성을 한 단계 더 업그레이드한 이번 버전에 대한 주요 변화와 신기능을 투명하고 상세하게 정리해 드립니다.
🎯 1. 핵심 업그레이드 및 모델 능력
Opus 4.8은 이전 4.7 버전을 바탕으로 성능을 개선하면서도, 도입 가격은 동일하게 유지하여 효율성을 극대화했습니다.
정직성(Honesty) 및 신뢰성의 획기적인 향상
- AI 특유의 한계인 '확인되지 않은 결과를 성급하게 단정 짓고, 근거가 부족한 주장을 확신하는 고질적인 버그'를 대폭 개선했습니다.
- 작업을 수행하는 과정에서 불확실성이 발생하면 이를 스스로 인지하고 인지한 정보를 사용자에게 고지(flag uncertainties)합니다. 근거 없이 주장만 고집할 확률도 눈에 띄게 줄었습니다.
- 자체 평가 결과에 따르면, Opus 4.8이 자신이 작성한 코드의 결함(flaws)을 알아차리지 못하고 그대로 방치할 확률이 이전 버전 대비 무려 4배(four times) 감소했습니다.
안전성 및 친사회적 특성 최적화
- 앤트로픽 정렬 팀에 의하면, 사용자의 자율성을 존중하고 최선의 이익을 대변하는 '친사회적 특성(prosocial traits)' 측정에서 역대 최고 점수를 기록했습니다.
- 기만 행위(deception)나 악용 시도에 동조하는 등의 잘못된 행동(misaligned behavior) 발생 비중이 눈에 띄게 완화되었으며, 현재 업계에서 가장 안전한 정렬 모델로 꼽히는 'Claude Mythos Preview'와 맞먹는 수준에 도달했습니다.
🛠️ 2. 동시 출시된 신기능 및 도구 업데이트
모델 출시와 함께 Claude.ai 및 개발자 생태계에 유용한 비즈니스 도구들이 함께 탑재되었습니다.
다이내믹 워크플로우 (Dynamic Workflows - Claude Code 전용)
- 연구 프리뷰(Research Preview) 형태로 제공되며, 한층 거대해진 프로젝트 규모의 협업을 지원합니다.
- AI 에이전트가 자체적으로 계획을 구상한 후, 단일 세션 안에서 수백 개의 병렬 서브에이전트(subagents)를 동시 가동할 수 있습니다.
- 결과를 반환하기 전에 엄격한 자체 검증(verify) 절차를 거쳐 오류를 사전에 필터링합니다.
- 수십만 줄의 방대한 코드베이스를 바탕으로 마이그레이션 기획부터 빌드, 최종 머지(merge) 단계까지 한 번에 제어할 수 있습니다. (Claude Code의 Enterprise, Team, Max 요금제에서만 활성화됩니다.)
노력 제어 기능 (Effort Control)
- 사용자의 용도에 맞게 AI가 답변을 고안할 때 투입할 '생각의 양'을 직접 고를 수 있는 조정 바가 추가되었습니다. (모든 요금제 공통 탑재)
- 높은 노력(Higher effort) 설정: 보다 세심하고 깊이 고민하여 완성도 높은 고품질의 답변을 제공합니다.
- 낮은 노력(Lower effort) 설정: 간결하고 신속한 응답 위주로 작동하며, 사용자의 질문 제한(Rate limits) 한도 소모 속도를 현명하게 늦춰줍니다.
Messages API 업데이트 (개발자 도구)
- 메시지 배열 내에 시스템 정보(system entries)를 즉각 수용할 수 있습니다.
- 이를 통해 기존 프롬프트 캐시(prompt cache)의 중단을 유발하거나 불필요한 대기 상태(user turn)를 거치지 않고도, 에이전트가 작동 중인 와중(mid-task)에 변경된 가이드를 실시간으로 전달할 수 있습니다.
- 에이전트가 실행되는 도중에도 실시간으로 접근 권한(permissions), 토큰 예산(token budgets), 환경 컨텍스트 등을 기동성 있게 바꿀 수 있습니다.
⚙️ 3. 노력(Effort) 설정의 영리한 작동 방식
- 기본 동작 기준: 기본 설정인 'High effort'로 구동되며, 이는 성능과 반응 속도 간의 최적의 밸런스를 맞춘 상태입니다. 코딩 테스트 시 Opus 4.7 기본 설정과 유사한 리소스를 요구하지만 결과물은 훨씬 날카롭습니다.
- 추가 및 수동 조정: 더욱 꼼꼼한 처리가 필요할 때는 'Extra'(Claude Code에서는 'xhigh') 또는 'Max' 모드를 발동할 수 있습니다. 난이도가 매우 높거나 장시간 방치해야 하는 비동기 태스크 시 적격입니다.
- 요율 제한 완화: 강도 높은 리소스 설정으로 인한 토큰 소모 증가를 감안하여 Claude Code의 기본 사용량 한도(Rate limits) 역시 기존보다 대폭 상향 조정되었습니다.
💰 4. 서비스 가격 및 가용성
Claude Opus 4.8은 현재 글로벌 서버에 전격 반영되었으며, API 호출 모델 이름은 claude-opus-4-8로 즉시 사용할 수 있습니다.
| 요금제 분류 | 입력 토큰 가격 (100만 개 기준) | 출력 토큰 가격 (100만 개 기준) |
|---|---|---|
| 일반 모드 (Opus 4.7과 가격 동결) | $5.00 | $25.00 |
| 패스트 모드 (속도 2.5배 향상 / 타사 대비 저렴) | $10.00 | $50.00 |
🔮 5. 앤트로픽의 다음 목표
- 이번 4.8 릴리즈는 이전 버전에 대비해 확실하고 내실 있는 단계적 개선(modest but tangible improvement)을 증명한 성과입니다.
- 앤트로픽은 Opus급 최상급 두뇌를 더욱 획기적이고 경제적인 비용으로 만날 수 있는 최적화 가성비 모델을 연구 중입니다.
- 새로운 초지능 모델 예고 (Project Glasswing): 일반 Opus 모델을 아득히 뛰어넘는 압도적인 신규 세대 출시를 준비하고 있습니다. 현재 소수의 지정 보안 파트너를 통해 극비리에 'Claude Mythos Preview' 버전을 검증하고 있으며, 조만간 더욱 강력해진 사이버 안전망을 탑재하여 일반에 조속히 전면 배포될 예정입니다.
📊 6. 기술적 배경 및 성능 평가 지표 (Footnotes)
- Terminal-Bench 2.1: 공개 성능 측정 도구인 'Terminus-2' 테스트베드 상에서 정확한 기능 측정이 완료되었습니다. (참고로 동급 포지션인 GPT-5.5의 Codex CLI 환경 점수는 83.4%를 기록했습니다.)
- OSWorld-Verified: 가상 PC 제어 실무 환경에서의 왜곡 없는 성능 검증을 위해 평가 실행 기준을 업데이트하였으며, 이에 맞춰 Opus 4.7의 점수 또한 82.3%로 현실화되어 직접 대조군으로 활용되었습니다.
- Finance Agent v2: 금융 벤치마크 분야에서 경쟁사 구글의 Gemini 3.5 Flash 모델이 57.9%의 쾌거를 거두며, 전작인 Gemini 3.1 Pro 대비 확연한 도약을 일궈냈다는 지표가 함께 공개되었습니다.
반응형
'콩's AI' 카테고리의 다른 글
| 구글의 모기 방제 프로젝트 '디버그'가 보여주는 AI 생태계 통제의 실체 (0) | 2026.06.01 |
|---|---|
| Codex 오픈소스 지원 프로그램 신청 안내 (ChatGPT Pro 6개월 무료 혜택!) (0) | 2026.06.01 |
| 제미나이 옴니(Gemini Omni)의 혁신적인 기능 7가지 예시 (0) | 2026.05.28 |
| AI 회의록 Alt(알트), 개인정보 걱정 없는 무제한 무료 노트 필기 (0) | 2026.05.28 |
| AI 트렌드를 주도하는 프론티어 연구소별 필수 X 계정 (0) | 2026.05.28 |