AI 도구 리뷰/ChatGPT

GPT-5.5 Instant 환각 52.5% 감소, 일감 6개로 검증한 일주일

피드너 2026. 5. 24. 15:00

 

OpenAI가 내세운 '환각 52.5% 감소'는 사실 의학·법률·금융 같은 고위험 프롬프트 한정 수치예요. 이전 모델 절대 환각률은 공개도 안 됐습니다.

 

지난 4월 23일 GPT-5.5 풀 버전이 공개된 이후, 5월 5일에 챗GPT 기본 모델이 GPT-5.5 Instant로 바뀐 뒤, 평소 돌리던 일감 여섯 개에 그대로 넣어봤습니다. 결과부터 풀어보면 좋아진 자리와 그대로인 자리가 꽤 선명하게 갈리더라고요.

 

'52.5% 감소' 주장, 세 가지 조건이 붙어 있습니다

이 수치가 일반 작문 오류율이 절반으로 줄었다는 의미는 아닙니다. OpenAI 자체 발표 자료에서는 의학·법률·금융 같은 고위험 프롬프트에 한정해 GPT-5.3 Instant 대비 환각 빈도가 52.5% 감소했다고 해요. 사용자가 '사실 오류'로 신고한 대화 기준으로는 37.3% 감소라는 수치가 같이 나왔지요.

 

조건이 셋 걸립니다.

  1. 이전 모델의 절대 환각률(X%)이 공개되지 않아 개선의 실질적 무게를 가늠하기 어렵습니다.
  2. 평가 데이터셋과 채점 기준이 비공개라 외부 재현이 안 됩니다.
  3. 한국어 같은 비영어권 프롬프트에 그대로 적용되는지는 따로 언급된 적이 없는 것으로 보입니다.

외부 평가는 결이 좀 다르게 잡혔어요. FindSkill.ai의 AA-Omniscience 벤치마크에서는 GPT-5.5 Instant의 confidently wrong(자신감 있게 틀리는) 비율이 86%, 정답률은 57%로 측정됐다는 보고가 나와 있고(측정 기준이 OpenAI 내부 평가와 다르긴 합니다), Tom's Guide의 별도 기사 두 건에서도 GPT-5.5 Instant가 약세를 보였어요. 특히 클로드 오퍼스(Claude Opus) 4.7 비교 기사에서는 7개 항목 7-0 완패가 그대로 정리됐고, 제미나이(Gemini) 3.1 Pro와의 7프롬프트 비교 기사에서도 전반적으로 밀린 채(7중 1건만 ChatGPT 승) 마무리됐네요. "모른다고 답하는 대신 그럴듯하게 지어낸다"는 평가가 그대로 붙었습니다.

 

 

GPT-5.5 Instant 실무 6종 일주일 테스트 결과

지난주 평소 돌리던 일감 여섯 개를 그대로 다시 돌려봤습니다. 안드로이드 릴리즈 노트 초안, 코틀린 코드 리뷰, 영문 메일 한글 번역, 의학 용어 정의 요약, 부동산 임대차 약관 해석, 카페 메뉴 한국어 추천 프롬프트 — 이 여섯이었어요.

 

좋아진 자리는 두 가지였습니다. 우선 출력의 군더더기가 확연히 줄었습니다. 분석 매체들 자료를 보면 실제로 생성되는 단어 수는 30.2%, 줄 수는 29.2% 줄었다고 하는데, 이게 체감이 꽤 큽니다. 이모지나 과한 굵은글씨, "좋은 질문이네요!" 같은 불필요한 도입 인사가 싹 사라졌어요.

 

그리고 수학·추론은 체감이 큽니다. AIME 2025 벤치마크가 65.4점에서 81.2점으로 올랐다고 하는데, 실제로 코틀린 코드 리뷰에서 인덱스 계산 오류를 생성 도중에 스스로 잡아 경로를 바꾸는 모습이 두어 번 잡히더라고요.

 

반면 그대로인 자리도 명확했지요. 부동산 약관 해석 프롬프트에서 한국 민법 조항 번호를 자신감 있게 틀리는 패턴은 그대로였습니다. 의학 용어 요약은 영어로 던지면 메모리 기능에서 인용한 문서명을 함께 보여주는데, 한국어로 같은 질문을 던지면 출처 표기가 빠진 채 단정형으로 답하는 일이 반복되었네요. 52.5% 감소의 혜택이 한국어 고위험 프롬프트까지 닿았다고 보기엔 아직 일러 보입니다.

 

 

짧고 단호해진 답변, 환각 검증이 더 어려워지는 역설

GPT-5.5 Instant를 일주일 써보면서 가장 신경 쓰였던 지점입니다. 답변이 짧고 단정해진 만큼, 남아 있는 오류를 사람이 감지하기가 오히려 어려워졌어요.

 

이전 모델은 "~할 수도 있습니다" 같은 완충어가 많아 그 자체로 검증 신호 역할을 했지요. 새 모델은 같은 정보를 두 문장으로 깔끔하게 끊어주는데, 그 깔끔함이 사실 여부와 별개로 신뢰감을 만들어버립니다. HITL(Human-in-the-Loop) 검증 루프를 빡빡하게 걸어두지 않으면 놓치기 쉬운 구간이에요.

 

멀티모달 추론(MMMU-Pro)에서 69.2점이 76점으로 올랐다는 발표도 같이 나왔는데(OpenAI 공식 비교 표 기준이에요), 실무에서 표나 이미지에서 숫자를 잘못 읽는 사례는 여전히 잡혀요. '모른다'고 인정하는 능력은 별도로 학습된 흔적이 보이지 않는다는 게 일주일 체감입니다.

 

chat-latest 기본값 교체, 자동화 파이프라인 점검 세 가지

chat-latest 식별자를 통해 자동으로 새 모델로 라우팅된 분들은 한 번 짚어보셔야 할 부분이 있습니다. (참고로 기존 gpt-5.3-instant는 유료 사용자에 한해 3개월간 유지된다고 해요.)

  1. 응답 길이가 줄어들면서 기존 JSON 파싱 로직이 어긋날 수 있어요. 필드 누락 사례가 종종 보고되고 있습니다.
  2. "친절히 설명해줘" 같은 톤 지시가 깔린 시스템 프롬프트는 새 모델의 간결한 기본 출력과 충돌해 결과가 어색해지는 일이 생깁니다. Task Budgets로 응답 길이 상한을 따로 잡는 편이 안전해요.
  3. 이모지·강조 서식이 줄어들면서 마크다운 후처리 결과의 시각적 톤이 확 달라지기도 합니다.

시스템 프롬프트 예시는 이런 식이어야 좀 더 안전하게 동작합니다.

역할: 한국어 부동산 약관 해석 보조
출력 형식: JSON {"clause_no": string, "summary": string, "source_required": true}
규칙: 조항 번호를 단정하지 말고, 확신 없는 경우 "확인 필요"로 표기

 

개인적으로는 운영 파이프라인이라면 모델 식별자를 chat-latest가 아니라 명시 버전(gpt-5.3-instant 등 지원되는 동안)으로 고정해두고, 새 모델은 별도 브랜치에서 일주일 평가한 뒤 옮기는 방식이 안전하다고 봅니다. 저는 사이드 프로젝트 자동화 두 건에서 이번 주에 명시 버전으로 핀 고정해뒀어요.

 

 

마치며

지난주 수요일 오후가 가장 또렷합니다. 부동산 약관 두 문장을 챗GPT 창에 던졌더니 두 줄짜리 단정한 답이 돌아왔어요. 답이 워낙 깔끔해서 그대로 워드에 붙여 회의실로 들어갔는데, 시작 5분 전에 법제처 국가법령정보센터에서 조항 번호 하나가 틀렸다는 걸 확인했습니다. 결재 라인에 올리기 직전이라 다행이었지만, 등에 식은땀이 확 흘렀네요.

 

그 오후에 검증 노트를 다시 짰습니다.

의학·법률·금융 프롬프트는 챗GPT 답변을 그대로 받지 않고,
출처 키워드 한 개씩 무조건 외부 사이트에서 다시 친다.

 

이 한 줄만 종이로 뽑아 모니터 옆에 붙여뒀어요. 52.5%라는 숫자가 한국어 고위험 영역까지 내려왔다고 본인 눈으로 확인하기 전까지는, 답변이 짧아진 만큼 손은 더 바빠져야 한다고 봅니다.