AI 도구 리뷰/기타 AI 도구

EXAONE 4.5 후기, GPT-5-mini·클로드 4.5 Sonnet을 이긴 33B 한국형 AI

피드너 2026. 5. 20. 18:00

 

STEM 벤치마크 77.3점. GPT-5-mini 73.5점, 클로드(Claude) 4.5 Sonnet 74.6점을 넘긴 33B짜리 국산 모델 얘기입니다. 엑사원(EXAONE) 4.5, 숫자만 보면 꽤 도발적이에요.

 

근데 벤치마크 하나 보고 바로 "드디어 국산 AI가 GPT를 이겼다"고 결론 내리기엔 확인할 게 있습니다. 저도 그 수치 보고 나서 얼마 전에 실제 보고서·견적서·코드 업무에 직접 밀어 넣어봤어요. 그 결과를 솔직하게 정리해봤습니다.

 

 엑사원 4.5 벤치마크, GPT-5-mini·클로드 4.5 Sonnet 넘긴 배경

엑사원 4.5는 LG AI 연구소가 만든 33B 파라미터(파라미터 330억 개)짜리 오픈 웨이트 모델입니다. 텍스트만 처리하는 게 아니라 이미지·표·그래프 같은 시각 정보까지 함께 이해하는 비전-언어 통합 모델이에요.

 

한 번에 처리할 수 있는 분량도 눈에 띕니다. 최대 256K 토큰까지 받아주는 것으로 알려져 있어요. 대략 A4 용지로 약 200페이지 분량의 문서를 쪼개지 않고 통째로 넣을 수 있는 수준입니다. 보험 약관이나 기술 표준 문서처럼 분량이 긴 서류를 한 번에 분석하기에 유리한 설계예요.

 

다만 STEM 벤치마크 77.3점이라는 수치는 LG 자체 측정 기준입니다. 제3자 독립 검증이 아니라는 점, 비교 대상이 GPT-5 풀 버전이나 클로드 오퍼스가 아닌 비용 효율 티어 모델에 한정된다는 점은 감안하셔야 해요. 그럼에도 33B 크기로 Qwen-3 235B(77.0)와 맞먹는 STEM 성능을 냈다는 건, 효율 기준으로 의미가 작지 않다고 봅니다.

 

 

한국형 LLM 엑사원, 직접 써보는 3가지 경로

1. 프렌들리(Friendli) API 상업적 목적으로 쓰려면 여기서 시작해야 합니다. 엑사원 4.5는 비상업용(NC) 라이선스 모델이라, 실무 적용에는 LG AI 연구소의 서빙 파트너인 프렌들리를 통한 별도 계약이 필요해요. 저는 신규 가입 크레딧으로 연동 테스트를 먼저 돌려볼 수 있었어요.

 

2. 허깅페이스(Hugging Face) 다운로드 연구·학술 목적이라면 허깅페이스에서 모델 가중치를 직접 받아 구동할 수 있습니다. 단, 33B 모델은 FP16 기준 A100 80GB 1장 정도면 돌릴 수 있고, 256K 풀 컨텍스트를 쓰려면 H200 1장 또는 A100-40GB 4장(텐서 병렬)이 권장됩니다. 일반 PC 환경에서는 현실적으로 구동이 어렵습니다.

 

3. 공식 데모 페이지 계정 없이 즉시 체험할 수 있어서, 성능을 먼저 확인하고 싶다면 가장 빠른 방법이더라고요. 저는 공식 데모 페이지에서 먼저 감을 잡고 나서, 프렌들리 신규 가입 크레딧으로 API 연동까지 차례로 테스트해봤습니다.

 

보고서·견적서·코드, 실무에서 직접 써본 결과

얼마 전, 실제 업무 문서 세 가지를 엑사원 4.5에 던져봤습니다.

 

보고서 작성 공식 문체와 문서 구조는 잘 잡아줍니다. 개요·본문·결론 흐름이 자연스럽게 나오고, 한국어 경어 표현도 어색하지 않았어요. 다만 회사 내부 용어나 업계 특수 표현은 이해하지 못하는 경우가 생기는 걸 볼 수 있었습니다. 일반적인 보고서 틀을 잡는 용도로는 충분히 쓸 만했어요.

 

견적서 비교 분석 3개사 견적서 이미지를 넣었더니 품목·단가·합계를 표로 깔끔하게 변환해줬습니다. 인상적이었어요. 다만 아래 같은 조건부 항목을 일부 빠뜨리는 경우가 있어서, 추출 결과를 그대로 최종안으로 쓰기엔 반드시 검수(HITL, Human-in-the-Loop)가 필요하더라구요.

- 배송비 별도
- 설치비 추가

 

파이썬 코드 생성 파일 읽기, 평균값 계산 같은 기본 코드는 즉시 쓸 수 있는 형태로 나왔습니다. 비개발자가 간단한 데이터 처리 스크립트를 뽑아 쓰기에는 부족함이 없어 보이네요.

 

 

클로드 4.5 Sonnet과 비교, 한국어 실무 체감 차이

두 모델을 같은 업무에 써본 체감을 정리하면 이렇습니다.

 

한국어 뉘앙스는 엑사원 4.5가 확실히 낫습니다. 경어 선택, 문장의 자연스러움, 체감상 한국 행정 서식 이해 면에서 클로드 4.5 Sonnet보다 매끄러운 결과가 나왔어요. 속도도 33B 크기 덕분에 더 가볍고 빠른 편입니다. API 응답 체감 차이가 꽤 나는 편이에요.

 

시각 정보 처리도 엑사원 쪽이 강세입니다. 도표·그래프가 섞인 스캔 문서를 넣었을 때, 클로드 4.5 Sonnet보다 구조를 더 정확하게 잡는 경우가 많았습니다.

 

반면 범용 추론과 복잡한 지시 이해에서는 클로드 4.5 Sonnet이 더 안정적이었어요. 엑사원이 잘하는 구간이 분명 있지만, 예측이 어려운 업무를 전부 맡기기엔 클로드 쪽이 아직 더 믿음직스러운 부분이 있다고 봅니다. 그래서 저는 에이전트 워크플로에서 Task Budgets(작업 예산)을 따로 잡아두고, 구간별로 모델을 갈아 끼우는 식으로 운용하고 있어요.

 

NC 라이선스 한계, 어떤 업무에 어울리나

강점은 명확합니다. 텍스트·표·도표가 섞인 한국 문서 — 계약서, 거래명세서, 관공서 양식 같은 것들을 이해하고 요약하는 데 특화되어 있어요. 한국어 전문 벤치마크 성적도 우수해서, 한국어 전문 문서 처리에 강점이 있습니다.

 

한계도 분명합니다. 실시간 정보 검색 기능이 없고, 슬랙이나 구글 스프레드시트 같은 외부 서비스 연동도 지원하지 않아요. 에이전트 방식으로 다른 도구와 연결해 쓰려면 별도 개발이 필요하거든요.

 

NC 라이선스 역시 반드시 확인하셔야 합니다. 사내 문서 처리 자동화 시스템에 붙이려면 상업 계약이 선행되어야 하고, 라마(Llama)나 제미나이(Gemini)처럼 상용 사용에 제약이 적은 모델들과는 달리 서비스에 자유롭게 붙이기가 어렵거든요. 스타트업이나 개발자 입장에서는 생태계 확산이 더딜 수밖에 없는 구조예요.

 

 

 

마치며

GPT-5-mini와 클로드 4.5 Sonnet을 앞선 벤치마크 수치는 분명 인상적입니다. 다만 그 점수가 내 업무에도 그대로 적용된다는 보장은 없습니다. 저는 일단 한국어 문서 요약과 표 추출 쪽은 엑사원 4.5를 서브로 붙여 쓰고, 범용 추론과 복잡한 지시 이해는 클로드를 메인으로 계속 가져가기로 정했습니다.