▶ GPT, 즉답·사고 모드에 프로 모드 추가…구글, 심층연구 벤치마크 도구 공개
▶ 올트먼 “연구·로드맵 어느 때보다 낙관적…10년 안에 초지능 구현 확신”

챗GPT[로이터]
구글의 추격을 받는 챗GPT 개발사 오픈AI가 이전 버전을 내놓은 지 불과 한 달 만에 새 인공지능(AI) 모델 'GPT-5.2'를 내놨다.
구글도 같은 날 제미나이의 심층연구용 에이전트를 선보이며 맞불을 놨다.
오픈AI는 전문적인 지식 업무 수행에 가장 뛰어난 모델 GPT-5.2 시리즈를 출시한다고 11일 밝혔다.
GPT-5.2는 이전의 즉답(Instant), 사고(Thinking) 모드에 프로 모드를 더해 모두 세 가지 모드로 구성됐다.
즉답 모드는 일상적인 업무와 학습을 위한 빠른 답변에 최적화했고, 사고 모드는 코딩이나 수학적 해결, 긴 문서 요약 등에 적합하다.
또 프로 모드는 보다 긴 작업시간을 필요로 하는 어려운 질문에 적합한 도구라고 오픈AI는 소개했다.
오픈AI는 새 버전이 추론과 코딩 능력을 강화하고 환각을 줄였으며, AI 성능을 측정하는 다양한 벤치마크에서 최고 수준을 달성했다고 강조했다.
전문 산업 현장 44개 직종의 업무 수행 능력을 평가하는 GDPval 평가에서 GPT-5.2 사고 모드는 70.9%, 프로 모드는 74.1%를 기록해 인간 전문가들과 대등하거나, 더 뛰어난 능력을 갖춘 것으로 평가됐다. 이전 버전인 GPT-5(38.8%)와 견줘 큰 폭의 성장을 보였다.
소프트웨어 엔지니어링 능력을 평가하는 SWE 벤치마크에서는 80%를 기록해, 제미나이 3프로의 76.2%를 능가했다. 코딩 능력이 뛰어난 것으로 알려진 앤트로픽의 클로드 오퍼스4.5(80.9%)와 거의 차이가 없는 수준이다.
'인간의 마지막 시험'으로 불리는 박사급 추론능력 측정 벤치마크 HLE에서도 구글의 최신 AI 모델을 넘어섰다.
별도 도구를 사용하지 않고 모델 자체의 능력만으로 진행한 평가에서는 GPT-5.2 프로는 36.6%로 제미나이3 프로의 37.5%보다 소폭 낮은 평가를 보였지만, 검색 등 도구를 사용해서 진행한 평가에서는 50%로 제미나이3 프로(45.8%)보다 더 높은 점수를 얻었다.
환각(Hallucination) 현상도 크게 줄였다. 내부 테스트 결과 GPT-5.2 사고 모드의 오류율은 6.2%로 전작인 GPT-5.1 사고 모드(8.8%)와 견줘 약 30% 감소하는 등 신뢰도가 높아졌다고 오픈AI는 설명했다.
긴 글의 맥락을 파악하는 능력이나 그래프를 비롯한 그림과 사진을 인식하는 능력, 다단계 업무의 해결 능력 등도 향상됐다.
특히 오픈AI는 GPT-5.2에 정신건강을 비롯한 민감한 대화에서 응답 방식을 개선했고, 연령 예측 모델을 적용해 18세 미만 미성년자에 대한 콘텐츠 보호 기능을 적용하고 부모 통제 기능을 강화했다고 설명했다.
GPT-5.2는 유료 요금제 구독자에 이날부터 순차적으로 제공되며, 개발자들도 API를 통해 이용할 수 있다.
새 버전 출시에 따라 이전 버전인 GPT-5.1은 앞으로 3개월간 제공된 이후 서비스를 종료한다.
구글은 오픈AI가 새 버전을 발표한 당일 제미나이3 프로의 '심층연구' 에이전트를 선보였다.
구글은 심층연구 에이전트의 성능을 측정하는 '심층검색QA' 벤치마크 도구도 함께 공개하면서, 자사의 새 에이전트가 이 벤치마크에서 66.1% 점수를 받아 가장 뛰어난 성능을 보였다고 밝혔다.
구글은 또 HLE 벤치마크에서도 심층연구 에이전트가 46.4%를 기록했다고 덧붙였다.
한동안 챗GPT 독주 체제에 가까웠던 AI 모델 시장에서 구글이 치고 나오면서 경쟁이 점차 격화하고 있는 모양새다.
오픈AI가 불과 한 달 간격을 두고 챗GPT 새 버전을 내놓은 것은 지난 2022년 챗GPT 서비스를 시작한 이래 처음 있는 일이고, 구글이 GPT-5.2 출시 당일에 새 에이전트를 공개한 것도 이례적인 일로 평가된다.
오픈AI는 당초 GPT-5.2를 월말에 내놓으려 했지만, 제미나이3 프로가 강력한 벤치마크 성적표를 앞세워 이용자 몰이를 하는 것을 보고 출시를 앞당긴 것으로 전해졌다.
샘 올트먼 오픈AI 최고경영자(CEO)는 제미나이3 프로 출시 이후 사내에 중대경보(코드레드)를 발령하고 다른 일을 제쳐두고 챗GPT 성능과 사용성 개선에 집중하라고 주문한 바 있다.
오픈AI는 내년 1월에 또다시 새로운 모델을 선보인 이후 경보를 해제할 예정이라고 앞서 월스트리트저널(WSJ)이 보도한 바 있다.
올트먼 CEO는 이날 자사 블로그에 '10년'이라는 제목의 글을 게시하며 회사 설립 10년의 소회도 밝혔다.
그는 "우리 연구와 제품 로드맵, 미션에 대한 전망에 대해 어느 때보다 낙관적"이라며 "10년 안에 우리가 초지능을 구현할 것이 거의 확실하다고 믿는다"고 말했다.
이어 "2035년의 사람들은 우리가 쉽게 상상할 수 없는 일을 해낼 수 있을 것"이라면서도 "일상생활과 우리가 가장 중요하게 여기는 것들은 거의 변하지 않을 것"이라고 내다봤다.
<연합뉴스>
댓글 안에 당신의 성숙함도 담아 주세요.
'오늘의 한마디'는 기사에 대하여 자신의 생각을 말하고 남의 생각을 들으며 서로 다양한 의견을 나누는 공간입니다. 그러나 간혹 불건전한 내용을 올리시는 분들이 계셔서 건전한 인터넷문화 정착을 위해 아래와 같은 운영원칙을 적용합니다.
자체 모니터링을 통해 아래에 해당하는 내용이 포함된 댓글이 발견되면 예고없이 삭제 조치를 하겠습니다.
불건전한 댓글을 올리거나, 이름에 비속어 및 상대방의 불쾌감을 주는 단어를 사용, 유명인 또는 특정 일반인을 사칭하는 경우 이용에 대한 차단 제재를 받을 수 있습니다. 차단될 경우, 일주일간 댓글을 달수 없게 됩니다.
명예훼손, 개인정보 유출, 욕설 등 법률에 위반되는 댓글은 관계 법령에 의거 민형사상 처벌을 받을 수 있으니 이용에 주의를 부탁드립니다.
Close
x