[이코노미 트리뷴 = 김용현 기자] 삼성전자가 자체 개발한 AI 업무 생산성 벤치마크 ‘트루벤치(TRUEBench, Trustworthy Real-world Usage Evaluation Benchmark)’를 25일 선보였다.

이번 벤치마크는 삼성전자 DX부문 선행 연구개발 조직인 삼성리서치가 사내 생성형 AI 활용 경험을 토대로 구축했으며, 실제 업무 환경에서의 AI 생산성 성능을 정밀하게 측정하는 데 초점을 맞췄다고 설명했다.

삼성전자는 많은 기업들이 AI를 도입하고 있지만, 기존 벤치마크로는 실제 업무 생산성을 평가하기 어렵다고 지적했다. 지금까지 공개된 대부분의 벤치마크는 영어 중심, 단발성 질의응답 위주로 설계돼 연속 대화·문서 요약·데이터 분석 등 사무 환경에 필요한 과업을 충분히 반영하지 못했다는 것이다.

트루벤치는 이러한 한계를 극복하기 위해 총 10개 카테고리, 46개 업무, 2485개 세부 항목으로 구성됐다. 콘텐츠 생성·데이터 분석·문서 요약·번역·연속 대화 등 기업에서 빈번히 활용되는 과업을 기준으로 평가가 진행된다.

허깅페이스(Hugging Face)에 공개된 트루벤치(TRUEBench) 사이트 메인 화면 [사진 = 삼성전자]


삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)의 스페이스(Spaces)를 통해 트루벤치를 공개했다. 허깅페이스는 전 세계 연구자와 기업이 AI 모델과 데이터를 공유하는 대표적인 플랫폼으로, 별도 설치 없이 웹 브라우저에서 평가 샘플과 리더보드를 확인할 수 있다.

삼성전자가 공개한 AI 업무 생산성 벤치마크 ‘트루벤치’ 리더보드 화면. GPT-5, o3-pro, Claude 4 Opus 등이 상위권을 차지했으며, 항목별 점수를 통해 모델별 강·약점을 비교할 수 있다.


공개된 리더보드에는 GPT-5, Claude, Gemini, Grok 등 글로벌 주요 AI 모델들이 나란히 순위화돼 있으며, 사용자는 최대 5개 모델을 선택해 종합 점수와 세부 항목별 성능을 비교할 수 있다.

리더보드는 종합 점수(Overall)뿐 아니라 △평균 문장 길이 △평균 응답 길이 △모델 파라미터 크기 △콘텐츠 생성 △편집 △데이터 분석 △추론 △환각 △안전성 △반복성 △요약 △번역 △연속 대화 등 세부 항목별 결과도 제공한다.

이를 통해 기업은 단순 순위 확인을 넘어, 데이터 분석·문서 요약·다국어 번역 등 실제 활용 목적에 따라 어떤 모델이 강점을 지니는지 한눈에 파악할 수 있다.

삼성은 트루벤치가 단순 답변 생성 능력에 치우치지 않도록 의도와 맥락 이해 능력까지 평가에 포함했다. 또 사람이 설계한 평가 항목을 AI가 교차 검토하는 방식을 도입해 오류와 불필요한 제약을 걸러내고, 편향을 최소화해 일관성 있는 결과를 제공한다는 설명이다.

전경훈 삼성리서치장(CTO)은 “삼성리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력을 보유하고 있다”며 “트루벤치 공개를 통해 글로벌 AI 생산성 평가 기준을 정립하고 기술 리더십을 더욱 공고히 할 것”이라고 말했다.

economytribune@gmail.com