한컴이 PDF 추출 기술을 오픈소스로 개방해 AI 학습 데이터 처리 정확성과 보안을 동시에 강화했다. [사진 = 한컴]


[이코노미 트리뷴 = 김용현 기자] 한글과컴퓨터(한컴)가 AI 학습 과정에서 난제로 꼽혀온 PDF 데이터 처리 문제를 풀기 위해 핵심 기술을 글로벌 오픈소스로 공개했다.

이번에 공개한 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 PDF 문서 내 텍스트·표·이미지·레이아웃 정보를 빠르고 정밀하게 추출해 JSON·Markdown·HTML 등 학습용 정형 데이터로 변환하는 기술이다.

기존에도 텍스트 기반 PDF는 읽을 수 있었지만 표나 멀티컬럼 구조에서는 정확도가 떨어져 ‘데이터 감옥’으로 불려왔다.

한컴은 이번 기술로 이 한계를 크게 개선, AI 학습 효율을 높였다고 설명했다.

성능 지표에서도 경쟁 오픈소스 대비 우위를 입증했다.

특히 읽기 순서 정확도를 측정하는 NID 지표에서 85% 수준을 기록했으며, 금융·공공기관 환경에서도 네트워크 연결 없이 오프라인으로 작동해 보안성을 강화했다.

또한 AI 학습 데이터에 악성 지시를 삽입해 모델을 왜곡시키는 ‘프롬프트 인젝션(Prompt Injection)’ 공격을 자동 탐지·차단하는 기능도 탑재했다.

이번 프로젝트는 지난 7월 PDF 전문기업 듀얼랩(Dual Lab)과 맺은 업무협약을 통해 공동 개발한 첫 성과다. 양사는 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동성을 강화하고, 깃허브(GitHub)를 통한 글로벌 개발자 커뮤니티 협력을 확대할 계획이다.

정지환 한컴 최고기술책임자(CTO)는 “오픈소스는 더 이상 선택이 아닌 혁신과 경쟁력 확보를 위한 필수 전략”이라며 “전 세계 개발자들과 협력해 PDF 데이터 추출 기술을 글로벌 최고 수준으로 발전시키겠다”고 말했다.

이어 “연말에는 AI 기반 문서 인식(OCR) 기능을 추가해 이미지 기반 PDF까지 처리할 수 있도록 오픈소스를 고도화할 것”이라고 덧붙였다.

economytribune@gmail.com