[사진 = 한컴]


[이코노미 트리뷴 = 김용현 기자] 한글과컴퓨터(한컴)가 자사의 PDF 데이터 추출 기술을 세계 AI 개발 표준 프레임워크에 공식 편입시키며 글로벌 기술 경쟁력 강화를 본격화했다.

3일 업계에 따르면 한컴의 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’가 글로벌 오픈소스 AI 개발 프레임워크 ‘랭체인(LangChain)’의 도큐먼트 로더(Document Loader) 공식 컴포넌트로 채택됐다.

랭체인은 챗GPT와 같은 대규모 언어모델(LLM)을 활용해 다양한 AI 애플리케이션을 구축할 때 가장 널리 사용되는 프레임워크로, 전 세계 수십만 명의 AI 개발자가 활용하는 사실상의 표준 개발 도구다.

이번 등록으로 한컴의 PDF 처리 기술은 단순한 오픈소스 공개를 넘어 글로벌 생태계에서 성능과 안정성을 공식적으로 인정받았다는 점에서 의미가 크다.

‘오픈데이터로더 PDF’는 AI 학습과 응용 과정에서 발생하는 데이터 병목 현상을 해결하기 위해 개발된 기술이다. PDF 문서 내부의 텍스트, 표, 이미지 등 다양한 정보를 빠르고 정확하게 추출해 AI가 즉시 활용 가능한 형태로 변환한다.

기존에도 Camelot, Tabula 등 PDF 추출 라이브러리가 존재했지만, 표 구조가 복잡하거나 스캔본 형태의 문서에서는 오류가 잦았다.

반면 한컴의 기술은 문서 내 레이아웃과 표 구조를 유지한 채 데이터를 JSON·Markdown 등 LLM 친화적 형식으로 재구성할 수 있어, AI 학습 효율성을 높이는 차별화된 접근으로 평가된다.

한컴은 지난 9월 깃허브(GitHub)에 ‘오픈데이터로더 PDF’ 코드를 공개한 데 이어, 이번 랭체인 공식 컴포넌트 등록을 통해 세계 개발자들이 자사의 기술을 직접 사용할 수 있는 기반을 마련했다.

회사 관계자는 “이번 등록은 단순한 코드 공개가 아니라 기술의 성능, 안정성, 그리고 AI 개발 환경에서의 적합성을 공식적으로 검증받은 결과”라고 강조했다.

정지환 한컴 최고기술책임자(CTO)는 “랭체인 공식 등록은 한컴 문서 처리 기술력이 글로벌 AI 개발 생태계의 표준으로 인정받은 중요한 성과”라며 “전 세계 개발자들이 가장 활발하게 사용하는 프레임워크에 직접 통합됨으로써 AI 시대 데이터 활용의 어려움을 해결하는 데 실질적으로 기여하게 되어 기쁘다”고 말했다.

그는 이어 “앞으로도 랭체인 커뮤니티와 협력해 기술을 고도화하고 AI 생태계 발전에 기여할 것”이라고 덧붙였다.

한편 ‘오픈데이터로더 PDF’는 현재 별도의 개발 환경 설정 없이 파이썬 기반 명령줄 도구 형태로도 활용할 수 있다.

한컴은 일반 이용자도 간단한 설치 과정을 거쳐 PDF 텍스트를 즉시 추출하거나 파일 형태로 저장할 수 있도록 지원하고 있으며, 향후 스캔 이미지 인식(OCR)과 복잡한 표 구조 처리 등 고급 기능을 추가로 업데이트할 예정이라고 전했다.

economytribune@gmail.com