
과학기술정보통신부 산하 정보통신산업진흥원이 추진하는 공공AX 프로젝트가 본격적인 확산 단계에 접어들었다. 충북 진천에 위치한 정보통신산업진흥원 컨퍼런스홀에서 열린 2차년도 착수보고회는 공공 분야 인공지능 전환을 가속하기 위한 주요 사업들의 방향성을 공유하는 자리였다.
이번 행사는 공공AX 사업에 참여 중인 20개 컨소시엄이 함께한 통합 보고회 형태로 진행됐다. 이 가운데 나라지식정보 컨소시엄이 수행하는 ‘한국 근대 다문자 자료 활용 지원 AI 솔루션 개발 및 실증’ 과제가 세 번째 발표로 소개됐다. 발표를 맡은 정규상 PM은 2차년도 사업 전략과 기술 고도화 계획을 중심으로 구체적인 추진 방향을 설명했다.
해당 사업은 근대 시기의 다양한 문자 자료를 인공지능 기술로 분석하고 활용성을 높이는 데 목적을 두고 있다. 1차년도에는 국사편찬위원회가 보유한 약 4만 건의 근대 자료를 확보하고, 이를 기반으로 이미지 정제와 데이터 구조화를 완료했다. 특히 한문, 일본어, 국한문 혼용 자료를 병렬 데이터로 구축해 AI 학습 기반을 마련한 점이 핵심 성과로 평가된다.
이와 함께 AI 기반 OCR 문자인식 모델을 개발하고, 번역과 요약, 검색 기능을 포함한 프로토타입 시스템을 구현했다. 파일럿 형태의 워크벤치 시스템을 통해 사용자 피드백 수집 구조도 구축하면서 실사용 환경을 고려한 기술 검증을 진행했다.
2차년도에는 보다 확대된 데이터 확보와 기술 정밀화가 주요 과제로 설정됐다. 약 20만 건 이상의 근대 자료를 추가로 수집해 데이터 규모를 대폭 확대하고, 복잡한 문자 환경에서도 높은 정확도를 확보할 수 있는 OCR 기술 고도화에 집중한다. 기존의 단순 문자 인식을 넘어 세로쓰기, 필기체, 혼용문자 등 다양한 형태를 인식할 수 있도록 기술 범위를 넓힌다.
특히 전처리 자동화 기술과 대형언어모델 기반 보정 기술을 결합해 인식 정확도를 크게 향상시키는 것이 핵심 전략이다. 이를 통해 기존 OCR 기술이 한계로 지적받았던 비정형 문서 처리 영역까지 대응 가능성을 확보한다는 계획이다.
또한 번역 및 요약 모델의 성능 개선과 함께, 검색 기능 역시 의미 기반으로 진화한다. RAG 구조를 활용한 의미 검색 시스템을 구축해 단순 키워드 검색을 넘어 문맥 기반 정보 탐색이 가능하도록 설계한다. 나아가 국사편찬위원회의 역사정보시스템과 연계해 실제 서비스 환경에서의 적용과 검증도 추진한다.
사용자 참여형 플랫폼 구축 역시 중요한 축이다. 국민이 직접 자료를 활용하고 의견을 제공할 수 있는 구조를 마련함으로써 데이터 품질 개선과 서비스 완성도를 동시에 높이는 선순환 체계를 구축한다는 구상이다.
나라지식정보 손영호 대표는 이번 사업의 의미를 공공 서비스 전환의 전환점으로 설명했다. 그는 OCR 중심의 인공지능 기술이 단순 연구 단계를 넘어 실제 공공 서비스로 확장되는 중요한 시기라고 강조했다. 이어 향후 시각장애인을 위한 보조기기와 범용 공공 AI 통합 솔루션으로의 확대를 통해 누구나 지식정보에 접근할 수 있는 환경을 구현하겠다는 비전을 밝혔다.
이번 사업은 단순한 기술 개발을 넘어 역사 자료의 활용성을 높이고, 공공 데이터 접근성을 개선하는 데 기여할 것으로 기대된다. 특히 다양한 문자 체계를 포함한 근대 자료를 디지털 자산으로 전환함으로써 학술 연구뿐 아니라 교육, 문화 콘텐츠 산업 등 다양한 분야로 확장 가능성을 보여주고 있다.
이번 공공AX 사업은 근대 다문자 자료를 인공지능 기술로 분석하고 활용하는 기반을 마련하는 데 초점을 맞추고 있다. 데이터 규모 확대와 OCR 기술 고도화를 통해 복잡한 문자 환경에서도 높은 인식 정확도를 확보할 수 있게 된다. 이는 공공 데이터 접근성을 높이고, 역사 자료의 디지털 전환을 가속하는 핵심 동력이 될 것으로 보인다.
공공 영역에서의 AI 도입은 이제 실증 단계를 넘어 서비스 확산 단계로 진입했다. 이번 사업은 기술과 데이터, 그리고 사용자 참여를 결합한 새로운 공공 AI 모델을 제시한다는 점에서 의미가 크다. 향후 다양한 공공 서비스와 연계될 경우 국민 체감형 디지털 혁신 사례로 자리잡을 가능성이 높다.
나라지식정보 소개
나라지식정보는 2008년 설립된 이래 한국의 언어·역사·문화 데이터를 중심으로 국립국어원, 국가기록원, NIA 등 180여 기관에 약 600건의 공공 데이터·AI 사업을 수행해 온 지식정보화 전문 기업이다. 자체 개발한 고문헌, 비정형 모두 정확성과 신뢰도 높은 AI OCR 엔진 ‘NARA OCR’과 XAI로서의 RAG LLM ‘NA-LLM’, AI Agent ‘주춧돌LM’ 등의 기술력을 보유함으로써 수작업이 필요한 아날로그 기록물을 AI로 디지털 전환해 지식 콘텐츠로 활용하는 디지털 혁신 서비스를 다수 제공하고 있으며, 이를 통해 E2E 원스톱 토탈 솔루션과 시각장애인용 READ VOICE에 이르기까지 사업을 확장해 나가고 있다. 다양한 산업 분야에서 AI 데이터 구축 및 활용 사업을 전개하며 공공과 민간의 AI 경쟁력 강화에 이바지하고 있다. (사진제공)


















