AI & Microsoft 솔루션 구축 전문기업, 프로텐

새소식

'언론속의 프로텐' 데이터 전처리 전 과정 지원하는 플랫폼 프로텐 ProGenAI 2025-11-21
많은 기업들은 사내 시스템에 LLM을 도입해 자사만의 챗봇을 만들거나 기존 업무 프로세스를 자동화하는 AI 에이전트를 활용하는 등 다양한 방식으로 AI를 활용하고 있다. 특히 사내 문서와 데이터를 기반으로 답변하는 검색 증강 생성(RAG) 기술이 등장하며 기업들의 생성형 AI 도입에 속도가 붙었다. 하지만 AI가 사내 규정을 잘못 안내하거나 오래된 정보를 사실처럼 답하는 ‘환각(Hallucination)’ 현상이 여전히 발생하고 있다.

전문가들은 이 같은 문제의 근본 원인이 AI 모델이나 RAG 기술이 아닌 데이터에 있다고 지적한다. 가장 기초적인 ‘데이터 전처리’를 간과한 결과라는 진단이다.

프로텐은 ‘프로젠AI(ProGenAI)’ 플랫폼을 통해 전처리 기능을 제공한다. 원시 데이터 수집부터 텍스트 추출·전처리, 메타데이터 부착, 벡터DB 구성까지 이르는 전 과정을 지원하고 있다.

먼저 프로젠AI는 문서 업로드 및 색인 기능을 통해 검색 대상의 되는 문서를 벡터 형태로 임베딩하고 검색어와 유사한 내용을 효과적으로 찾을 수 있는 기반을 마련한다. 사용자는 PPT, TXT, DOC 등 다양한 형식의 문서 파일을 드래그앤드롭 방식으로 손쉽게 업로드할 수 있으며 청크 사이즈 설정, 업로드된 파일 자동 색인 등을 제공받을 수 있다.

청크 단위로 분할된 문서를 체계적으로 관리할 수 있는 칭킹 문서 관리 기능도 탑재했다. 각 문서가 어떤 방식으로 청킹돼 있는지 색인 결롸를 확인하고 결과를 수정할 수 있는 환경이다. 이는 색인된 데이터에 대한 정확도 향상에 바탕이 된다.

또한 프로텐은 △HTML 태그, 문자 인코딩, 특수문자 등 불필요 요소 제거하는 ‘텍스트 추출 및 정제’ △문맥을 유지한 채 검색 가능한 단위로 분할하는 ‘청킹’ △소문자화, 불용어 및 특수기호를 정리하는 ‘텍스트 정규화 및 전처리’ △제목, 작성자, 날짜 등 추가하는 ‘메타데이터 부착’ 등 다양한 전처리 기술들을 통해 전처리 과정을 지원한다.

http://www.itdaily.kr/news/articleView.html?idxno=236407

기사 전문은 위 링크를 통해 확인 할 수 있습니다.
[출처 : 아이티데일리]

더 궁금한 사항이 있으신가요?

솔루션에 대해 더 궁금한 사항이 있으시다면 언제든 문의 주세요. 전문가가 기술부터 견적까지 구축에 필요한 모든것을 친절히 상담해 드립니다.

문의하기

(주)프로텐
대표이사 : 박재완
서울 금천구 가산디지털1로 145 에이스하이엔드타워3차 1104호
TEL:02-2624-1020
FAX:02-2624-1021
고객지원:02-2624-1022
사업자 등록번호:330-88-00608

TOP