
많은 기업들은 사내 시스템에 LLM을 도입해 자사만의 챗봇을 만들거나 기존 업무 프로세스를 자동화하는 AI 에이전트를 활용하는 등 다양한 방식으로 AI를 활용하고 있다. 특히 사내 문서와 데이터를 기반으로 답변하는 검색 증강 생성(RAG) 기술이 등장하며 기업들의 생성형 AI 도입에 속도가 붙었다. 하지만 AI가 사내 규정을 잘못 안내하거나 오래된 정보를 사실처럼 답하는 ‘환각(Hallucination)’ 현상이 여전히 발생하고 있다.
전문가들은 이 같은 문제의 근본 원인이 AI 모델이나 RAG 기술이 아닌 데이터에 있다고 지적한다. 가장 기초적인 ‘데이터 전처리’를 간과한 결과라는 진단이다.
프로텐은 ‘프로젠AI(ProGenAI)’ 플랫폼을 통해 전처리 기능을 제공한다. 원시 데이터 수집부터 텍스트 추출·전처리, 메타데이터 부착, 벡터DB 구성까지 이르는 전 과정을 지원하고 있다.
먼저 프로젠AI는 문서 업로드 및 색인 기능을 통해 검색 대상의 되는 문서를 벡터 형태로 임베딩하고 검색어와 유사한 내용을 효과적으로 찾을 수 있는 기반을 마련한다. 사용자는 PPT, TXT, DOC 등 다양한 형식의 문서 파일을 드래그앤드롭 방식으로 손쉽게 업로드할 수 있으며 청크 사이즈 설정, 업로드된 파일 자동 색인 등을 제공받을 수 있다.
청크 단위로 분할된 문서를 체계적으로 관리할 수 있는 칭킹 문서 관리 기능도 탑재했다. 각 문서가 어떤 방식으로 청킹돼 있는지 색인 결롸를 확인하고 결과를 수정할 수 있는 환경이다. 이는 색인된 데이터에 대한 정확도 향상에 바탕이 된다.
또한 프로텐은 △HTML 태그, 문자 인코딩, 특수문자 등 불필요 요소 제거하는 ‘텍스트 추출 및 정제’ △문맥을 유지한 채 검색 가능한 단위로 분할하는 ‘청킹’ △소문자화, 불용어 및 특수기호를 정리하는 ‘텍스트 정규화 및 전처리’ △제목, 작성자, 날짜 등 추가하는 ‘메타데이터 부착’ 등 다양한 전처리 기술들을 통해 전처리 과정을 지원한다.
http://www.itdaily.kr/news/articleView.html?idxno=236407
기사 전문은 위 링크를 통해 확인 할 수 있습니다.
[출처 : 아이티데일리]