본문 바로가기

콩's AI

기업 내부 데이터를 활용한 AI 시스템 구축

반응형

기업 데이터 기반 AI 챗봇 구축, 정답은 RAG 아키텍처입니다

우리 회사 규정집이나 지난 프로젝트 보고서를 기반으로 대답해 주는 AI, 요즘 기업들의 가장 큰 관심사죠? 하지만 챗GPT 같은 일반적인 모델을 그대로 쓰면 회사 내부 정보는 전혀 모른 채 엉뚱한 소리를 하거나, 그럴듯한 거짓말을 하는 환각(Hallucination) 현상을 겪게 됩니다.

그래서 필요한 것이 바로 RAG(검색 증강 생성) 아키텍처입니다. 쉽게 말해, AI에게 "오픈북 시험"을 보게 하는 겁니다. AI가 머릿속에 있는 지식으로만 대답하는 게 아니라, 우리가 제공한 참고 자료(기업 문서)를 먼저 찾아보고(Retrieval) 그 내용을 바탕으로 답변을 생성(Generation)하게 만드는 방식이죠.

1. 전체 아키텍처: 어떻게 돌아가나요?

시스템은 크게 두 가지 흐름으로 나뉩니다. 문서를 준비하는 과정(데이터 파이프라인)과 실제로 질문하고 답하는 과정(서비스 파이프라인)입니다.

A. 데이터 파이프라인 (문서 적재 과정)

AI가 읽을 수 있도록 문서를 미리 쪼개서 저장해두는 단계입니다.

  • Document Loader: 엑셀, PDF, 한글(HWP) 등 다양한 사내 문서를 읽어옵니다.
  • Text Splitter: AI가 한 번에 이해하기 좋은 크기(Chunk)로 문서를 잘게 쪼갭니다.
  • Embedding Model: 쪼갠 텍스트를 컴퓨터가 이해할 수 있는 숫자 값(Vector)으로 변환합니다.
  • Vector Store: 변환된 숫자 값과 원본 텍스트를 DB에 저장합니다. 이때 부서명 같은 메타데이터도 같이 저장합니다.

B. 서비스 파이프라인 (질문 및 답변 과정)

직원이 질문을 입력하면 실시간으로 일어나는 일들입니다.

  • Retrieval (검색): 직원의 질문과 의미가 가장 비슷한 문서 조각을 찾아냅니다.
  • Reranking (재순위화): 찾아낸 문서들 중 진짜 정답에 가까운 것들을 다시 골라내어 순위를 매깁니다.
  • Generation (생성): 골라낸 핵심 내용과 질문을 AI에게 건네주며 "이 내용을 참고해서 답변해 줘"라고 시킵니다.

2. 구축 시 챙겨야 할 핵심 포인트

이론은 간단해 보이지만, 실무에서는 디테일이 품질을 결정합니다.

① 데이터 전처리: 가장 어렵고 중요한 단계

가장 많은 시간이 들어가는 부분입니다. 단순히 텍스트만 긁어오면 AI가 이해를 못 합니다.

  • 한글(HWP): 일반적인 도구로는 텍스트 추출이 까다롭습니다. 전용 라이브러리를 쓰거나 변환 도구가 필수입니다.
  • 엑셀(Excel): 그냥 텍스트로 바꾸면 표의 행/열 의미가 다 깨집니다. 각 행을 "컬럼명: 값" 형태의 문장으로 바꿔줘야 검색이 잘 됩니다.
  • 표/이미지: 스캔된 문서는 OCR(광학 문자 인식)이 필요하며, 표 구조를 유지한 채 추출하는 기술이 중요합니다.

② 검색 품질과 보안

"사장님"만 봐야 할 문서를 신입사원이 검색하면 안 되겠죠? ACL(접근 제어 목록) 관리가 필수입니다. 문서를 저장할 때 '열람 가능 부서/직급' 정보를 같이 저장하고, 검색할 때 필터를 걸어야 합니다.

또한, 정확도를 위해 하이브리드 검색을 추천합니다. 의미 기반의 벡터 검색과 키워드 기반 검색을 섞어서 쓰는 방식인데, 사번이나 프로젝트명 같은 고유 명사를 찾을 때 훨씬 유리합니다.

3. 추천 기술 스택

맨땅에 헤딩하지 마세요. 이미 검증된 조합들이 있습니다.

구분 추천 도구 비고
프레임워크 LangChain, LlamaIndex RAG 파이프라인 구축의 표준
LLM GPT-4o, Claude 3.5 (API) / Llama 3 (설치형) 보안이 매우 중요하다면 사내 설치형(On-premise) 고려
Vector DB Elasticsearch, Milvus Elasticsearch는 키워드 검색도 강력하여 기업용으로 적합
Embedding OpenAI Embeddings, BGE-M3 한국어 성능이 검증된 모델 선택 필수

💡 핵심 요약
RAG 시스템의 성패는 "얼마나 똑똑한 AI를 쓰느냐"보다 "얼마나 문서를 잘 쪼개서 저장하고(전처리), 정확하게 찾아내느냐(검색)"에 달려 있습니다. 전체 리소스의 60% 이상을 데이터 전처리 파이프라인 구축에 투자하세요.

반응형

⚠️ 광고 차단 프로그램 감지

애드블록, 유니콘 등 광고 차단 확장 프로그램을 해제하거나
화이트리스트에 추가해주세요.