본문 바로가기

콩's AI

PaddleOCR-VL-1.5 로컬 구축 프로젝트 요약 (FEAT. 망한엔딩)

반응형
PaddleOCR-VL-1.5 로컬 구축 및 6GB VRAM 한계 분석 보고서

📋 PaddleOCR-VL-1.5 로컬 구축 프로젝트 요약 보고서

1. 대상 시스템 및 환경 (System Spec)

이번 프로젝트는 일반적인 비즈니스 환경에서의 AI 모델 구동 가능성을 확인하기 위해 아래 사양의 PC에서 진행되었습니다.

CPU: Intel Core i7 10세대 GPU: NVIDIA GTX 1660 SUPER (VRAM 6GB) RAM: 32GB OS: Windows 11

2. 프로젝트 진행 단계 (Implementation Journey)

  • 기업 내 라이선스 이슈를 사전에 방지하기 위해 Anaconda 대신 순수 파이썬 venv 가상환경을 채택하여 구축했습니다.
  • 최신 Python 3.13의 라이브러리 호환성 문제를 확인하고, 안정적인 Python 3.10.11로 다운그레이드하여 PyTorch CUDA 12.1 환경을 조성했습니다.
  • 실행 과정에서 발생하는 config.py의 순환 참조 에러, main.py의 PDF 처리 로직 부재, ocr_engine.py의 라이브러리 버전별 속성 충돌 등을 실시간 트러블슈팅하며 코드를 최적화했습니다.

3. 성능 분석 및 한계점 (Analysis & Constraints)

  • 추론 속도 저하: 초기 설정(200 DPI) 시 VRAM 6GB의 한계로 인해 시스템 RAM을 점유하는 병목 현상이 발생하여 페이지당 수 분 이상의 지연이 발생했습니다.
  • 인식 정확도 문제: 속도 확보를 위해 해상도를 낮추자(72~120 DPI), 하단의 주소와 같은 미세 텍스트 인식률이 급격히 저하되었습니다.
  • 모델 환각(Hallucination): 0.9B 경량 모델의 한계로 인해 복잡한 문서 구조에서 특정 단어를 무한 반복하거나 문맥에 맞지 않는 단어를 생성하는 현상이 관찰되었습니다.

4. 기술적 결론 및 조치 (Conclusion)

실험 결과, GTX 1660 SUPER의 6GB VRAM은 최신 VLM 기반 OCR을 고해상도로 구동하기에 물리적 임계치에 해당함을 확인했습니다.

[최종 판단] 문서 전체 맥락 파악보다 '정확한 주소 및 텍스트 추출'이 목적인 대시보드 프로젝트에는 전용 초경량 엔진(PP-OCRv4 등)이 훨씬 효율적입니다.

이에 따라 로컬에 설치된 가상환경, 파이썬, CUDA 및 약 2GB 규모의 모델 캐시 데이터를 모두 삭제하여 시스템 자원을 원복 조치하였습니다.

"이번 시도는 하드웨어의 한계로 종료되었지만, 기업용 환경 세팅과 최신 AI 모델의 리소스 관리 체계를 직접 검증했다는 점에 큰 의미가 있습니다. 다음 단계에서는 더 가벼운 전용 모델로 실질적인 자동화 성과를 기대해 봅니다!"
반응형

⚠️ 광고 차단 프로그램 감지

애드블록, 유니콘 등 광고 차단 확장 프로그램을 해제하거나
화이트리스트에 추가해주세요.