데브허브 | DEVHUB | ✨ Ollama로 챗봇 사이트 만들기
- 외부 API 의존 없이 자체 모델(Ollama)을 활용하여 로컬 챗봇 사이트를 구축하는 과정을 시연합니다. 🤖
- 오픈소스 Ollama를 기반으로 하며, Phi-4 (2.7GB) 모델을 선택하여 AWS GPU 인스턴스에 배포합니다. 대용량 모델은 리소스 제약으로 사용이 어렵습니다. 🧠
- P3 2XLarge (시간당 약 4.2달러) GPU 인스턴스를 사용하여 고성능 환경을 구축하고, Amazon Linux 2023 OS와 80GB 스토리지를 설정합니다. 💸
- Git, Zsh, Htop, Node.js (v20), pnpm 등 필수 개발 도구 및 환경을 설정하여 개발 준비를 마칩니다. 🛠️
- GPU 활용을 위해 NVIDIA CUDA 드라이버 및 관련 커널 모듈을 설치하며, 이 과정에서 상당한 시간과 리소스가 소요됩니다. 🚀
- Ollama를 설치하고 Phi-4 모델을 다운로드하여 로컬 서버에 배포하며,
nvidia-smi를 통해 GPU 사용 현황을 모니터링합니다. 📊
uv와 open-webui를 설치하여 사용자 친화적인 웹 인터페이스를 구축하고, Nginx를 리버스 프록시로 설정하여 chat.okdevtv.com 도메인으로 접속 가능하게 합니다. 🌐
- Phi-4 모델로 텍스트 기반 질문(Python API, Ollama 특징, Spring 차이점)은 잘 처리되나, 이미지 해석과 같은 멀티모달 기능은 지원하지 않아 실패합니다. 🖼️❌
- Gemma 3 모델로 변경하여 테스트했으나, 소녀시대 멤버 특징 질문에서 여전히 부정확한 답변을 제공하며 모델 로딩 시간이 발생합니다. 🔄
- AWS 인스턴스 사용 후 즉시 종료하여 비용을 절감하며, 망분리 환경이나 기업 내부 정보 보호가 필요한 경우 로컬 AI 서버 구축의 유용성을 강조합니다. 💡