현
현대자동차
April 1, 20251회
토크나이저의 이해와 BPE 기반 LLM에서의 한국어 처리 문제
간단 소개
토크나이저의 개념과 BPE 기반 LLM에서 한국어 처리 시 발생하는 문제점, 그리고 해결 방안을 제시합니다.
AI Summary
- 토크나이저의 중요성 및 종류
- 토크나이저는 자연어 처리에서 텍스트를 토큰으로 나누는 핵심 전처리 과정이며, 모델 성능에 큰 영향을 미침.
- 주요 토크나이저 종류로는 Whitespace, WordPiece, SentencePiece, BPE 등이 있으며, 각각 특징과 장단점을 가짐.
- BPE 기반 LLM의 한국어 처리 문제점
- BPE 기반 LLM에서 한국어 OOV(Out of Vocabulary) 발생 시, 단어가 바이트 단위로 분해되어 잘못 해석될 수 있음.
- 특히 llama3.cuda 사용 시 특정 문자('녕', '었')가 잘못된 바이트 값으로 표현되는 문제 발생.
- 해결 방안 및 고려 사항
- 잘못된 바이트 값과 실제 UTF-8 바이트 값 사이의 규칙성을 이용하여 문자 복원 가능.
- 토크나이저 선택 시 OOV 최소화, 어휘집 크기 최적화, 다국어 지원 등을 고려해야 함.
Next Feeds

굿리치의 온프레미스 DNS에서 Amazon Route 53 마이그레이션, 그 여정의 기록
굿리치의 온프레미스 DNS를 Amazon Route 53으로 마이그레이션한 여정을 통해 얻은 교훈과 기술적 해결 방법을 제시합니다.
DNSRoute 53클라우드 마이그레이션하이브리드 아키텍처DNS 통합 관리
2025. 4. 1.
AWS

AI 툴 개발은 처음이라, 당근 비개발자 구성원들의 AI 도전기
당근에서 비개발자들이 AI 툴 개발에 도전하여 업무 효율성을 높이고 새로운 가능성을 발견한 사례와 AI 실험 문화 확산 과정을 소개합니다.
AI자동화비개발자당근Cursor
2025. 4. 1.
당근

CI/CD 옵저버빌리티 도입 전략 가이드
CI/CD 옵저버빌리티는 소프트웨어 배포 프로세스 가시성을 확보하고 효율성을 개선하는 핵심 기술이며, 효과적인 구현 전략이 중요하다.
CI/CD옵저버빌리티OpenTelemetryDevOps파이프라인
2025. 4. 1.
인포그랩

캐시를 적용하기 까지의 험난한 길 (TPS 1만 안정적으로 서비스하기)
토스뱅크 약관 서버의 캐시 적용 과정과 겪었던 문제점, 그리고 이를 해결하기 위한 기술적, 정책적 접근 방식을 설명합니다.
캐시TPSStrong ConsistencyCircuit Breaker정책
2025. 3. 31.
토스
![[Hands-On] AI 에이전트 직접 구현해보기](https://blog.kyobodts.co.kr/wp-content/uploads/2025/03/image-45.png)
[Hands-On] AI 에이전트 직접 구현해보기
AI 에이전트의 기본 원리 이해 및 직접 구현을 통해, 언어모델의 추론 능력과 도구 결합의 가능성을 확인하고 향후 발전 방향을 제시.
AI 에이전트언어모델프롬프트 엔지니어링도구MCP
2025. 3. 31.
교보dts

딥시크(DeepSeek)에 이어 마누스(MANUS) 까지 – 다원화되는 중국 오픈소스 LLM 생태계
중국 오픈소스 LLM 생태계가 딥시크와 마누스를 통해 다원화되고 있으며, 각 모델은 서로 다른 철학과 전략으로 AI 혁신을 이끌고 있다.
딥시크마누스LLM오픈소스AI 에이전트
2025. 3. 31.
교보dts