현
현대자동차
June 30, 20241회
Tokenizer: LLM은 텍스트를 어떻게 받아들일까? (Feat. Andrej Karpathy) #2
간단 소개
LLM이 텍스트를 받아들이는 방식인 Tokenizer의 원리, 종류, 그리고 LLM의 이상 동작과의 연관성을 분석합니다.
AI Summary
- Tokenizer의 기본 원리 및 GPT Tokenizer 분석
- BPE를 이용한 tokenizer 학습 및 vocabulary 생성 과정 요약.
- GPT-2와 GPT-4 tokenizer의 차이점 분석: 공백 처리, 숫자 인식 등.
- GPT-2 tokenizer의 vocabulary 구성 (UTF-8, merges, special token) 및
tiktoken라이브러리 사용법.
- Sentencepiece 소개 및 LLM 이상 동작과의 연관성
- Sentencepiece tokenizer의 특징: Unicode 직접 처리, 학습 용이성.
- LLM의 이상 동작 원인이 tokenization에 있음을 지적: 철자 인식, 외국어 처리, 연산 문제 등.
- 부적절한 tokenization으로 인한 문제 해결 방안 제시: character-wise tokenization 활용.
- Tokenization 효율성 및 LLM 성능
- YAML이 JSON보다 효율적인 tokenization 제공.
- LLM의 instruction fine tuning 및 trailing whitespace 문제.
- 특정 token에 대한 LLM의 이상 동작 가능성 및 해결 방안.
- Tokenizer에 대한 이해가 LLM 이해에 중요함을 강조.
Next Feeds
쿠버네티스 오퍼레이터를 Java로 개발해보기
Java Operator SDK를 사용하여 Kubernetes Operator를 개발하고 배포하는 방법을 설명합니다.
JavaKubernetes OperatorJava Operator SDKfabric8ioCRD
2024. 6. 30.
지마켓
신규 서비스 "꿀템"을 만들기 위한 여정(네? 다음달까지요?) -2편
신규 서비스 '꿀템' 개발 여정: 기술 스택, 이슈 해결, 개발 도구 활용 및 팀 협업을 통한 성공적인 런칭 과정을 소개합니다.
꿀템기술 스택SpringKotlinQueryDSL
2024. 6. 30.
지마켓
신규 서비스 "꿀템"을 만들기 위한 여정(네? 다음달까지요?) -1편
G마켓 신규 서비스 '꿀템' 개발 여정: 챗GBT 아이디어에서 시작, G-world 프로젝트로 확장, BSD 론칭을 위한 협업 과정을 담았습니다.
꿀템G-worldAttractionRidePassenger
2024. 6. 30.
지마켓

대용량 AI 실시간 임베딩 데이터를 효율적으로 다루기
대용량 AI 실시간 임베딩 데이터를 효율적으로 제공하기 위해 Redis Cluster를 활용하고, 데이터 압축 및 인프라 최적화를 통해 성능 향상 및 비용 절감을 달성한 사례.
임베딩Redis ClusterTPS데이터 압축Generational ZGC
2024. 6. 28.
LY Corp

IaaS 자원 선언적으로 관리하기 vol.3
IaaS 자원 선언적 관리 경험 공유: 서비스 오픈 전 이슈 해결 과정과 객체 간 관계 설정 시 고려사항을 담았습니다.
IaaS선언적 관리오픈스택HCloudConcurrency
2024. 6. 26.
현대자동차
Karpenter 파일럿
사람인 SRE팀에서 AWS EKS 환경을 안정적이고 확장성 있게 운영하기 위해 Karpenter를 도입하고 테스트한 과정과 운영 전략을 공유합니다.
KarpenterAWS EKSAuto ScalingKubernetesSpot Instance
2024. 6. 26.
사람인