현
현대자동차
June 23, 20241회
Tokenizer: LLM은 텍스트를 어떻게 받아들일까? (feat. Andrej Karpathy) #1

간단 소개
LLM이 텍스트를 이해하는 기본 단위인 토큰과 토크나이저의 원리(BPE) 및 구현 과정을 설명합니다.
AI Summary
- LLM과 토큰
- LLM은 텍스트를 토큰이라는 단위로 처리하며, 토큰은 단어와 유사한 개념이지만 LLM의 동작 방식 이해에 중요합니다.
- Andrej Karpathy의 강의를 바탕으로 토큰과 Tokenizer에 대한 이해를 돕습니다.
- BPE (Byte Pair Encoding)
- BPE는 텍스트를 효율적으로 인코딩하는 알고리즘으로, 빈번하게 등장하는 byte pair를 새로운 단어로 지정합니다.
- BPE를 통해 sequence 길이를 줄일 수 있지만, vocabulary size가 커지면 모델 파라미터 수가 증가하므로 적절한 크기를 찾는 것이 중요합니다.
- Tokenizer의 역할 및 구현
- Tokenizer는 LLM을 위한 입출력 전후 처리 장치로, raw text를 토큰 sequence로 변환하고, LLM이 생성한 토큰 sequence를 다시 text로 변환합니다.
- 실제 tokenizer 학습 및 encoding/decoding 과정을 구현하여 설명합니다.
Next Feeds

AI vs Human, AI는 정말 사람처럼 행동하는 것일까? (feat. 설명 가능한 XAI) - #01
AI 모델의 신뢰성을 확보하기 위한 XAI(설명 가능한 인공지능)의 개념과 ML, DL 기반 주요 방법론을 소개한다.
XAILIMESHAPGrad-CAM신뢰성
2024. 6. 20.
현대자동차

코드 퍼스트로 스키마 변경이 일어났을 때 확인하는 과정을 자동화해보자
코드 퍼스트 환경에서 스키마 변경으로 인한 프론트엔드 빌드 실패를 Github Action으로 자동화하여 개발 효율성을 향상시킨 경험 공유.
코드 퍼스트GraphQL스키마 변경Github Action자동화
2024. 6. 19.
크리에이트립

오픈챗 해시태그 예측을 위한 다중 레이블 분류 모델 개발하기
오픈챗 해시태그 예측을 위한 다중 레이블 분류 모델 개발 과정과 성능 향상 기법을 소개합니다.
오픈챗해시태그 예측다중 레이블 분류Hugging FaceMMR 기법
2024. 6. 19.
LY Corp

엔지니어의 AI 학회 참관기 - ITS(Intelligent Transport Systems) World Congress 2022
ITS World Congress 2022 참관을 통해 AI가 실제 산업 현장에서 어떻게 적용되고 있는지, 그리고 그 한계는 무엇인지 살펴본 내용입니다.
AIITSLidarGPS관제시스템
2024. 6. 18.
현대자동차

AWS Lambda 를 활용한 Luft 스케일링
AWS Lambda를 활용한 Luft 스케일링 시도와 결과 분석: 람다의 장단점을 고려한 하이브리드 방식의 스케일링 전략 모색.
AWS LambdaLuft스케일링OLAP서버리스
2024. 6. 18.
AB180
Google Cloud Next 2024 참관 후기 2편 - Google Cloud Serverless for Java developer
Google Cloud Next 2024에서 소개된 Serverless 기술과 Java 개발자를 위한 Cold Start 완화 전략을 제시합니다.
ServerlessCloud RunCold StartJavaGCP
2024. 6. 18.
카카오페이