- LLM ์ ํ๋ฆฌ์ผ์ด์ ํ๊ฐ๋ฅผ ๊ฐ์ํํ๋ Align Evals ๊ธฐ๋ฅ ์ถ์ ๐.
- Align Evals๋ ๋ฐ์ดํฐ ๋ผ๋ฒจ๋ง์ ํตํด ํ๊ฐ์๋ฅผ ์์ฑํ๋ ์๋ก์ด ๋ฐฉ๋ฒ ์ ๊ณต ๐ท๏ธ.
- Langsmith๋ LLM ์ ํ๋ฆฌ์ผ์ด์ ๊ด์ฐฐ ๋ฐ ํ๊ฐ ํ๋ซํผ์ด๋ฉฐ, Langchain๊ณผ ํจ๊ป ๋๋ ์์ด ์ฌ์ฉ ๊ฐ๋ฅ ๐ ๏ธ.
- Align Evals๋ ๋ํ์ ์ธ ์ํ ์คํ ์์ง, ์ ๋ฌธ๊ฐ ๋ผ๋ฒจ๋ง, ํ๋กฌํํธ ๋ฐ๋ณต์ ๊ณผ์ ์ ๊ฑฐ์นจ ๐งโ๐ซ.
- ํ๊ฐ์ ํ๋ ์ด๊ทธ๋ผ์ด๋์์ LLM judge ํ๋กฌํํธ๋ฅผ ์์ฑํ๊ณ , ์ฌ๋์ ๋ผ๋ฒจ๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง ํ์ธ ๊ฐ๋ฅ โ๏ธ.
- ํ๋กฌํํธ์ ๋ชจ๋ธ์ ๋ณ๊ฒฝํ๋ฉฐ ์ ๋ ฌ์ ๊ฐ์ ํ๊ณ , ํ๊ฐ์๋ฅผ ์ ์ฅํ์ฌ ์๋ก์ด ์คํ์ ์ ์ฉ ๊ฐ๋ฅ โจ.
- Eugene Yan์ Align eval์์ ์๊ฐ์ ๋ฐ์ ๊ฐ๋ฐ๋์์ผ๋ฉฐ, ์ค๋๋ถํฐ ์ฌ์ฉ ๊ฐ๋ฅ ๐ก.