LLM ภาษาไทย: ปรับจูนและประเมินผลแบบลงมือทำ
ประเด็นสำคัญของภาษาไทยที่กระทบ RAG/LLM: tokenization, เว้นวรรค, retrieval และหลุมพรางตอนประเมินผล
LLMCerebraTechAI Team3/1/2567
ภาษาไทยมีผลต่อ retrieval และ evaluation มาก (การตัดคำ/การเว้นวรรค/การ normalize)
ใช้ evaluation set ที่ตรงกับงานจริง มากกว่าอาศัย benchmark ทั่วไปอย่างเดียว
ทำ version ให้ prompt และ retrieval config และมี regression test ก่อนปล่อย