การเพิ่มขึ้นของโมเดลภาษาขนาดเล็กใน AI

การเพิ่มขึ้นของโมเดลภาษาขนาดเล็กใน AI

ในความขัดแย้งด้าน AI ซึ่งยักษ์ใหญ่ด้านเทคโนโลยีต่างแข่งขันกันเพื่อสร้างโมเดลภาษาที่ใหญ่ขึ้นเรื่อยๆ เทรนด์ใหม่ที่ไม่คาดคิดก็ได้เกิดขึ้น: เล็กคือใหญ่ใหม่ เนื่องจากการพัฒนาในโมเดลภาษาขนาดใหญ่ (LLM) ดูเหมือนจะอยู่ในขั้นราบเรียบ นักวิจัยและนักพัฒนาจึงมุ่งเน้นไปที่โมเดลภาษาขนาดเล็ก (SLM) มากขึ้น โมเดล AI ขนาดเล็ก มีประสิทธิภาพ และปรับเปลี่ยนได้สูงเหล่านี้ท้าทายแนวคิดที่ว่าใหญ่กว่าย่อมดีกว่าเสมอ พร้อมศักยภาพในการปฏิวัติวิธีที่เราเข้าถึงการวิจัย AI

LLM เริ่มเข้าสู่ที่ราบสูงแล้วหรือยัง?

การเปรียบเทียบประสิทธิภาพล่าสุดเผยแพร่โดย หนังลูกวัว และ HuggingFace ระบุว่าช่องว่างด้านประสิทธิภาพระหว่าง LLM กำลังปิดลงอย่างรวดเร็ว แนวโน้มนี้สังเกตได้ชัดเจนเป็นพิเศษในงานต่างๆ เช่น คำถามแบบปรนัย การใช้เหตุผล และปัญหาทางคณิตศาสตร์ ซึ่งความแตกต่างด้านประสิทธิภาพระหว่างโมเดลอันดับต้นๆ นั้นมีเพียงเล็กน้อย เช่น ในคำถามแบบปรนัย คลอดด์ 3 บทประพันธ์, จีพีที-4และ Gemini Ultra ทั้งหมดได้คะแนนสูงกว่า 83% แต่ในด้านปัญหาการใช้เหตุผล Claude 3 Opus, GPT-4 และ Gemini 1.5 Pro ต่างก็สูงถึง 92%

สิ่งที่น่าสนใจคือโมเดลขนาดเล็ก เช่น Mixtral 8x7B และ Llama 2 – 70B มีประสิทธิภาพเหนือกว่าโมเดลขนาดใหญ่ในบางพื้นที่ เช่น การใช้เหตุผลและปัญหาแบบหลายตัวเลือก นี่แสดงให้เห็นว่าขนาดโมเดลอาจไม่ได้เป็นเพียงปัจจัยกำหนดประสิทธิภาพเท่านั้น และสถาปัตยกรรม ข้อมูลการฝึกอบรม และกลยุทธ์การปรับแต่งทั้งหมดอาจมีบทบาทสำคัญทั้งหมด

สิ่งพิมพ์วิจัยล่าสุดที่แนะนำ LLM ใหม่ล้วนมุ่งไปในทิศทางเดียวกัน: “หากคุณมองตามเชิงประจักษ์ บทความสิบกว่าๆ สุดท้ายที่เผยแพร่ ล้วนอยู่ในขอบเขตทั่วไปเดียวกันกับ GPT-4” Gary Marcus อดีตหัวหน้า Uber AI และผู้เขียนกล่าว “การรีบูต AI” หนังสือเกี่ยวกับการพัฒนา AI ที่น่าเชื่อถือ Marcus พูดคุยกับ VentureBeat ในวันพฤหัสบดี

“บางส่วนอาจดีกว่า GPT-4 บ้าง แต่ก็ไม่มีการกระโดดแบบควอนตัม ฉันเชื่อว่าทุกคนคงเห็นพ้องกันว่า GPT-4 เป็นการก้าวกระโดดควอนตัมของ GPT-3.5 “ไม่มีการก้าวกระโดดแบบควอนตัมในรอบหนึ่งปี” มาร์คัสตั้งข้อสังเกต

เมื่อช่องว่างด้านประสิทธิภาพแคบลงและมีโมเดลจำนวนมากขึ้นที่ทำให้เกิดผลลัพธ์ทางการแข่งขัน ทำให้เกิดคำถามว่า LLM กำลังเข้าใกล้จุดราบสูงหรือไม่ หากแนวโน้มนี้ยังคงดำเนินต่อไป อาจมีผลกระทบร้ายแรงต่อการพัฒนาและการปรับใช้โมเดลภาษาในอนาคต ซึ่งอาจย้ายการเน้นออกไปจากการเพิ่มขนาดโมเดลเพียงอย่างเดียว ไปสู่สถาปัตยกรรมที่มีประสิทธิภาพและเฉพาะทางมากขึ้น

ข้อเสียของแนวทาง LLM

LLM แม้จะแข็งแกร่ง แต่ก็มีข้อเสียที่รุนแรง สำหรับผู้เริ่มต้น การฝึกอบรม LLM ต้องการข้อมูลปริมาณมหาศาล โดยมีพารามิเตอร์นับพันล้านหรือล้านล้านรายการ สิ่งนี้ทำให้กระบวนการฝึกอบรมใช้ทรัพยากรอย่างมาก โดยมีความต้องการด้านคอมพิวเตอร์และพลังงานที่น่าตกใจสำหรับการฝึกอบรมและการดำเนินการ LLM ส่งผลให้มีค่าใช้จ่ายจำนวนมาก ทำให้องค์กรขนาดเล็กหรือบุคคลทั่วไปลงทุนในการพัฒนา LLM หลักได้ยากขึ้น ในการนำเสนอของ MIT เมื่อปีที่แล้ว OpenAI Sam Altman ซีอีโออ้างว่าการฝึกอบรม GPT-4 มีค่าใช้จ่ายอย่างน้อย 100 ล้านเหรียญสหรัฐ 

ลักษณะที่ซับซ้อนของเครื่องมือและวิธีการที่จำเป็นในการจัดการกับ LLM ทำให้เกิดการเรียนรู้ที่สูงชันสำหรับนักพัฒนา ซึ่งจำกัดการเข้าถึง นักพัฒนามีรอบเวลาที่ยาวนาน ตั้งแต่การฝึกอบรมไปจนถึงการพัฒนาและปรับใช้โมเดล ซึ่งทำให้การพัฒนาและการทดลองช้าลง รายงานล่าสุดจากมหาวิทยาลัยเคมบริดจ์แสดงให้เห็นว่าองค์กรต่างๆ สามารถใช้เวลา 90 วันหรือมากกว่านั้นในการปรับใช้โมเดลการเรียนรู้ของเครื่อง (ML) เดียว  

ปัญหาสำคัญอีกประการหนึ่งของ LLM คือความไวต่ออาการประสาทหลอน ซึ่งส่งผลให้ผลลัพธ์ที่ดูเป็นไปได้แต่ไม่ถูกต้องหรือเป็นข้อเท็จจริง นี่เป็นเพราะวิธีการฝึกอบรม LLM เพื่อคาดการณ์คำที่น่าจะเป็นไปได้มากที่สุดถัดไปโดยอิงตามรูปแบบในข้อมูลการฝึกอบรม แทนที่จะเข้าใจเนื้อหาอย่างแท้จริง ด้วยเหตุนี้ LLM จึงอาจยืนยันข้อมูลที่ทำให้เข้าใจผิด ประดิษฐ์ข้อเท็จจริง และเชื่อมโยงแนวคิดที่ไม่เกี่ยวข้องด้วยวิธีที่ไร้เหตุผลได้อย่างปลอดภัย การตรวจจับและควบคุมภาพหลอนเหล่านี้เป็นปัญหาที่เกิดขึ้นอย่างต่อเนื่องในการสร้างแบบจำลองภาษาที่เชื่อถือได้และเชื่อถือได้

“หากคุณใช้บางสิ่งในสถานการณ์ที่มีความเสี่ยงสูง คุณคงไม่อยากทำให้ลูกค้าขุ่นเคือง รับข้อมูลทางการแพทย์ที่ไม่ถูกต้อง หรือใช้มันเพื่อขับรถและรับความเสี่ยง “นั่นยังคงเป็นปัญหา” มาร์คัสเตือน

ขนาดและลักษณะของกล่องดำของ LLM ยังทำให้เข้าใจและแก้ไขจุดบกพร่องได้ยาก ซึ่งเป็นสิ่งสำคัญสำหรับการสร้างความไว้วางใจในผลลัพธ์ของแบบจำลอง อคติในข้อมูลการฝึกอบรมและอัลกอริธึมอาจส่งผลให้เกิดผลลัพธ์ที่ไม่ยุติธรรม ไม่ถูกต้อง หรือแม้แต่การทำลายล้าง ดังแสดงโดย Google ราศีเมถุนมาตรการที่ใช้เพื่อทำให้ LLM “ปลอดภัย” และเชื่อถือได้สามารถจำกัดประสิทธิภาพได้เช่นกัน นอกจากนี้ โครงสร้างแบบรวมศูนย์ของ LLM ยังทำให้เกิดความกังวลเกี่ยวกับบริษัทดิจิทัลรายใหญ่บางแห่งที่มีอำนาจและอำนาจมากเกินไป

การแนะนำโมเดลภาษาขนาดเล็ก (SLM)

ป้อนโมเดลภาษาขนาดเล็ก SLM เป็น LLM ที่มีประสิทธิภาพมากกว่า โดยมีพารามิเตอร์น้อยกว่าและการออกแบบที่เรียบง่ายกว่า พวกเขาต้องการข้อมูลและเวลาฝึกอบรมเพียงเล็กน้อย—นาทีหรือสองสามชั่วโมง ตรงข้ามกับ LLM หลายวัน สิ่งนี้ทำให้ SLM มีประสิทธิภาพและง่ายต่อการตั้งค่าในสถานที่หรือบนอุปกรณ์ขนาดเล็ก

ประโยชน์หลักประการหนึ่งของ SLM คือความสามารถในการปรับตัวให้เข้ากับการใช้งานบางอย่างได้ เนื่องจากมีขอบเขตที่แคบกว่าและต้องการข้อมูลน้อยกว่า จึงปรับแต่งโดเมนหรือกิจกรรมบางอย่างได้ง่ายกว่าโมเดลขนาดใหญ่สำหรับใช้งานทั่วไป การปรับแต่งนี้ช่วยให้ธุรกิจสามารถสร้าง SLM ที่มีประสิทธิภาพมากสำหรับความต้องการเฉพาะของตน เช่น การวิเคราะห์ความรู้สึก การระบุชื่อเอนทิตี หรือการตอบคำถามเฉพาะโดเมน ลักษณะเฉพาะของ SLM อาจส่งผลให้มีสมรรถนะและประสิทธิผลที่ดีขึ้นในแอปพลิเคชันเฉพาะบางอย่างมากกว่ารุ่นทั่วไป

ข้อดีอีกประการหนึ่งของ SLM ก็คือความเป็นไปได้ในการเพิ่มความเป็นส่วนตัวและความปลอดภัย SLM นั้นตรวจสอบได้ง่ายกว่าและมีช่องโหว่ที่ไม่คาดคิดน้อยลงเนื่องจากมีโค้ดเบสที่เล็กกว่าและการออกแบบที่เรียบง่ายกว่า สิ่งนี้ทำให้พวกเขาน่าสนใจสำหรับแอปพลิเคชันที่จัดการข้อมูลที่ละเอียดอ่อน เช่น การดูแลสุขภาพหรือการธนาคาร ซึ่งการละเมิดข้อมูลอาจส่งผลให้เกิดผลที่ร้ายแรง นอกจากนี้ SLM ยังมีความต้องการในการประมวลผลที่ต่ำกว่า ทำให้ใช้งานได้จริงมากขึ้นในการทำงานบนอุปกรณ์หรือเซิร์ฟเวอร์ภายในองค์กร แทนที่จะอาศัยโครงสร้างพื้นฐานระบบคลาวด์ การประมวลผลในเครื่องนี้สามารถปรับปรุงความปลอดภัยของข้อมูลและลดความเสี่ยงของการเปิดเผยข้อมูลระหว่างการถ่ายโอนข้อมูล

นอกจากนี้ SLM ยังมีโอกาสน้อยกว่า LLM ที่จะพบกับภาพหลอนที่ตรวจไม่พบภายในพื้นที่ที่ระบุ SLM มักจะได้รับการฝึกฝนบนชุดข้อมูลที่เล็กกว่าและเน้นมากขึ้นโดยเฉพาะกับโดเมนหรือแอปพลิเคชันที่ต้องการ ช่วยให้โมเดลเรียนรู้รูปแบบ ภาษา และข้อมูลที่สำคัญที่สุดต่อวัตถุประสงค์ ความเข้มข้นนี้ลดความน่าจะเป็นในการสร้างผลลัพธ์ที่ไม่เกี่ยวข้อง ไม่คาดคิด หรือไม่สอดคล้องกัน SLM มีโอกาสน้อยที่จะจับและขยายสัญญาณรบกวนหรือข้อผิดพลาดในข้อมูลการฝึกอบรม เนื่องจากมีพารามิเตอร์น้อยลงและสถาปัตยกรรมที่มีความคล่องตัวมากขึ้น

Clem Delangue ซีอีโอของบริษัท AI กอดใบหน้าประเมินว่า SLM อาจแก้ปัญหากรณีการใช้งานได้ถึง 99% และปี 2024 จะเป็นปีของ SLM HuggingFace ซึ่งเป็นแพลตฟอร์มที่ช่วยให้นักพัฒนาสามารถสร้าง ฝึกอบรม และปรับใช้โมเดลการเรียนรู้ของเครื่อง ได้ประกาศข้อตกลงเชิงกลยุทธ์กับ Google เมื่อต้นปีนี้ นับตั้งแต่ HuggingFace ได้รวมอยู่ใน Vertex AI ของ Google ซึ่งช่วยให้นักพัฒนาสามารถติดตั้งโมเดลหลายร้อยแบบได้ทันทีผ่านทาง Google Vertex Model Garden 

แสดงความรักของ Gemma, Google

หลังจากเสียความเป็นผู้นำใน LLM ให้กับ OpenAI เป็นครั้งแรก ขณะนี้ Google กำลังกำหนดเป้าหมายความเป็นไปได้ของ SLM อย่างจริงจัง ในเดือนกุมภาพันธ์ Google ได้เปิดตัว เจมม่าซึ่งเป็นโมเดลภาษาเล็กๆ ชุดใหม่ที่มีจุดมุ่งหมายให้มีประสิทธิภาพและใช้งานง่ายยิ่งขึ้น Gemma เวอร์ชันต่างๆ เช่นเดียวกับ SLM อื่นๆ อาจทำงานบนอุปกรณ์ทั่วไปได้หลากหลาย รวมถึงสมาร์ทโฟน แท็บเล็ต และแล็ปท็อป โดยไม่จำเป็นต้องใช้ฮาร์ดแวร์เฉพาะหรือการเพิ่มประสิทธิภาพมากนัก

นับตั้งแต่ Gemma เปิดตัวเมื่อเดือนที่แล้ว โมเดลที่ได้รับการฝึกอบรมก็ได้รับการดาวน์โหลดมากกว่า 400,000 ครั้งบน HuggingFace และโปรเจ็กต์ที่น่าสนใจบางโปรเจ็กต์กำลังดำเนินการอยู่ ตัวอย่างเช่น Cerule เป็นโมเดลรูปภาพและภาษาที่แข็งแกร่งซึ่งผสมผสาน Gemma 2B เข้ากับ SigLIP ของ Google และได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลรูปภาพและข้อความขนาดใหญ่ Cerule ใช้อัลกอริธึมการเลือกข้อมูลที่มีประสิทธิภาพมาก ซึ่งหมายความว่าสามารถบรรลุประสิทธิภาพที่ยอดเยี่ยมโดยไม่ต้องใช้ข้อมูลหรือการประมวลผลจำนวนมาก สิ่งนี้ชี้ให้เห็นว่า Cerule อาจเหมาะสมอย่างยิ่งสำหรับกรณีการใช้งานการประมวลผล Edge ที่กำลังจะมีขึ้น  

พลังแห่งการปฏิวัติของโมเดลภาษาขนาดเล็ก

ในขณะที่ชุมชน AI ยังคงตรวจสอบศักยภาพของแบบจำลองภาษากะทัดรัด ประโยชน์ของวงจรการพัฒนาที่สั้นลง ประสิทธิภาพที่เพิ่มขึ้น และความสามารถในการปรับเปลี่ยนแบบจำลองตามความต้องการเฉพาะก็ชัดเจนมากขึ้น SLM มีศักยภาพในการสร้างประชาธิปไตยในการเข้าถึง AI และกระตุ้นนวัตกรรมทั่วทั้งภาคส่วนโดยการใช้โซลูชันที่มีต้นทุนต่ำและมุ่งเน้น การใช้ SLM ที่ Edge มอบโอกาสใหม่ๆ สำหรับแอปพลิเคชันแบบเรียลไทม์ ส่วนบุคคล และปลอดภัยในหลากหลายอุตสาหกรรม รวมถึงการเงิน ความบันเทิง ระบบยานยนต์ การศึกษา อีคอมเมิร์ซ และการดูแลสุขภาพ

การประมวลผล Edge ด้วย SLM ปรับปรุงประสบการณ์ผู้ใช้โดยการประมวลผลข้อมูลในเครื่องและลดการพึ่งพาโครงสร้างพื้นฐานระบบคลาวด์ กลยุทธ์ AI แบบกระจายอำนาจนี้มีศักยภาพในการเปลี่ยนแปลงวิธีที่องค์กรและผู้บริโภคมีส่วนร่วมกับเทคโนโลยี ส่งผลให้ได้รับประสบการณ์ที่เป็นส่วนตัวและใช้งานง่ายมากขึ้นในโลกแห่งความเป็นจริง ในขณะที่ LLM เผชิญกับปัญหาทรัพยากรการประมวลผลและอาจถึงจุดต่ำสุดของประสิทธิภาพ การมาถึงของ SLM สัญญาว่าจะทำให้ระบบนิเวศ AI ก้าวหน้าในอัตราที่รวดเร็ว

แหล่งที่มา VentureBeat

เขียนความเห็น

ที่อยู่อีเมลของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมาย *