Giáo dục

Từ luận văn tốt nghiệp, sinh viên Bách khoa đưa nghiên cứu AI lên tạp chí Q1

Võ Liên - Như Quỳnh • 21/04/2026 - 12:22

Từ một luận văn tốt nghiệp, sinh viên Trường Đại học Bách Khoa, ĐHQG TP.HCM đề xuất kỹ thuật giúp AI (trí tuệ nhân tạo) trả lời trắc nghiệm ổn định hơn, đề xuất này vừa được đăng tải trên tạp chí quốc tế Q1.

Một nghiên cứu xuất phát từ luận văn đại học của thầy và trò khoa Khoa học và Kỹ thuật Máy tính, Trường Đại học Bách khoa, ĐHQG TP.HCM sau nhiều vòng phản biện và chỉnh sửa liên tục, đã được chấp nhận công bố trên tạp chí quốc tế hàng đầu về trí tuệ nhân tạo trong giáo dục. Đây là một kết quả đặc biệt mà chính nhóm tác giả cũng không ngờ tới.

Hơn hai năm kiên trì qua nhiều vòng phản biện

Công trình tập trung vào việc đề xuất một kỹ thuật viết lời nhắc (prompting) mới có tên Single-Token Logit (STL), nhằm nâng cao độ chính xác và tính ổn định của các mô hình ngôn ngữ lớn (LLM) khi tự động trả lời câu hỏi trắc nghiệm (MCQ).

Bài báo có tựa đề: "Enhancing Large Language Model Performance for Automatic Zero-Shot Multiple- Choice Question Answering via Single-Token Logit Prompting" (Nâng cao khả năng trả lời câu hỏi trắc nghiệm tự động của mô hình ngôn ngữ lớn bằng kỹ thuật nhắc lệnh Single-Token Logit).

Nhóm nghiên cứu: Nguyễn Song Thiên Long, Trần Trương Tuấn Phát và Võ Thị Như Quỳnh.

Nhóm tác giả gồm Đặng Phú Quốc (cựu sinh viên Trường Đại học Bách khoa, đồng tác giả chính), Trần Trương Tuấn Phát (giảng viên Trường Đại học Bách khoa, đồng tác giả chính), TS Vũ Đức Lý (giảng viên Trường Đại học Quốc tế Miền Đông), Nguyễn Song Thiên Long và Võ Thị Như Quỳnh (sinh viên năm ba Trường Đại học Bách khoa). Công trình với sự hướng dẫn của PGS.TS Quản Thành Thơ – Trưởng khoa Khoa học và Kỹ thuật Máy tính, Trường Đại học Bách khoa, ĐHQG TP.HCM.

Tác giả Đặng Phú Quốc chia sẻ, với điểm khởi đầu là luận văn tốt nghiệp đại học của bản thân, nhóm không đặt tham vọng công trình sẽ được công bố trên tạp chí thứ hạng cao.

"Mục tiêu khiêm tốn chỉ là giải quyết tốt một bài toán nghiên cứu về LLM", Quốc nói.

Sau khoảng hai năm bốn tháng kể từ khi bắt tay nghiên cứu, đến tháng 3/2026, công trình đã được đăng trên tạp chí Computers and Education: Artificial Intelligence. Đây là tạp chí mở của Elsevier, hiện xếp hạng Q1, đứng đầu lĩnh vực trí tuệ nhân tạo (Artificial Intelligence), hạng 2 lĩnh vực giáo dục (Education), hạng 3 lĩnh vực Khoa học máy tính ứng dụng (Computer Science Applications), theo SCImago.

Nhìn lại, nhóm tác giả càng thấy rõ việc chạm tới một công bố quốc tế uy tín là hành trình đầy khó khăn. Thử thách không chỉ đến từ việc đảm bảo chất lượng và giá trị học thuật của công trình, mà còn đòi hỏi sự kiên nhẫn và niềm đam mê lớn từ mỗi thành viên.

Cũng theo tác giả Trần Trương Tuấn Phát, nhóm đã trải qua nhiều vòng phản biện kín hai chiều. Có những lần chuyên gia phản biện từ chối ý tưởng, nhưng ở vòng tiếp theo, sau khi đọc thư trả lời và bản thảo đã chỉnh sửa, họ đã thay đổi ý kiến sang quyết định chấp nhận hoặc bày tỏ sự cân nhắc tích cực. Mỗi vòng phản biện đều yêu cầu những cải tiến đáng kể như bổ sung thí nghiệm, làm rõ cách diễn giải, củng cố định hướng nghiên cứu và tái cấu trúc bản thảo.

Giải pháp đánh giá từng đáp án độc lập

Nghiên cứu tập trung vào cải thiện khả năng của các mô hình ngôn ngữ lớn mã nguồn mở như LLaMA, DeepSeek hay Mistral khi xử lý câu hỏi trắc nghiệm một cách tự động mà không cần hướng dẫn cụ thể (zero-shot).

Theo nhóm tác giả, chỉ cần thay đổi thứ tự sắp xếp các đáp án A, B, C, D - dù nội dung câu hỏi hoàn toàn giữ nguyên - mô hình có thể đưa ra kết quả khác nhau. Điều này cho thấy LLM chưa thực sự "hiểu" câu hỏi trắc nghiệm.

Nguyên nhân nằm ở bản chất của LLM, các mô hình này được tối ưu để dự đoán token tiếp theo, khiến chúng dễ bị ảnh hưởng bởi vị trí hoặc nhãn của đáp án thay vì thực sự đánh giá ngữ nghĩa. Hiện tượng này được gọi là giới hạn Multiple-Choice Symbol Binding (MCSB), làm giảm đáng kể độ tin cậy của LLM khi ứng dụng trong giáo dục như chấm bài hay xây dựng ngân hàng câu hỏi.

Công trình được đăng trên tạp chí Computers and Education: Artificial Intelligence (Elsevier) xếp hạng Q1, đứng đầu về lĩnh vực giáo dục. Ảnh chụp màn hình

Từ hạn chế này, nhóm đề xuất kỹ thuật Single-Token Logit (STL), một chiến lược viết lời nhắc (prompting) thay đổi cách mô hình tiếp cận bài toán trắc nghiệm. Thay vì trình bày tất cả đáp án cùng lúc và yêu cầu chọn A, B, C hay D, kỹthuật STL tách riêng từng đáp án, ghép với câu hỏi và hỏi mô hình theo dạng có/không: đáp án này có đúng không? Quyết định cuối cùng dựa trên xác suất của token “yes” tại mỗi lượt đánh giá.

“Cơ chế này giúp mô hình xác minh từng lựa chọn một cách độc lập, không bị chi phối bởi vị trí hay nhãn đáp án, qua đó khắc phục trực tiếp hạn chế MCSB”, Tuấn Phát chỉ ra ưu điểm trong cách tiếp cận mới này.

Bên cạnh đó, nhóm còn tích hợp kỹ thuật Retrieval- Augmented Generation (RAG), cho phép mô hình truy xuất kiến thức bổ sung từ nguồn dữ liệu bên ngoài nhằm tăng độ chính xác của thông tin phù hợp với từng ngữ cảnh cũng như kiểm tra độ ổn định của giải pháp trong nhiều điều kiện khác nhau.

PGS.TS Quản Thành Thơ - Trưởng khoa Khoa học và Kỹ thuật Máy tính, ĐHQG TP.HCM - nhìn nhận công bố lần này không chỉ đóng góp xuất sắc về mặt giá trị học thuật đối với các nghiên cứu trong lĩnh vực LLM, mà còn là dấu mốc ấn tượng trên chặng đường nghiên cứu khoa học của nhóm tác giả.

Ở góc độ học thuật, PGS.TS Thơ nhấn mạnh rằng nghiên cứu gợi mở một góc nhìn đáng chú ý, cải thiện độ tin cậy của mô hình AI không nhất thiết đòi hỏi mô hình lớn hơn hay kiến trúc phức tạp hơn. Đôi khi, một thay đổi nhỏ trong cách thiết kế prompt có thể tạo ra sự khác biệt lớn khi triển khai trong thực tế.

Để kiểm chứng hiệu quả của kỹ thuật STL, nhóm đã đánh giá toàn diện trên ba bộ dữ liệu khoa học chuẩn (ARC, OpenBookQA và SciQ) trong nhiều điều kiện ngữ cảnh khác nhau. Kết quả cho thấy STL đạt kết quả ngang bằng hoặc vượt trội so với các phương pháp phổ biến, bao gồm cả Chain-of-Thought (CoT), với mức cải thiện lên đến 11 điểm phần trăm ở một số cấu hình - trong khi chi phí tính toán thấp hơn đáng kể.

Về ứng dụng, kỹ thuật STL có thể hỗ trợ giáo viên rà soát chất lượng đề thi, tự động gợi ý đáp án cho câu hỏi chưa có đáp án, hỗ trợ chấm bài và xây dựng.

Võ Liên - Như Quỳnh