Giáo dục

Từ luận văn tốt nghiệp, sinh viên Bách khoa đưa nghiên cứu AI lên tạp chí Q1

Võ Liên - Như Quỳnh 21/04/2026 - 12:22

Từ một luận văn tốt nghiệp, sinh viên Trường Đại học Bách Khoa, ĐHQG TP.HCM đề xuất kỹ thuật giúp AI (trí tuệ nhân tạo) trả lời trắc nghiệm ổn định hơn, đề xuất này vừa được đăng tải trên tạp chí quốc tế Q1.

Một nghiên cứu xuất phát từ luận văn đại học của thầy và trò khoa Khoa học và Kỹ thuật Máy tính, Trường Đại học Bách khoa, ĐHQG TP.HCM sau nhiều vòng phản biện và chỉnh sửa liên tục, đã được chấp nhận công bố trên tạp chí quốc tế hàng đầu về trí tuệ nhân tạo trong giáo dục. Đây là một kết quả đặc biệt mà chính nhóm tác giả cũng không ngờ tới.

nhom-nghien-cuu.png
Nhóm tác giả thực hiện công trình.

Hơn hai năm kiên trì qua nhiều vòng phản biện

Công trình tập trung vào việc đề xuất một kỹ thuật viết lời nhắc (prompting) mới có tên Single-Token Logit (STL), nhằm nâng cao độ chính xác và tính ổn định của các mô hình ngôn ngữ lớn (LLM) khi tự động trả lời câu hỏi trắc nghiệm (MCQ).

Bài báo có tựa đề: "Enhancing Large Language Model Performance for Automatic Zero-Shot Multiple- Choice Question Answering via Single-Token Logit Prompting" (Nâng cao khả năng trả lời câu hỏi trắc nghiệm tự động của mô hình ngôn ngữ lớn bằng kỹ thuật nhắc lệnh Single-Token Logit).

nhom-nghien-cuu-2.jpg
Nhóm nghiên cứu: Nguyễn Song Thiên Long, Trần Trương Tuấn Phát và Võ Thị Như Quỳnh.

Nhóm tác giả gồm Đặng Phú Quốc (cựu sinh viên Trường Đại học Bách khoa, đồng tác giả chính), Trần Trương Tuấn Phát (giảng viên Trường Đại học Bách khoa, đồng tác giả chính), TS Vũ Đức Lý (giảng viên Trường Đại học Quốc tế Miền Đông), Nguyễn Song Thiên Long và Võ Thị Như Quỳnh (sinh viên năm ba Trường Đại học Bách khoa). Công trình với sự hướng dẫn của PGS.TS Quản Thành Thơ – Trưởng khoa Khoa học và Kỹ thuật Máy tính, Trường Đại học Bách khoa, ĐHQG TP.HCM.

Tác giả Đặng Phú Quốc chia sẻ, với điểm khởi đầu là luận văn tốt nghiệp đại học của bản thân, nhóm không đặt tham vọng công trình sẽ được công bố trên tạp chí thứ hạng cao.

"Mục tiêu khiêm tốn chỉ là giải quyết tốt một bài toán nghiên cứu về LLM", Quốc nói.

Sau khoảng hai năm bốn tháng kể từ khi bắt tay nghiên cứu, đến tháng 3/2026, công trình đã được đăng trên tạp chí Computers and Education: Artificial Intelligence. Đây là tạp chí mở của Elsevier, hiện xếp hạng Q1, đứng đầu lĩnh vực trí tuệ nhân tạo (Artificial Intelligence), hạng 2 lĩnh vực giáo dục (Education), hạng 3 lĩnh vực Khoa học máy tính ứng dụng (Computer Science Applications), theo SCImago.

Nhìn lại, nhóm tác giả càng thấy rõ việc chạm tới một công bố quốc tế uy tín là hành trình đầy khó khăn. Thử thách không chỉ đến từ việc đảm bảo chất lượng và giá trị học thuật của công trình, mà còn đòi hỏi sự kiên nhẫn và niềm đam mê lớn từ mỗi thành viên.

Cũng theo tác giả Trần Trương Tuấn Phát, nhóm đã trải qua nhiều vòng phản biện kín hai chiều. Có những lần chuyên gia phản biện từ chối ý tưởng, nhưng ở vòng tiếp theo, sau khi đọc thư trả lời và bản thảo đã chỉnh sửa, họ đã thay đổi ý kiến sang quyết định chấp nhận hoặc bày tỏ sự cân nhắc tích cực. Mỗi vòng phản biện đều yêu cầu những cải tiến đáng kể như bổ sung thí nghiệm, làm rõ cách diễn giải, củng cố định hướng nghiên cứu và tái cấu trúc bản thảo.

Giải pháp đánh giá từng đáp án độc lập

Nghiên cứu tập trung vào cải thiện khả năng của các mô hình ngôn ngữ lớn mã nguồn mở như LLaMA, DeepSeek hay Mistral khi xử lý câu hỏi trắc nghiệm một cách tự động mà không cần hướng dẫn cụ thể (zero-shot).

Theo nhóm tác giả, chỉ cần thay đổi thứ tự sắp xếp các đáp án A, B, C, D - dù nội dung câu hỏi hoàn toàn giữ nguyên - mô hình có thể đưa ra kết quả khác nhau. Điều này cho thấy LLM chưa thực sự "hiểu" câu hỏi trắc nghiệm.

Nguyên nhân nằm ở bản chất của LLM, các mô hình này được tối ưu để dự đoán token tiếp theo, khiến chúng dễ bị ảnh hưởng bởi vị trí hoặc nhãn của đáp án thay vì thực sự đánh giá ngữ nghĩa. Hiện tượng này được gọi là giới hạn Multiple-Choice Symbol Binding (MCSB), làm giảm đáng kể độ tin cậy của LLM khi ứng dụng trong giáo dục như chấm bài hay xây dựng ngân hàng câu hỏi.

cong-trinh.png
Công trình được đăng trên tạp chí Computers and Education: Artificial Intelligence (Elsevier) xếp hạng Q1, đứng đầu về lĩnh vực giáo dục. Ảnh chụp màn hình

Từ hạn chế này, nhóm đề xuất kỹ thuật Single-Token Logit (STL), một chiến lược viết lời nhắc (prompting) thay đổi cách mô hình tiếp cận bài toán trắc nghiệm. Thay vì trình bày tất cả đáp án cùng lúc và yêu cầu chọn A, B, C hay D, kỹthuật STL tách riêng từng đáp án, ghép với câu hỏi và hỏi mô hình theo dạng có/không: đáp án này có đúng không? Quyết định cuối cùng dựa trên xác suất của token “yes” tại mỗi lượt đánh giá.

“Cơ chế này giúp mô hình xác minh từng lựa chọn một cách độc lập, không bị chi phối bởi vị trí hay nhãn đáp án, qua đó khắc phục trực tiếp hạn chế MCSB”, Tuấn Phát chỉ ra ưu điểm trong cách tiếp cận mới này.

Bên cạnh đó, nhóm còn tích hợp kỹ thuật Retrieval- Augmented Generation (RAG), cho phép mô hình truy xuất kiến thức bổ sung từ nguồn dữ liệu bên ngoài nhằm tăng độ chính xác của thông tin phù hợp với từng ngữ cảnh cũng như kiểm tra độ ổn định của giải pháp trong nhiều điều kiện khác nhau.

PGS.TS Quản Thành Thơ - Trưởng khoa Khoa học và Kỹ thuật Máy tính, ĐHQG TP.HCM - nhìn nhận công bố lần này không chỉ đóng góp xuất sắc về mặt giá trị học thuật đối với các nghiên cứu trong lĩnh vực LLM, mà còn là dấu mốc ấn tượng trên chặng đường nghiên cứu khoa học của nhóm tác giả.

Ở góc độ học thuật, PGS.TS Thơ nhấn mạnh rằng nghiên cứu gợi mở một góc nhìn đáng chú ý, cải thiện độ tin cậy của mô hình AI không nhất thiết đòi hỏi mô hình lớn hơn hay kiến trúc phức tạp hơn. Đôi khi, một thay đổi nhỏ trong cách thiết kế prompt có thể tạo ra sự khác biệt lớn khi triển khai trong thực tế.

Để kiểm chứng hiệu quả của kỹ thuật STL, nhóm đã đánh giá toàn diện trên ba bộ dữ liệu khoa học chuẩn (ARC, OpenBookQA và SciQ) trong nhiều điều kiện ngữ cảnh khác nhau. Kết quả cho thấy STL đạt kết quả ngang bằng hoặc vượt trội so với các phương pháp phổ biến, bao gồm cả Chain-of-Thought (CoT), với mức cải thiện lên đến 11 điểm phần trăm ở một số cấu hình - trong khi chi phí tính toán thấp hơn đáng kể.

Về ứng dụng, kỹ thuật STL có thể hỗ trợ giáo viên rà soát chất lượng đề thi, tự động gợi ý đáp án cho câu hỏi chưa có đáp án, hỗ trợ chấm bài và xây dựng.

Võ Liên - Như Quỳnh