Kể từ khi trí tuệ nhân tạo tạo sinh (Generative Artificial Intelligence – Gen-AI) ra đời vào năm 2023, nhiều tranh luận đã nổ ra xoay quanh những tác động mang tính cách mạng của công nghệ này đối với giáo dục. Salman Khan (2024: 39-41) đã đưa ra một viễn cảnh đầy lạc quan, xem AI như một “trợ giảng” có khả năng tạo ra các “gia sư cá nhân hóa” thích ứng với nhu cầu học tập của từng học sinh, đồng thời cung cấp phản hồi cụ thể, kịp thời. Cách tiếp cận này mở rộng cơ hội tiếp cận giáo dục cho những học sinh thiếu điều kiện học tập thuận lợi hoặc không có giáo viên đủ năng lực hỗ trợ.
Tại Singapore, Bộ Giáo dục đã tích hợp các tính năng AI vào Singapore Student Learning Space (SLS) – nền tảng học tập trực tuyến được sử dụng trên toàn quốc. Các tính năng nổi bật gồm:
- Learning Assistant – trợ lý học tập dưới dạng chatbot có thể tùy chỉnh;
- Hệ thống học tập thích ứng thí điểm cho môn Toán và Địa lý;
- Feedback Assistant – công cụ phản hồi tự động, chấm điểm dựa trên “ngữ cảnh gợi ý” của giáo viên;
- Data Assistant – công cụ phân tích và tổng hợp phản hồi của học sinh.
Những công cụ này mang lại nhiều lợi ích, đặc biệt trong việc tăng cường tính tương tác và hỗ trợ học tập cá nhân hóa. Chẳng hạn, chatbot có thể mô phỏng các nhân vật lịch sử để học sinh nhập vai và đối thoại, giúp việc học trở nên sinh động hơn. Hệ thống học tập thích ứng, dù hiện chưa được áp dụng cho môn Lịch sử, có tiềm năng điều chỉnh nội dung dựa trên năng lực và nhu cầu của người học, qua đó thu hẹp khoảng cách và hỗ trợ dạy học phân hóa.
Về lâu dài, Bill Gates dự đoán rằng AI có thể thay thế nhiều vai trò hiện do giáo viên đảm nhiệm trong vòng một thập kỷ tới, khi các hệ thống dạy kèm dựa trên AI trở nên phổ biến (Huddleston, 2025). Trước đó, nhà sử học Anthony Seldon cũng từng nêu quan điểm tương tự, cho rằng “máy thông minh” sẽ bắt đầu thay thế giáo viên trong lớp học trong vòng mười năm (von Radowitz, 2017).
Tuy nhiên, nhận định cho rằng AI có thể thay thế giáo viên đã bỏ qua những giới hạn cố hữu của các hệ thống này, đặc biệt là các mô hình ngôn ngữ lớn (Large Language Models – LLMs) khi áp dụng vào giảng dạy Lịch sử. Lịch sử không chỉ là tập hợp các dữ kiện có thể được truy xuất và tái sắp xếp bằng thuật toán. Đây là một ngành học dựa trên tư duy phản biện, hiểu biết bối cảnh và khả năng đồng cảm với sự phức tạp của trải nghiệm con người. Không giống như các nhà sử học, AI không thực sự hiểu các tư liệu mà nó xử lý; nó chỉ nhận diện các mẫu thống kê và tạo ra những tường thuật có vẻ hợp lý mà không nắm bắt được bối cảnh, thiên kiến và sắc thái tinh tế – những yếu tố thiết yếu để nghiên cứu và hiểu quá khứ một cách có ý nghĩa.
Những giới hạn cố hữu của các mô hình ngôn ngữ lớn (LLMs)
Trong số các hệ thống AI hiện nay, mô hình ngôn ngữ lớn (Large Language Models – LLMs) là nổi bật nhất nhờ khả năng tạo ra văn bản giống như con người, qua đó ảnh hưởng trực tiếp đến cách thức sản xuất và sử dụng nội dung giáo dục. Các mô hình này có thể tạo ra các văn bản và tường thuật lịch sử dựa trên kho dữ liệu khổng lồ. Tuy nhiên, chúng hoạt động bằng cách nhận diện các mẫu và tạo ra “phần tiếp nối hợp lý” của văn bản sẵn có, chứ không thực sự hiểu được bối cảnh, sắc thái hay ý nghĩa tiềm ẩn (Wolfram, 2023). Giới hạn này thường được gọi là hiện tượng “vẹt ngẫu nhiên” (stochastic parrot), trong đó LLMs tạo ra những văn bản có vẻ mạch lạc nhưng không có sự hiểu biết thực sự và thiếu “ý định giao tiếp” đặc trưng của con người (Bender và cộng sự, 2021: 616).
Hơn nữa, các hệ thống này thiếu năng lực nhận thức mối quan hệ nhân – quả. Chomsky và cộng sự (2023) chỉ ra rằng các LLMs về bản chất không thể phân biệt giữa các mối quan hệ tương quan và nhân quả. Chúng có thể mô tả và dự đoán dựa trên các mẫu dữ liệu, nhưng không thể giải thích cơ chế nguyên nhân bên dưới. Đây là một hạn chế nghiêm trọng khi áp dụng vào bối cảnh giáo dục, nơi khả năng hiểu mối quan hệ nhân – quả giữ vai trò quan trọng trong việc phát triển tư duy phản biện và thúc đẩy học tập sâu, đặc biệt trong các lĩnh vực đòi hỏi năng lực lập luận nguyên nhân – kết quả như Lịch sử.
Vì dựa trên việc so khớp mẫu xác suất thay vì hiểu biết thực chất, LLMs có thể tạo ra các kết quả không nhất quán, thậm chí “ảo giác” (hallucination) – tức là sản sinh nội dung có vẻ hợp lý nhưng hoàn toàn không được kiểm chứng. Các “ảo giác” này thường xuất hiện dưới dạng số liệu, công trình nghiên cứu hay sự kiện lịch sử bịa đặt nhưng trông có vẻ đáng tin, khiến người đọc khó phát hiện nếu không có quy trình xác minh nghiêm ngặt (Dahl và cộng sự, 2024). Điều này lý giải vì sao các công cụ này không đáng tin cậy trong việc tạo ra các phân tích lịch sử có giá trị học thuật.
Bên cạnh đó, việc thiếu hiểu biết thực tế còn khiến LLMs tái tạo các thiên kiến vốn tồn tại trong dữ liệu huấn luyện. Những thiên kiến này có thể biểu hiện qua các mô tả rập khuôn, sự đối xử bất bình đẳng giữa các nhóm nhân khẩu học, hoặc các diễn giải lịch sử lệch lạc. Emily Bender và cộng sự (2021) cảnh báo rằng việc mở rộng quy mô mô hình mà không giải quyết vấn đề thiên kiến và đạo đức dữ liệu có thể khuếch đại các sai lệch nguy hại.
Một vấn đề nghiêm trọng khác là hiện tượng mà Jeffrey Yost (2023) gọi là “mất ngữ cảnh kép” (dual decontextualisation) – khi AI đồng thời đánh mất ngữ cảnh lịch sử của tài liệu và ngữ cảnh dữ liệu trong nguồn huấn luyện. Điều này khiến các mô hình thường trình bày thông tin lịch sử bị tước bỏ bối cảnh văn hóa, thời gian và tình huống, dẫn đến các mô tả đơn giản hóa hoặc sai lệch, làm suy yếu sự phong phú và chiều sâu của hiểu biết lịch sử. Đồng thời, nguồn gốc của dữ liệu huấn luyện – như thời gian, địa điểm, tác giả và hoàn cảnh tạo ra – thường bị làm mờ (Bender và cộng sự, 2021: 615). Huang và Chang (2024) cho rằng việc huấn luyện trên khối lượng dữ liệu khổng lồ, đến từ nhiều nguồn không đồng nhất, làm mất khả năng truy xuất và gắn nhãn nguồn gốc. Từ đó, các thông tin then chốt như ngày xuất bản, tính thẩm quyền của nguồn và đối tượng người đọc thường bị thất lạc trong quá trình tiền huấn luyện. Hệ quả là, các mô hình có thể trộn lẫn các tư liệu không thống nhất về thời gian hoặc chủ đề, làm suy giảm độ chính xác và tính liêm chính của diễn giải lịch sử.
Một vấn đề khác liên quan đến nguồn gốc trích dẫn (provenance) phát sinh khi LLMs được yêu cầu cung cấp tài liệu tham khảo. Do là công cụ sinh văn bản xác suất, LLMs tạo ra các chuỗi từ có xác suất cao nhất theo mẫu trong dữ liệu huấn luyện. Khi được yêu cầu đưa ra trích dẫn, mô hình sẽ giả lập hình thức của tài liệu tham khảo, tạo ra tên tác giả, tiêu đề, tạp chí và năm xuất bản có vẻ hợp lý nhưng hoàn toàn hư cấu. Năm 2023, Lim đã chứng minh hiện tượng này khi yêu cầu mô hình tạo nguồn tham khảo cho các cuộc bạo động Maria Hertogh – kết quả là các trích dẫn được tạo ra đều là nguồn giả (Lim, 2023). Dù các mô hình đã được cải thiện, vấn đề này vẫn tồn tại ở nhiều mức độ khác nhau trong các nghiên cứu và báo cáo gần đây.
Để khắc phục phần nào hạn chế về truy xuất nguồn gốc và độ chính xác ngữ cảnh, một phương pháp phổ biến được gọi là Tạo sinh tăng cường truy xuất (Retrieval-Augmented Generation – RAG) đã được phát triển. Phương pháp này cải thiện kết quả của LLMs bằng cách tích hợp cơ sở tri thức bên ngoài như Wikipedia, giúp mô hình dựa vào các nguồn có thể xác minh, thường được trình bày dưới dạng chú thích hoặc siêu liên kết. Các chatbot phổ biến như Perplexity.ai, Gemini và ChatGPT đều sử dụng RAG để liên kết kết quả đầu ra với siêu dữ liệu trực tuyến, nhằm tăng khả năng truy xuất và xác minh nguồn.
Tuy nhiên, RAG không giải quyết triệt để các vấn đề vốn có của LLMs, mà chỉ phản chiếu và mở rộng những giới hạn này. Các lỗi ngữ cảnh vẫn có thể xuất hiện khi thông tin truy xuất không phù hợp với biểu diễn nội tại của mô hình hoặc với mục đích của người dùng, dẫn đến sai lệch giữa nguồn và kết quả đầu ra. Ngoài ra, trong quá trình truy xuất và tích hợp, các sắc thái ngữ nghĩa quan trọng có thể bị lược bỏ, khiến nội dung bị biến dạng – tương tự như việc trích dẫn sai ngữ cảnh (Wong và cộng sự, 2025).
Hiệu quả của RAG cũng phụ thuộc rất lớn vào chất lượng, độ tin cậy và khả năng truy cập của nguồn thông tin. Vì hệ thống này truy xuất mà không xác minh hoặc diễn giải sâu, nên nó kế thừa mọi sai lệch hoặc thiếu sót từ nguồn dữ liệu. Khi các tài liệu được truy xuất thiếu cân bằng, chưa được kiểm chứng hoặc mang định kiến, RAG có thể tăng cường thông tin sai lệch thay vì sửa chữa chúng (Wong và cộng sự, 2025). Việc hạn chế truy cập vào các cơ sở dữ liệu học thuật hoặc chuyên ngành trả phí còn làm gia tăng khoảng trống tri thức, đặc biệt trong các lĩnh vực chuyên sâu như học thuật, pháp lý hay kỹ thuật.
Do đó, mặc dù RAG mang lại khả năng truy xuất nguồn rõ ràng hơn và tạo cảm giác chính xác hơn, nhưng nó vẫn phụ thuộc vào chất lượng và tính sẵn có của nguồn dữ liệu. Hơn nữa, do bản chất xác suất và thiếu hiểu biết ngữ nghĩa thực sự của cả quá trình sinh và truy xuất, RAG vẫn chịu ảnh hưởng của sai lệch ngữ nghĩa và ngữ cảnh.
Tổng thể, dù công nghệ AI như LLMs và RAG đã có nhiều tiến bộ, những giới hạn cố hữu của chúng càng khẳng định vai trò không thể thay thế của giáo dục lịch sử. Những công nghệ này đang tạo ra thách thức lớn cho việc dạy và học lịch sử khi thay đổi cách con người đọc, viết, giảng dạy và hiểu về quá khứ. Chúng thường sử dụng giọng điệu mang tính học thuật, nhưng lại thiếu tính trách nhiệm và nền tảng xác thực của tri thức con người, dễ khiến người đọc chấp nhận thông tin một cách thiếu phản biện và nhân cách hóa mô hình AI. Điều này khuyến khích sự phụ thuộc thụ động vào kết quả nhanh chóng, cản trở quá trình tự nghiên cứu và phản biện.
Một nghiên cứu gần đây của MIT cảnh báo rằng việc lạm dụng AI có thể tạo ra “nợ nhận thức” (cognitive debt) – khi người dùng dần dần phó mặc quá trình tư duy cho máy móc, mất khả năng đánh giá và sáng tạo độc lập (Kosmyna và cộng sự, 2025). Điều này làm suy yếu những lợi ích nhận thức cốt lõi của việc “học và làm sử”, vốn đòi hỏi sự tập trung, phân tích, lập luận phản biện và tổng hợp đa chiều các bối cảnh lịch sử. Những hoạt động đó kích thích các chức năng điều hành của não bộ như trí nhớ làm việc, linh hoạt nhận thức và khả năng đánh giá – nền tảng cho tư duy bậc cao, được củng cố qua thực hành lịch sử.
Ngoài khía cạnh nhận thức, LLMs còn làm mờ nguồn gốc và ý đồ của tư liệu lịch sử, biến những nguồn phong phú và gắn với bối cảnh thành các mẫu ngôn ngữ phẳng, khiến người học mất khả năng hiểu được động cơ, tư duy và hoàn cảnh của nhân vật lịch sử. Với học sinh, những tường thuật bị phi ngữ cảnh hóa này chỉ mang đến cái nhìn hời hợt, làm xói mòn năng lực hiểu biết lịch sử mang tính phản biện và đồng cảm.
Hệ quả sâu xa hơn là việc nội dung do AI tạo ra, dù thuyết phục nhưng không đáng tin cậy, lại khuyến khích tiêu thụ thông tin thụ động thay vì tư duy chủ động và điều tra học thuật. Trong bối cảnh đó, giáo dục lịch sử trở nên thiết yếu hơn bao giờ hết, không chỉ để duy trì tính chuẩn xác trong diễn giải, mà còn để bồi dưỡng năng lực tư duy phản biện, nhận thức bối cảnh và khả năng gắn kết ý nghĩa với quá khứ – những phẩm chất không thể thay thế trong kỷ nguyên tri thức thuật toán.
Giáo viên Lịch sử dịch
(Nguồn: Mathew Lim, Rethinking History Education in the Age of AI)