
1. AI không "hiểu" bạn, nó chỉ đang đoán từ tiếp theo.
Năng lực kỳ diệu của các Mô hình Ngôn ngữ Lớn (LLM) như ChatGPT thực chất đến từ một nhiệm vụ cốt lõi: dự đoán từ hợp lý nhất để điền vào chỗ trống tiếp theo trong một câu. Nó không phải là một thực thể có khả năng tư duy, thấu cảm hay nhận thức.
Để thấy rõ bản chất này, hãy nhớ lại thời kỳ sơ khai khi ChatGPT thậm chí không thể đếm được có bao nhiêu chữ 'R' trong từ "Strawberry", và liên tục khẳng định là có hai chữ. Nó thất bại vì trong kho dữ liệu khổng lồ của mình, các văn bản thảo luận về 'dâu tây' có thể vô tình chứa hai chữ 'R' trong các từ liên quan, hoặc đơn giản là nó chưa bao giờ được huấn luyện để 'nhìn' và 'đếm' các ký tự theo đúng nghĩa đen. Nó chỉ đơn thuần "đoán một cách mù quáng" dựa trên hàng tỷ dữ liệu đã học. Tương tự, nếu bạn thất tình và tìm đến AI để được an ủi, khi nó nói "tôi hiểu cảm giác của bạn", nó hoàn toàn không hiểu nỗi đau của bạn. Nó chỉ đang dự đoán rằng những từ đó là phù hợp nhất để đáp lại trong hoàn cảnh này. Hiểu rõ bản chất "dự đoán" này là chìa khóa để chúng ta sử dụng công cụ một cách hiệu quả và bớt đi những kỳ vọng thiếu thực tế.
Nhưng chính bản chất 'đoán mò' này, khi chưa bị 'thuần hóa', lại ẩn chứa một sức mạnh sáng tạo đáng kinh ngạc...
2. Phiên bản AI "thô sơ" có thể sáng tạo hơn cả ChatGPT.
Khi một LLM hoàn thành giai đoạn huấn luyện ban đầu (pre-training) trên một kho dữ liệu khổng lồ, sản phẩm tạo ra được gọi là "Base Model" (mô hình gốc). Mô hình này chỉ có một khả năng duy nhất là dự đoán từ tiếp theo và hoàn toàn chưa thể tuân theo mệnh lệnh của người dùng. Nếu bạn đưa ra một câu lệnh đơn giản như "2+2=?" cho một base model, nó có thể trả về một đống ký tự kỳ lạ thay vì con số 4.
Tuy nhiên, một ý tưởng phản trực giác đang ngày càng được chú ý. Chuyên gia Andrej Karpathy, cựu Giám đốc AI tại Tesla, cho rằng:
base models thực ra rất mạnh và sáng tạo hơn so với Instruct Models bởi chúng chưa bị giới hạn bởi bất kỳ tinh chỉnh nào.
Điều này thật đáng ngạc nhiên. Bởi vì các base model chỉ tập trung duy nhất vào việc dự đoán từ tiếp theo mà không bị ràng buộc bởi các quy tắc "hữu ích" hay "vô hại", không gian xác suất của chúng rộng hơn rất nhiều. Điều này cho phép chúng tạo ra những liên kết mới lạ, bất ngờ và đôi khi vô nghĩa – chính là định nghĩa của sự sáng tạo thuần khiết. Các mô hình gốc này giống như những bộ óc thiên tài nhưng hoang dã, chứa đựng những tiềm năng chưa được khai phá mà các phiên bản tinh chỉnh đã vô tình lược bỏ trong quá trình "thuần hóa".
Vậy làm thế nào để "thuần hóa" một bộ óc hoang dã như vậy? Câu trả lời còn thú vị hơn bạn tưởng.
3. Để dạy AI, con người tạo ra một AI khác... chuyên đóng giả con người.
Một trong những bước tiến lớn nhất của AI đến từ kỹ thuật Học tăng cường từ phản hồi của con người (RLHF). Nhưng nó hoạt động như thế nào? Với những trò chơi như cờ vây, việc thắng hay thua là một tín hiệu phản hồi rõ ràng. Nhưng với ngôn ngữ, làm sao để AI biết một câu trả lời là "tốt" hay "tệ" khi không có đúng/sai tuyệt đối?
Chẳng lẽ chúng ta phải thuê người ngồi đánh giá hàng trăm nghìn câu trả lời của AI? Điều đó là bất khả thi. Thay vào đó, các chuyên gia đã tạo ra một giải pháp thiên tài: họ huấn luyện một AI khác gọi là "reward model" (mô hình phần thưởng). Đầu tiên, con người sẽ xếp hạng một loạt các câu trả lời do AI tạo ra, từ tốt nhất đến tệ nhất. Dựa trên dữ liệu này, "reward model" sẽ học cách mô phỏng sở thích và cách đánh giá của con người. Về cơ bản, nó học cách đóng giả một giám khảo con người. Sau khi được huấn luyện, chính "reward model" này sẽ trở thành "giáo viên", tự động chấm điểm và đưa ra phản hồi cho mô hình chính, giúp nó tạo ra những câu trả lời mà con người yêu thích. Đây chính là một ví dụ điển hình của việc "AI dạy AI".
Quá trình học ba bước này của AI – từ tích lũy kiến thức nền, học theo ví dụ, đến tự luyện tập với phản hồi – lại chính là một tấm gương phản chiếu đáng kinh ngạc cho việc học của chính chúng ta.
4. Quy trình huấn luyện AI là tấm gương cho việc học của chính chúng ta.
Chuyên gia Andrej Karpathy đã đưa ra một phép so sánh sâu sắc giữa quá trình huấn luyện LLM và việc học của con người qua một cuốn sách giáo khoa:
- Pre-training (Huấn luyện ban đầu): Giống như đọc các chương lý thuyết trong sách để xây dựng kiến thức nền tảng.
- Supervised Fine-Tuning (SFT - Tinh chỉnh có giám sát): Giống như xem các bài tập mẫu có lời giải chi tiết để hiểu cách áp dụng kiến thức.
- Reinforcement Learning (RL - Học tăng cường): Giống như tự làm các bài tập ở cuối chương để thực hành, nhận phản hồi (đúng/sai) và biến kiến thức thành của mình.
Từ sự tương đồng này, chúng ta có thể rút ra hai bài học quan trọng cho việc học của chính mình:
Tầm quan trọng của bài giải mẫu: Nhiều người tin rằng phải "tự mày mò" từ đầu mới thực sự hiểu. Tuy nhiên, các nghiên cứu cho thấy việc xem hướng dẫn chi tiết (direct instruction) trước khi tự giải quyết vấn đề mang lại hiệu quả cao hơn rất nhiều, đặc biệt với người mới bắt đầu.
Sức mạnh của "Tập luyện có chủ đích" (Deliberate Practice): Việc luyện tập chỉ thực sự hiệu quả khi có phản hồi, giống như AI cần "reward model" để biết nó làm đúng hay sai. Thay vì chỉ lặp lại những gì mình đã giỏi, hãy tập trung vào việc cải thiện những điểm yếu cụ thể dựa trên những phản hồi rõ ràng.
Hiểu được cách chọn phương pháp học đúng đắn cũng quan trọng như việc chọn đúng công cụ AI cho từng nhiệm vụ.
5. Dùng AI "xịn" nhất không phải lúc nào cũng tốt nhất.
Gần đây, một loại mô hình chuyên biệt được gọi là "Reasoning Models" (mô hình lý luận) đang gây chú ý vì khả năng suy nghĩ từng bước (Chain-of-Thought) để giải quyết các vấn đề phức tạp. Những cái tên nổi bật trong nhóm này bao gồm GPT-4 Mini, Gemini 1.5 Pro, và Deepsource R1. Tuy nhiên, một sự thật đáng ngạc nhiên là việc sử dụng chúng cho mọi tác vụ không phải lúc nào cũng là lựa chọn tốt nhất.
Đối với các công việc đơn giản như tóm tắt tài liệu, dịch thuật, hay hỏi các câu hỏi thuần kiến thức, việc sử dụng các reasoning models chuyên dụng có thể tốn thời gian hơn và đôi khi còn "dễ sai hơn vì model overthinking" (suy nghĩ quá mức).
Vì vậy, lời khuyên thực tế là hãy phân biệt rõ ràng:
- Khi nào nên dùng các mô hình flagship đa dụng: Sử dụng cho khoảng 80% các tác vụ hàng ngày, thuần về kiến thức, tóm tắt, dịch thuật, viết lách sáng tạo. Đây là những "con dao đa năng Thụy Sĩ" mạnh mẽ và hiệu quả.
- Khi nào nên dùng Reasoning Models chuyên biệt: Dành cho các tác vụ đòi hỏi tư duy phức tạp, lập trình, phân tích dữ liệu nghiên cứu khoa học, hay giải các bài toán logic nhiều bước. Đây là những "dụng cụ chuyên khoa" cần thiết cho những vấn đề hóc búa nhất.
Từ việc chỉ là một cỗ máy đoán từ, được 'thuần hóa' bởi một AI khác, và học theo cách của con người, chúng ta thấy rằng AI không phải là ma thuật. Nó là một tấm gương phản chiếu chính quy trình tư duy, sáng tạo và cả những giới hạn của chúng ta. Hiểu được nó chính là hiểu thêm về chính mình. Khi đã hiểu cách AI "học", bạn sẽ thay đổi cách học của chính mình như thế nào để không bị "tối cổ" trong tương lai?