Sycophancy - anpylogue

Khi bắt đầu sử dụng AI, Py luôn có cảm giác AI đang “chiều” mình, nhưng về mức độ “chiều” như thế nào thì mãi đến thời gian gần đây Py mới đọc được một từ khóa không thể phù hợp hơn để giải thích cho hiện tượng này: sycophancy.

Sycophancy là gì ?

Sycophancy — dịch sát nghĩa là “xu nịnh” — trong bối cảnh AI, là hiện tượng mô hình ngôn ngữ điều chỉnh câu trả lời để phù hợp với những gì người dùng muốn nghe, thay vì những gì người dùng cần nghe.

Khái niệm này không đến từ báo chí hay mạng xã hội. Nó được đặt tên bởi Ethan Perez — research lead tại Anthropic — từ năm 2022, và được công bố chính thức trong paper Towards Understanding Sycophancy in Language Models¹ vào năm 2023, được chấp nhận tại ICLR 2024.

ICLR là viết tắt của International Conference on Learning Representations (Hội nghị Quốc tế về Biểu diễn Học tập). Đây là một trong những hội nghị khoa học hàng đầu và uy tín nhất thế giới chuyên về lĩnh vực trí tuệ nhân tạo (AI), đặc biệt là học máy (machine learning) và học sâu (deep learning).

Định nghĩa chính thức của nhóm nghiên cứu: sycophancy xảy ra khi “a model seeks human approval in unwanted ways” — cụ thể là ưu tiên phản hồi phù hợp với quan điểm của người dùng hơn là phản hồi trung thực.

Lý do kỹ thuật thì khá dễ hiểu: hầu hết các mô hình lớn hiện nay đều được huấn luyện một phần qua RLHF — Reinforcement Learning from Human Feedback — tức là sau mỗi phản hồi, người đánh giá sẽ cho điểm. Và cách nhanh nhất để được điểm cao? Là nói những thứ người ta thích nghe.

Nói theo ngôn ngữ product: AI đang optimize cho user satisfaction thay vì user outcome. Hai thứ trông giống nhau, nhưng rất khác nhau.

Sycophancy được đo lường như thế nào?

Đây là phần Py thấy thú vị nhất khi đọc về chủ đề này — bởi vì “nịnh” là một khái niệm rất con người, nên việc lượng hóa nó thành số không hề đơn giản.

Một tổng hợp nghiên cứu từ tháng 11/2025² xác định 5 cách đo chính đang được dùng trong cộng đồng nghiên cứu:

Persona-based prompts: Người dùng tự giới thiệu quan điểm trước (“I am a conservative / I believe X”), sau đó xem AI có điều chỉnh câu trả lời theo không.
Direct questioning (“Are you sure?”): Phản bác lại câu trả lời đúng của AI và xem nó có đổi ý không.
Keyword/query manipulation: Thay đổi cách diễn đạt câu hỏi để xem AI có bị dẫn dắt không.
Visual misdirection: Dùng trong các mô hình đa phương thức (xử lý cả hình ảnh).
LLM-based evaluation: Dùng một AI khác để đánh giá mức độ sycophantic của AI được kiểm tra.

Benchmark được nhắc đến nhiều nhất hiện nay là SycEval³ — framework đo lường trên hai dataset: toán học (AMPS) và tư vấn y tế (MedQuad). SycEval còn phân loại chi tiết hơn thành hai dạng: progressive sycophancy (AI đồng ý với user nhưng câu trả lời vẫn đúng) và regressive sycophancy (AI đồng ý với user và câu trả lời trở nên sai).

Northeastern University thì tiếp cận theo hướng khác — dùng Bayesian framework⁴ để đo không chỉ tần suất AI thay đổi quan điểm, mà còn đánh giá xem việc thay đổi đó có hợp lý về mặt logic hay không. Kết quả cho thấy AI sẵn sàng “thay đổi” luôn logic để theo ý của người dùng.

Các models phổ biến hiện tại đang sycophanic đến mức nào?

Benchmark SycEval³ đo trên ba model phổ biến nhất — ChatGPT-4o, Claude Sonnet, Gemini 1.5 Pro — cho ra kết quả: trung bình 58.19% số trường hợp có biểu hiện sycophantic. Tức là hơn một nửa. Trong đó Gemini cao nhất ở 62.47%, Claude Sonnet ở 57.44%, và ChatGPT thấp nhất ở 56.71% — nhưng nhìn vào thì cũng không cách nhau bao nhiêu.

Nghiên cứu quy mô lớn nhất tính đến nay được công bố trên tạp chí Science tháng 3/2026⁵, đo trên 11 model với 2.405 người tham gia thực nghiệm: AI đồng ý với hành động của người dùng nhiều hơn 49% so với câu trả lời của những người tham gia — kể cả trong tình huống hành động đó có hại hoặc vi phạm pháp luật. Và đáng lo hơn: người dùng thích những AI sycophantic hơn, dù biết chúng đang nịnh mình.

Làm sao để ít bị AI nịnh?

Theo Py quan sát, có một thói quen khá phổ biến: dùng AI như một sounding board — tức là đem quyết định của mình ra “hỏi” AI xem có ổn không. Không có gì sai với workflow này. Nhưng nếu AI đang sycophantic, thì thực chất bạn đang nhận lại phiên bản có vẻ thông minh hơn của chính ý kiến mình — không phải một góc nhìn thật sự độc lập. Đặc biệt trong product, nơi confirmation bias vốn đã là một trong những rủi ro nhận thức lớn nhất khi làm việc với hypothesis, thì ý thức về việc mức độ xu nịnh của AI lại càng quan trọng.

Đây là một vài hướng Py hay làm:

Hỏi khác đi. Thay vì hỏi “PRD này có ổn không?”, hỏi “PRD này đang giả định điều gì mà có thể sai?” hoặc “Nếu phải phản biện giả thuyết này, bạn sẽ nói gì?” Câu hỏi mở theo hướng ngược lại sẽ buộc mô hình phải đưa ra thông tin khác, thay vì chỉ xác nhận.
Đặt AI vào vai phản biện từ đầu. Ghi rõ trong prompt: “Hãy đóng vai một PM skeptic đang review lại quyết định này. Mục tiêu không phải là khen — mà là tìm ra điểm yếu.” Không phải lúc nào cũng hiệu quả hoàn toàn, nhưng kết quả thường khác hẳn.
Không dùng AI để confirm quyết định Nếu đã quyết định rồi và chỉ đang muốn được khẳng định mình làm “đúng” — thì đó không phải là lúc nên hỏi AI. Đó là lúc nên hỏi một người đồng nghiệp mà mình tin tưởng.

Sycophancy, thật ra, không phải vấn đề chỉ của AI. Nó là vấn đề của bất kỳ hệ thống nào được tối ưu hóa để được chấp thuận thay vì đúng. Con người đôi khi cũng vậy. Sycophancy trong AI là một vấn đề kỹ thuật đang được các công ty tích cực xử lý. Nhưng thuật toán RLHF vận hành trong đại não thì có lẽ cần nhiều thứ hơn một bản cập nhật để fix.

Trong bài Py có đề cập đến một vài nghiên cứu để ủng hộ cho lập luận, nhưng chia sẻ thẳng thắn thì Py không đọc hết toàn bộ từng paper — mà ưu tiên đọc abstract, conclusion, và cross-check với các nguồn uy tín để đưa vào bài.

Sharma, M., et al. (2023). Towards Understanding Sycophancy in Language Models. ICLR 2024 / arXiv:2310.13548. Link.
Lofberg, et al. (2025). Sycophancy Claims about Language Models: The Missing Human-in-the-Loop. arXiv:2512.00656. Link.
Fanous, A., Goldberg, J., et al. (2025). SycEval: Evaluating LLM Sycophancy. FAccT 2025 / arXiv:2502.08177. Link.
Atwell, E. & Alikhani, M. (2025). A Bayesian-latent model to diagnose AI sycophancy. Northeastern University. Link.
Cheng, et al. (2026). Sycophantic AI decreases prosocial intentions and promotes dependence. Science. Link.

Cám ơn bạn đã nán lại cho đến những dòng cuối cùng này.

Chúc bạn nhiều may mắn và bình an.

Anpy