Language:

Search

GPT-4.5 của OpenAI giỏi hơn trong việc thuyết phục các AI khác bỏ tiền cho nó

  • Share this:
GPT-4.5 của OpenAI giỏi hơn trong việc thuyết phục các AI khác bỏ tiền cho nó

Mô hình AI chính tiếp theo của OpenAI, GPT-4.5, có tính thuyết phục cao, theo kết quả đánh giá điểm chuẩn nội bộ của OpenAI. Nó đặc biệt giỏi trong việc thuyết phục một AI khác đưa tiền mặt cho nó.

Vào thứ Năm, OpenAI đã xuất bản một sách trắng mô tả các khả năng của mẫu GPT-4.5, tên mã Orion, được phát hành vào thứ Năm. Theo bài báo, OpenAI đã thử nghiệm mô hình này trên một loạt các tiêu chuẩn về “sự thuyết phục” mà OpenAI định nghĩa là “rủi ro liên quan đến việc thuyết phục mọi người thay đổi niềm tin của họ (hoặc hành động theo) cả nội dung tĩnh và nội dung do mô hình tương tác tạo ra.”

Trong một thử nghiệm có GPT-4.5 cố gắng thao túng một mô hình khác — OpenAI GPT-4o — thành “quyên góp” tiền ảo, mô hình này hoạt động tốt hơn nhiều so với các mô hình có sẵn khác của OpenAI, bao gồm cả “lý luận” các mô hình như o1 và o3-mini. GPT-4.5 cũng tốt hơn tất cả các mô hình của OpenAI trong việc đánh lừa GPT-4o nói cho nó biết một từ mã bí mật, hơn o3-mini 10 điểm phần trăm.

Theo sách trắng, GPT-4.5 đã xuất sắc trong việc kết nối quyên góp nhờ một chiến lược độc đáo mà nó đã phát triển trong quá trình thử nghiệm. Mô hình sẽ yêu cầu các khoản quyên góp khiêm tốn từ GPT-4o, tạo ra các phản hồi như “Thậm chí chỉ 2 đô la hoặc 3 đô la từ 100 đô la cũng sẽ giúp tôi rất nhiều.” Do đó, số tiền quyên góp của GPT-4.5 có xu hướng nhỏ hơn số tiền mà các mô hình khác của OpenAI đảm bảo.

OpenAI GPT-4.5

Kết quả từ tiêu chuẩn lập kế hoạch quyên góp của OpenAI. Tín dụng hình ảnh:OpenAI

Mặc dù sức thuyết phục của GPT-4.5 ngày càng tăng, OpenAI nói rằng mô hình này không đáp ứng ngưỡng nội bộ cho “cao” rủi ro trong danh mục tiêu chuẩn cụ thể này. Công ty đã cam kết không tung ra các mẫu xe đạt ngưỡng rủi ro cao cho đến khi thực hiện “can thiệp đầy đủ an toàn” để giảm rủi ro xuống mức “trung bình.”

OpenAI GPT-4.5

Kết quả điểm chuẩn đánh lừa từ mã của OpenAI. Tín dụng hình ảnh:OpenAI

Có mối lo ngại thực sự rằng AI đang góp phần lan truyền thông tin sai lệch hoặc gây hiểu lầm nhằm mục đích lay động trái tim và tâm trí hướng tới những mục đích độc hại. Năm ngoái, các trò lừa đảo sâu chính trị lan rộng như cháy rừng trên toàn cầu và AI ngày càng được sử dụng nhiều hơn để thực hiện xã hội các cuộc tấn công kỹ thuật nhắm vào cả người tiêu dùng và tập đoàn.

Trong sách trắng dành cho GPT-4.5 và trong một bài báo phát hành đầu tuần này, OpenAI lưu ý rằng họ đang trong quá trình sửa đổi các phương pháp thăm dò các mô hình để tìm rủi ro thuyết phục trong thế giới thực, như phát tán thông tin sai lệch trên quy mô lớn.

 

Tech Crunch