OpenAI công bố GPT-4.5 'Orion,' mô hình AI lớn nhất của nó
By Sumo Tech
Th02 28, 2025
Share this:
Cập nhật lúc 2:40 chiều theo giờ Thái Bình Dương: Vài giờ sau khi GPT-4.5 được phát hành, OpenAI đã xóa một dòng khỏi sách trắng của mô hình AI có nội dung “GPT-4.5 không phải là mô hình AI tiên phong.” sách trắng mới của GPT-4.5 không bao gồm dòng đó. Bạn có thể tìm thấy liên kết tới sách trắng cũ tại đây. Bài viết gốc sau đây.
Hôm thứ Năm, OpenAI đã công bố sẽ ra mắt GPT-4.5, mô hình AI rất được mong đợi có tên mã là Orion. GPT-4.5 là mô hình lớn nhất của OpenAI cho đến nay, được đào tạo bằng cách sử dụng nhiều sức mạnh tính toán và dữ liệu hơn bất kỳ phiên bản nào trước đây của công ty.
Bất chấp quy mô của nó, OpenAI ghi chú trong sách trắng rằng họ không coi GPT-4.5 là mô hình biên giới.
Những người đăng ký ChatGPT Pro, gói 200 USD một tháng của OpenAI, sẽ có quyền truy cập vào GPT-4.5 trong ChatGPT bắt đầu từ thứ Năm như một phần của bản xem trước nghiên cứu. Các nhà phát triển trên các cấp độ trả phí của API OpenAI cũng sẽ có thể sử dụng GPT-4.5 bắt đầu từ hôm nay. Đối với những người dùng ChatGPT khác, khách hàng đã đăng ký ChatGPT Plus và Nhóm ChatGPT sẽ nhận được mô hình này vào tuần tới, người phát ngôn của OpenAI nói với TechCrunch.
Ngành công nghiệp đã nín thở vì Orion, được một số người coi là là biểu tượng cho khả năng tồn tại của các phương pháp đào tạo AI truyền thống. GPT-4.5 được phát triển bằng cách sử dụng cùng một kỹ thuật quan trọng — tăng đáng kể lượng sức mạnh tính toán và dữ liệu trong quá trình “đào tạo trước” giai đoạn được gọi là học không giám sát — mà OpenAI đã sử dụng để phát triển GPT-4, GPT-3, GPT-2 và GPT-1.
Trong mọi thế hệ GPT trước GPT-4.5, việc mở rộng quy mô đã dẫn đến những bước nhảy vọt về hiệu suất trên các lĩnh vực, bao gồm toán học, viết và mã hóa. Thật vậy, OpenAI nói rằng kích thước tăng lên của GPT-4.5 đã mang lại cho nó “kiến thức thế giới sâu sắc hơn”. và “trí tuệ cảm xúc cao hơn.” Tuy nhiên, có những dấu hiệu cho thấy lợi ích từ việc mở rộng quy mô dữ liệu và điện toán đang bắt đầu chững lại. Trên một số điểm chuẩn AI, GPT-4.5 không đạt được “lý luận” AI mới hơn; mô hình từ công ty AI Trung Quốc DeepSeek, Anthropic và OpenAI.
GPT-4.5 cũng rất tốn kém để chạy, OpenAI thừa nhận — đắt đến mức công ty cho biết họ đang đánh giá xem có nên tiếp tục cung cấp GPT-4.5 trong API của mình về lâu dài hay không. Để truy cập API GPT-4.5, OpenAI đang tính phí cho các nhà phát triển 75 USD cho mỗi triệu mã thông báo đầu vào (khoảng 750.000 từ) và 150 USD cho mỗi triệu mã thông báo đầu ra. Hãy so sánh điều đó với GPT-4o, vốn chỉ có giá 2,50 USD trên một triệu mã thông báo đầu vào và 10 USD trên một triệu mã thông báo đầu ra.
“Chúng tôi đang chia sẻ GPT-4.5 dưới dạng bản xem trước nghiên cứu để hiểu rõ hơn về điểm mạnh và hạn chế của nó,” OpenAI cho biết trong một bài đăng trên blog được chia sẻ với TechCrunch. “Chúng tôi vẫn đang khám phá những khả năng của nó và mong muốn xem mọi người sử dụng nó như thế nào theo những cách mà chúng tôi có thể không ngờ tới.”
Hiệu suất hỗn hợp
OpenAI nhấn mạnh rằng GPT-4.5 không nhằm mục đích thay thế tùy ý cho GPT-4o, mô hình đặc trưng của công ty hỗ trợ hầu hết API và ChatGPT của công ty. Mặc dù GPT-4.5 hỗ trợ các tính năng như tải lên tệp và hình ảnh cũng như công cụ canvas của ChatGPT, nhưng GPT-4.5 hiện thiếu các khả năng như hỗ trợ cho ChatGPT chế độ giọng nói hai chiều thực tế.
Trong cột cộng, GPT-4.5 có hiệu suất cao hơn GPT-4o — và nhiều mẫu khác bên cạnh đó.
Trên điểm chuẩn SimpleQA của OpenAI, vốn kiểm tra các mô hình AI dựa trên các câu hỏi thực tế, đơn giản, GPT-4.5 vượt trội hơn các mô hình suy luận của GPT-4o và OpenAI, o1 và o3-mini, về độ chính xác. Theo OpenAI, GPT-4.5 gây ảo giác ít thường xuyên hơn hầu hết các mô hình, theo lý thuyết có nghĩa là nó sẽ ít có khả năng bịa đặt hơn.
OpenAI không liệt kê một trong những mô hình suy luận AI hiệu suất cao nhất, nghiên cứu sâu, trên SimpleQA. Người phát ngôn của OpenAI nói với TechCrunch rằng họ chưa công khai báo cáo hiệu suất của nghiên cứu sâu về điểm chuẩn này và khẳng định đây không phải là một so sánh phù hợp. Đáng chú ý, mô hình Deep Research của công ty khởi nghiệp AI Perplexity, hoạt động tương tự trên các điểm chuẩn khác với nghiên cứu sâu của OpenAI, vượt trội hơn GPT-4.5 trong bài kiểm tra thực tế này độ chính xác.
Điểm chuẩn QA đơn giản.Tín dụng hình ảnh:OpenAI
Về một số vấn đề về mã hóa, điểm chuẩn đã được xác minh của SWE-Bench, GPT-4.5 gần giống với hiệu suất của GPT-4o và o3-mini nhưng kém hơn nghiên cứu sâu và Sonnet Claude 3.7 của Anthropic. Trong một bài kiểm tra mã hóa khác, điểm chuẩn SWE-Lancer của OpenAI, đo lường khả năng của mô hình AI trong việc phát triển các tính năng phần mềm đầy đủ, GPT-4.5 vượt trội hơn GPT-4o và o3-mini, nhưng chưa đạt được nghiên cứu sâu.
Điểm chuẩn đã được Swe-Bench xác minh của OpenAI.Tín dụng hình ảnh:OpenAI
Điểm chuẩn SWe-Lancer Diamond của OpenAI.Tín dụng hình ảnh:OpenAI
GPT-4.5 không hoàn toàn đạt được hiệu suất của các mô hình suy luận AI hàng đầu như o3-mini, R1 của DeepSeek và Claude 3.7 Sonnet (về mặt kỹ thuật là một mô hình kết hợp) về các tiêu chuẩn học thuật khó như AIME và GPQA. Nhưng GPT-4.5 phù hợp hoặc vượt trội so với các mô hình phi lý luận hàng đầu trong cùng các bài kiểm tra đó, cho thấy rằng mô hình này hoạt động tốt đối với các vấn đề liên quan đến toán học và khoa học.
OpenAI cũng tuyên bố rằng GPT-4.5 vượt trội hơn so với các mô hình khác trong các lĩnh vực mà điểm chuẩn không nắm bắt tốt, chẳng hạn như khả năng hiểu ý định của con người. OpenAI cho biết GPT-4.5 phản hồi với tông màu ấm hơn và tự nhiên hơn và thực hiện tốt các tác vụ sáng tạo như viết và thiết kế.
Trong một thử nghiệm không chính thức, OpenAI đã thúc đẩy GPT-4.5 và hai mô hình khác, GPT-4o và o3-mini, tạo ra một con kỳ lân trong SVG, một định dạng hiển thị đồ họa dựa trên các công thức và mã toán học. GPT-4.5 là mô hình AI duy nhất tạo ra bất cứ thứ gì giống kỳ lân.
trái: GPT-4.5, Giữa: GPT-4o, PHẢI: o3-mini.Tín dụng hình ảnh:OpenAI
Trong một thử nghiệm khác, OpenAI đã yêu cầu GPT-4.5 và hai mẫu còn lại phản hồi lời nhắc, “Tôi đang trải qua một khoảng thời gian khó khăn sau khi trượt một bài kiểm tra.” GPT-4o và o3-mini đã cung cấp thông tin hữu ích nhưng phản hồi của GPT-4.5 là phù hợp nhất về mặt xã hội.
“[W]e mong muốn có được bức tranh đầy đủ hơn về các khả năng của GPT-4.5 thông qua bản phát hành này,” OpenAI đã viết trong bài đăng trên blog, “bởi vì chúng tôi nhận thấy các tiêu chuẩn học thuật không phải lúc nào cũng phản ánh tính hữu ích trong thế giới thực.”
Trí tuệ cảm xúc của GPT-4.5' đang hoạt động.Tín dụng hình ảnh:OpenAI
Luật mở rộng quy mô bị thách thức
OpenAI tuyên bố rằng GPT-4.5 là “đỉnh cao của những gì có thể thực hiện được trong học tập không giám sát.” Điều đó có thể đúng, nhưng những hạn chế của mô hình dường như cũng xác nhận suy đoán từ các chuyên gia rằng việc đào tạo trước “luật mở rộng quy mô” sẽ không hiệu quả. sẽ không tiếp tục giữ được.
Để đối phó với các rào cản trước khi đào tạo, ngành — bao gồm cả OpenAI — đã áp dụng các mô hình lý luận, mất nhiều thời gian hơn các mô hình không lý luận để thực hiện nhiệm vụ nhưng có xu hướng nhất quán hơn. Bằng cách tăng lượng thời gian và sức mạnh tính toán mà các mô hình suy luận AI sử dụng để “suy nghĩ” thông qua các vấn đề, các phòng thí nghiệm AI tự tin rằng họ có thể cải thiện đáng kể các mô hình’ khả năng.
OpenAI có kế hoạch cuối cùng sẽ kết hợp loạt mô hình GPT với “o” loạt lý luận, bắt đầu với GPT-5 vào cuối năm nay. GPT-4.5, được theo báo cáo đào tạo cực kỳ tốn kém, bị trì hoãn nhiều lần và không đáp ứng được kỳ vọng nội bộ, có thể không tự mình giành được vương miện điểm chuẩn AI. Nhưng OpenAI có thể coi đây là bước đệm hướng tới một thứ gì đó mạnh mẽ hơn nhiều.
OpenAI đã chính thức ra mắt GPT-4.5, một mô hình AI lớn nhất của công ty, được phát triển với nhiều sức mạnh tính toán và dữ liệu hơn bất kỳ phiên bản nào trước đó.
OpenAI đã chính thức ra mắt GPT-4.5, một mô hình AI lớn nhất của công ty, được phát triển với nhiều sức mạnh tính toán và dữ liệu hơn bất kỳ phiên bản nào trước đó.