OpenAI vừa chính thức ra mắt mô hình o3-mini, một động thái được xem là phản hồi trực tiếp đến mô hình DeepSeek R1 của Trung Quốc trong lĩnh vực suy luận. Dòng mô hình o3 đã được công bố từ tháng 12 năm ngoái. OpenAI nhanh chóng tung ra o3-mini và o3-mini-high để duy trì vị thế dẫn đầu trong cuộc đua AI. Vậy, điều gì khiến ChatGPT o3-mini vượt trội so với các mô hình AI khác? Chúng ta hãy cùng tìm hiểu.
Contents
1. Hiệu Suất Lập Trình Vượt Trội
OpenAI tuyên bố o3-mini mang lại hiệu suất vượt trội trong các tác vụ lập trình, đồng thời duy trì chi phí thấp và tốc độ cao. Trước o3-mini, Claude 3.5 Sonnet của Anthropic thường là lựa chọn hàng đầu cho các truy vấn lập trình. Tuy nhiên, điều này đang thay đổi với sự ra mắt của o3-mini, đặc biệt là phiên bản o3-mini-high dành cho người dùng ChatGPT Plus và Pro.
Mô hình o3 mini tạo trò chơi rắn tự động
Tôi đã thử nghiệm mô hình o3-mini-high và yêu cầu nó tạo một trò chơi rắn bằng Python, trong đó nhiều con rắn tự động cạnh tranh với nhau. o3-mini-high suy nghĩ trong 1 phút 10 giây và tạo ra mã Python ngay lập tức.
Khi chạy mã, nó hoạt động trơn tru mà không gặp bất kỳ vấn đề nào. Thật thú vị khi xem những con rắn tự động di chuyển, và nó hoàn toàn chính xác, giống như con người chơi!
Trò chơi rắn tự động được phát triển bởi o3 mini
Hơn nữa, o3-mini-high đã đạt được điểm Elo là 2.130 trên nền tảng lập trình cạnh tranh Codeforces. Điều này đưa o3-mini-high vào top 2500 lập trình viên hàng đầu trên thế giới. Ngoài ra, trong chuẩn SWE-bench Verified, đánh giá khả năng giải quyết các vấn đề phần mềm thực tế, o3-mini-high đạt độ chính xác 49,3%, thậm chí cao hơn cả mô hình o1 lớn hơn (48,9%).
Với những ai đang tìm kiếm công cụ hỗ trợ lập trình AI, o3-mini-high có thể là lựa chọn tốt nhất cho đến khi mô hình o3 đầy đủ ra mắt.
2. Giải Quyết Các Bài Toán Khó
Ngoài lập trình, toán học là một lĩnh vực khác mà o3-mini vượt trội so với các mô hình AI khác. Trong kỳ thi American Invitational Mathematics Examination (AIME) năm 2024, với các câu hỏi về lý thuyết số, xác suất, đại số, hình học, v.v., o3-mini-high đạt được kết quả ấn tượng 87,3%, cao hơn cả mô hình o1 đầy đủ.
o3 mini aime 2024 benchmark
Trong chuẩn FrontierMath, bao gồm các bài toán cấp chuyên gia từ các nhà toán học hàng đầu, người đoạt huy chương Fields và các giáo sư trên khắp thế giới, o3-mini-high đạt 20% sau tám lần thử. Ngay cả trong một lần thử duy nhất, nó đã đạt 9,2%, một con số đáng kể.
Để dễ hình dung, nhà toán học nổi tiếng Terence Tao đã mô tả các bài toán trong chuẩn FrontierMath là “cực kỳ khó khăn”. Ngay cả các nhà toán học chuyên gia cũng có thể mất hàng giờ hoặc hàng ngày để giải chúng. Các công cụ AI tương tự ChatGPT khác chỉ đạt khoảng 2% trong chuẩn này.
3. Chuyên Gia Khoa Học Cấp Tiến Sĩ
o3-mini-high cũng xuất sắc trong các câu hỏi khoa học cấp tiến sĩ và vượt trội so với các mô hình AI khác với tỷ lệ đáng kể. GPQA Diamond là một chuẩn nâng cao đánh giá khả năng của các mô hình AI trong các lĩnh vực khoa học chuyên ngành. Nó bao gồm các câu hỏi nâng cao từ các lĩnh vực sinh học, vật lý và hóa học.
o3 mini gpqa diamond benchmark
Trong chuẩn GPQA Diamond, o3-mini-high đạt số điểm đáng chú ý là 79,7%, vượt trội hơn so với mô hình o1 lớn hơn (78,0%). Để so sánh, Gemini 2.0 Flash Thinking (Exp-01-21) của Google chỉ đạt 73,3%. Ngay cả Claude 3.5 Sonnet cũng chỉ đạt 65% trong chuẩn GPQA Diamond.
Điều này cho thấy rằng mô hình o3-mini nhỏ hơn của OpenAI, khi có nhiều thời gian và khả năng tính toán hơn để suy nghĩ, có thể vượt trội hơn các mô hình AI khác trong các câu hỏi khoa học cấp chuyên gia.
4. Kiến Thức Tổng Quát
Trong các lĩnh vực kiến thức tổng quát, o3-mini có thể không đánh bại các mô hình lớn hơn vì nó nhỏ hơn và chuyên về lập trình, toán học và khoa học. Tuy nhiên, mặc dù có kích thước nhỏ hơn, nó vẫn rất gần với các mô hình lớn hơn. Trong chuẩn MMLU, đánh giá hiệu suất của các mô hình AI trên nhiều chủ đề khác nhau, o3-mini-high đạt 86,9%, trong khi GPT-4o của OpenAI đạt 88,7%.
Mặc dù vậy, mô hình o3 lớn hơn sắp ra mắt có thể dễ dàng đánh bại tất cả các mô hình AI khác trong các lĩnh vực kiến thức tổng quát. Mô hình o1 đầy đủ đã đạt 92,3% trên chuẩn MMLU. Chúng ta cần chờ đợi mô hình o3 đầy đủ có thể bão hòa chuẩn này hoàn toàn.
1. OpenAI o3-mini là gì?
OpenAI o3-mini là một mô hình ngôn ngữ AI nhỏ gọn và hiệu quả, được thiết kế để thực hiện các tác vụ suy luận phức tạp như lập trình, giải toán và trả lời các câu hỏi khoa học chuyên ngành.
2. Điểm khác biệt giữa o3-mini và o3-mini-high là gì?
o3-mini là phiên bản miễn phí có sẵn cho tất cả người dùng ChatGPT, trong khi o3-mini-high là phiên bản trả phí, chỉ dành cho người dùng ChatGPT Plus và Pro. o3-mini-high có hiệu suất cao hơn và sử dụng nhiều khả năng tính toán hơn để đưa ra kết quả chính xác hơn.
3. o3-mini có thể làm gì tốt nhất?
o3-mini đặc biệt xuất sắc trong các lĩnh vực lập trình, toán học và khoa học. Nó có thể tạo mã Python phức tạp, giải các bài toán khó và trả lời các câu hỏi khoa học cấp tiến sĩ với độ chính xác cao.
4. o3-mini có thể thay thế ChatGPT hoàn toàn không?
Không, o3-mini không thể thay thế ChatGPT hoàn toàn. Mặc dù nó vượt trội trong một số lĩnh vực nhất định, nhưng ChatGPT vẫn là một mô hình ngôn ngữ tổng quát mạnh mẽ hơn, có khả năng xử lý nhiều loại tác vụ khác nhau.
5. Tôi có cần phải trả tiền để sử dụng o3-mini không?
Bạn có thể sử dụng phiên bản o3-mini miễn phí với một số hạn chế. Tuy nhiên, để tận dụng tối đa sức mạnh của o3-mini, bạn nên đăng ký ChatGPT Plus để truy cập phiên bản o3-mini-high.
6. o3-mini có khả năng tìm kiếm trên web không?
Có, OpenAI đã tích hợp khả năng tìm kiếm trên web cho o3-mini, cho phép mô hình truy cập thông tin mới nhất từ internet và sử dụng nó để suy luận và trả lời câu hỏi.
7. o3-mini có thể giúp tôi trong công việc lập trình như thế nào?
o3-mini có thể giúp bạn tạo mã, sửa lỗi và tối ưu hóa hiệu suất của chương trình. Nó cũng có thể giúp bạn hiểu các khái niệm lập trình phức tạp và tìm ra các giải pháp sáng tạo cho các vấn đề khó khăn.
5. o3-mini với Tìm Kiếm Web
Sử dụng o3 mini với tìm kiếm web
Thời điểm cập nhật kiến thức của o3-mini là tháng 10 năm 2023, khá cũ so với thời điểm hiện tại. Tuy nhiên, OpenAI đã thêm hỗ trợ tìm kiếm web cho o3-mini, cho phép mô hình suy luận trích xuất thông tin mới nhất từ web và thực hiện suy luận nâng cao. DeepSeek R1 cũng làm được điều này, nhưng không có mô hình suy luận nào khác cho phép bạn truy cập web để suy luận thêm.
Đó là một số khả năng nâng cao của o3-mini. Người dùng ChatGPT miễn phí cũng có thể truy cập o3-mini, nhưng nỗ lực suy luận được đặt ở mức “trung bình”, sử dụng ít khả năng tính toán hơn.
Tôi khuyên bạn nên trả tiền cho gói đăng ký ChatGPT Plus, với giá 20 đô la/tháng, để mở khóa mô hình ‘o3-mini-high’ mạnh mẽ. Đối với các nhà lập trình chuyên nghiệp, nhà nghiên cứu và sinh viên STEM, o3-mini-high có thể mang lại lợi ích cao.