Apple M5: Bước nhảy lớn trong chạy LLM cục bộ nhờ MLX — Nhanh hơn M4 tới 27%

 Một bài đăng mới trên blog Apple Machine Learning Research đã hé lộ những cải tiến mạnh mẽ của chip Apple M5 khi chạy các mô hình ngôn ngữ lớn (LLM) trực tiếp trên máy Mac. Nhờ kiến trúc GPU mới và băng thông bộ nhớ tăng đáng kể, hiệu suất suy luận LLM trên M5 vượt trội so với M4 trong nhiều bài test. Dưới đây là chi tiết.

MLX — nền tảng mở giúp LLM chạy “ngon lành” trên Apple Silicon

Vài năm trước, Apple giới thiệu MLX, một framework mảng mã nguồn mở tối ưu cho học máy trên chip Apple Silicon.

MLX đem lại lợi thế lớn vì:

  • Sử dụng kiến trúc bộ nhớ thống nhất của Apple Silicon → CPU và GPU chia sẻ bộ nhớ, không cần sao chép dữ liệu.
  • API tương tự NumPy → thân thiện với các nhà phát triển.
  • Hỗ trợ đầy đủ huấn luyện + suy luận mô hình, bao gồm cả tạo văn bản, hình ảnh.
  • Tích hợp MLX LM, cho phép tải và chạy hầu hết mô hình Hugging Face ngay trên Mac.
  • Hỗ trợ lượng tử hóa 4-bit, giúp mô hình lớn chạy nhanh hơn và tiêu tốn ít RAM hơn.

Nhờ vậy, người dùng Mac có thể chạy các mô hình như Qwen, Llama, Mistral… ngay trên thiết bị cá nhân mà không cần GPU rời.

M5 vs M4: GPU Neural Accelerators mới tạo khác biệt

Trong bài test của Apple, chip M5 thể hiện mức tăng hiệu suất đáng kể khi chạy nhiều mô hình, từ loại nhỏ (1.7B) đến mô hình MoE lớn 30B.

Apple thử nghiệm:

Tất cả được đánh giá dựa trên:

Vì sao phải tách token đầu tiên và token tiếp theo?

  • Token đầu tiên → ràng buộc bởi tính toán (compute-bound)
  • Các token tiếp theo → ràng buộc bởi băng thông bộ nhớ (memory-bound)

Do đó, Apple đo cả hai để có cái nhìn toàn diện.

Kết quả: M5 nhanh hơn M4 từ 19–27%

Theo Apple:

“Trên các kiến trúc thử nghiệm, M5 cung cấp hiệu suất tăng 19–27% so với M4, nhờ băng thông bộ nhớ lớn hơn — 153GB/s trên M5 so với 120GB/s trên M4, tăng 28%.”

Đáng chú ý:

  • MacBook Pro bản 24GB RAM có thể chạy mượt:
    • Qwen 8B ở BF16
    • Qwen 30B MoE ở 4-bit
  • Tổng bộ nhớ dùng khi suy luận đều dưới 18GB.

Điều này rất ấn tượng, vì chạy MoE 30B trên laptop không GPU rời là điều gần như không thể vài năm trước.

Tạo hình ảnh: M5 nhanh hơn M4 tới 3,8 lần

Không chỉ văn bản, Apple còn so sánh khả năng tạo hình ảnh bằng các mô hình diffusion.
Kết quả: M5 nhanh hơn M4 đến 3,8×, cho thấy GPU Neural Accelerators mới tối ưu mạnh các toán tử nhân ma trận — cốt lõi của AI hiện đại.

Kết luận

Chip Apple M5 tiếp tục đẩy mạnh khả năng AI trên thiết bị cá nhân, giúp việc chạy LLM cục bộ trở nên nhanh, tiết kiệm bộ nhớ và thực tế hơn bao giờ hết.

Kết hợp với MLX — framework AI mạnh mẽ và hoàn toàn mở — hệ sinh thái Apple Silicon đang trở thành một lựa chọn hấp dẫn cho các nhà phát triển AI muốn chạy mô hình trực tiếp trên máy của mình.

Nguồn:9to5mac.com

Bình luận

0 Nhận xét