DeepSeek AI là gì? Cách sử dụng tối ưu và chạy local DeepSeek-R1

DeepSeek AI là gì

Giữa muôn vàn tên tuổi trong ngành AI, DeepSeek AI là gì nổ một cái bùm nổi lên một cách không thể tưởng tượng được, khiến tổng thống Mỹ phải lên tiếng, khiến cổ phiếu Nvidia tụt hơn tụt quần? Trong bài này tui, Lâm Panda sẽ cùng bạn tìm hiểu về nó là gì, nhà sáng lập là ai và cách sử dụng sao cho tối ưu nhé!

Tìm hiểu về DeepSeek AI

DeepSeek AI là gì?

DeepSeek AI là một mô hình ngôn ngữ quy mô lớn (Large Language Model – LLM) nguồn mở, được phát triển bởi công ty Hangzhou DeepSeek Artificial Intelligence Co., Ltd. Công ty này được thành lập vào tháng 5 năm 2023 bởi Liang Wenfeng và có trụ sở tại Hàng Châu, Trung Quốc. DeepSeek hoạt động dưới sự tài trợ của quỹ đầu tư High-Flyer, một quỹ đầu tư đã đặt nhiều kỳ vọng vào tiềm năng của công nghệ AI.

DeepSeek AI là gì

Điểm nổi bật khiến OpenAI phải khóc thét chính là việc mô hình mới nhất DeepSeek-R1 của DeepSeek AI mạnh ngang ngửa OpenAI o1 về khả năng suy luận nhưng là nguồn mở!

Việc này cho phép các nhà nghiên cứu và người dùng thương mại truy cập, sử dụng và chỉnh sửa mã nguồn. Điều này mở ra nhiều cơ hội cho việc nghiên cứu, phát triển và tối ưu hóa theo nhu cầu thực tế của người dùng. So với các đối thủ như ChatGPT, Gemini, hay Claude, DeepSeek mang lại nhiều lợi ích vượt trội, đặc biệt là trong việc bảo mật thông tin doanh nghiệp, tiết kiệm tài nguyên và chi phí phát triển.

DeepSeek của ai?

DeepSeek AI được phát triển bởi Hangzhou DeepSeek Artificial Intelligence Co., Ltd., một công ty trí tuệ nhân tạo ở Hàng Châu, Trung Quốc. Công ty được thành lập vào tháng 5 năm 2023 bởi Liang Wenfeng cùng sự hỗ trợ tài chính từ quỹ đầu tư High-Flyer.

Tại sao DeepSeek AI nổi bật?

Hiệu quả vượt trội là một trong những yếu tố khiến DeepSeek AI trở nên nổi bật trong cộng đồng AI. Dù được phát triển với chi phí chỉ khoảng 6 triệu USD – so với mức kinh phí khổng lồ hơn 100 triệu USD của GPT-4 – DeepSeek đã chứng minh được khả năng hoạt động ngang cấp với các mô hình AI khác nổi tiếng. Điều này không chỉ giúp tiết kiệm chi phí mà còn mở ra nhiều cơ hội tiếp cận công nghệ AI cho nhiều đối tượng người dùng hơn.

Một điểm quan trọng nữa là DeepSeek AI sử dụng 1/10 tài nguyên tính toán so với các mô hình cùng cấp. Điều này có nghĩa là dù sở hữu hiệu năng mạnh mẽ, DeepSeek vẫn có thể vận hành một cách hiệu quả và tiết kiệm, giúp giảm thiểu tác động đến môi trường và chi phí vận hành. Tầm ảnh hưởng của DeepSeek không chỉ dừng lại ở hiệu năng mà còn lan rộng ra nhiều lĩnh vực ứng dụng như công nghệ, giáo dục và kinh doanh.

DeepSeek AI không chỉ đem lại những cải tiến về mặt công nghệ mà còn tạo ra một cuộc cạnh tranh gay gắt trong ngành AI. Các công ty lớn như Nvidia, Microsoft, và Tencent sẽ phải thay đổi chiến lược và điều chỉnh giá cả để cạnh tranh với các mô hình AI của DeepSeek. Chính việc này sẽ thúc đẩy sự phát triển và cải tiến không ngừng của công nghệ AI toàn cầu và người dùng chúng ta sẽ có lợi hơn.

Với góc nhìn của các doanh nghiệp, một mô hình ngôn ngữ lớn (LLM) nguồn mở, giúp doanh nghiệp dễ dàng tiếp cận công nghệ AI tiên tiến, chi phí thấp và mang tính bảo mật cao vì có thể chạy local và không sợ dữ liệu bị “chạy” sang Trung Quốc hay sợ bị OpenAI và các công ty công nghệ khác đem đào tạo cho AI. Đây là một trong những thứ cực kỳ đáng yêu mà tui thấy nó không thể đáng yêu hơn được nữa.

Cách tạo tài khoản DeepSeek

Bạn chỉ cần truy cập vào chat.deepseek.com và đăng ký tài khoản thôi. Không giống OpenAI lúc đầu giới hạn tùm lum. Chỉ cần email hoặc số điện thoại là ổn.

Mỗi tội hiện tại thì đang rất rất cao điểm vì mọi người từ Tik Tok đang đổ ầm ầm đi đăng ký tài khoản :))) nên là nó sẽ: gửi email xác nhận chậm, bấm xác nhận load lâu mới duyệt (tui gần 1 tiếng mới xong V:)

Screenshot 2025 01 28 201015

Các mô hình chủ lực của DeepSeek

Các mô hình chủ lực của DeepSeek AI gồm có các phiên bản khác nhau, mỗi phiên bản được tối ưu hóa cho các lĩnh vực cụ thể nhưng vẫn duy trì hiệu năng cao trong xử lý ngôn ngữ tự nhiên.

So sánh các mô hình hiện tại của DeepSeek AI

DeepSeek AI đã phát triển nhiều mô hình khác nhau để phục vụ các mục đích và nhu cầu sử dụng đa dạng. Giờ thì chúng ta sẽ so sánh các mô hình nổi bật của DeepSeek dựa trên thông tin từ trang chính thức của họ.

DeepSeek-R1

DeepSeek-R1 là phiên bản mới nhất và tiên tiến nhất trong số các mô hình mà DeepSeek công bố. Nói ngắn gọn DeepSeek-R1 tự công nhận ngang với OpenAI-o1, sau quá trình sử dụng tui thấy nó còn ok hơn nữa vì:

  • Sử dụng miễn phí, không có giới hạn (hiện tại là vậy)
  • Bộ xử lý hình ảnh rất rất tốt, dữ liệu có giới hạn tới 2023 thôi nhưng có khả năng truy cập vào internet nên nó rất ok luôn.
  • Mã nguồn mở có thể tải về chơi luôn (mỗi tội con card của bạn phải mạnh mới xử được)
  • Giấy phép thương mại (A di đà phật!)

Tóm lại là quả DeepSeek-R1 ngan cơ để đấm vào mỏ của OpenAI thật.

AD 4nXeu8FZU6ntQfWFMxdI0ftugRi3DMq2xpSymqY3ZCjABY 0oLp7OeF12ScPPIs90bF VmgsOrv5O6 Hz089V0sMeI1OlgbwK9TyapimzWZiWcCwE34KL3k1Fmpg

DeepSeek V3

DeepSeek V3 được thiết kế để vượt trội trong nhiều bài kiểm tra và benchmark, trở thành một công cụ mạnh mẽ cho các ứng dụng từ giáo dục đến nghiên cứu và công nghiệp.

  • Tổng số tham số: 671 tỷ
  • Tham số hoạt động: 37 tỷ
  • Kiến trúc: Mixture-of-Experts (MoE)
  • Hiệu năng: Hiệu suất trên cả các bài kiểm tra tiếng Anh và toán học đều rất cao, vượt qua nhiều đối thủ nguồn mở khác như Llama và Qwen.

Quan tâm tới đây là ổn rồi, các mô hình khác khả năng cao bạn sẽ không cần sử dụng đâu 🙂 nhưng mà chắc chắn bạn sẽ quan tâm tới Mixture-of-Experts.

Mixture-of-Experts (MoE) là gì cơ?

Mixture-of-Experts (MoE) là một kỹ thuật trong học sâu giúp giảm chi phí tính toán bằng cách chỉ kích hoạt một vài “chuyên gia” (nhóm tham số con) trong mỗi lần xử lý đầu vào thay vì sử dụng toàn bộ mô hình. Các thành phần chính bao gồm các chuyên gia (experts) và bộ định tuyến (router), chịu trách nhiệm chọn chuyên gia phù hợp cho từng dữ liệu.

Cách MoE tiết kiệm chi phí:

  1. Kích hoạt một phần tham số: Chỉ một số ít chuyên gia được kích hoạt (thường 1-2), giảm đáng kể khối lượng tính toán và tiêu thụ tài nguyên so với kích hoạt toàn bộ mô hình.
  2. Khả năng mở rộng linh hoạt: Mô hình có thể sở hữu hàng trăm tỷ tham số nhưng chi phí xử lý vẫn thấp do mỗi lần chỉ dùng một phần tham số nhỏ.
  3. Tối ưu tài nguyên: Chuyên gia chuyên xử lý dữ liệu liên quan, giảm lãng phí tài nguyên trong xử lý không cần thiết.
  4. Tiết kiệm năng lượng: Giảm nhu cầu phần cứng và điện năng đáng kể khi so với các mô hình lớn thông thường.

Ví dụ nổi bật là Switch Transformer của Google (1.6 nghìn tỷ tham số), mang lại hiệu suất cao hơn với chi phí tính toán thấp nhờ sử dụng MoE. Tuy nhiên, nhược điểm là mô hình phức tạp hơn và dễ gặp mất cân bằng giữa các chuyên gia.

DeepSeek V2.5

DeepSeek V2.5 là phiên bản trước DeepSeek V3, vẫn giữ được vị thế mạnh mẽ trong cộng đồng AI nhờ vào tính kinh tế và hiệu quả của nó.

  • Tổng số tham số: 236 tỷ
  • Tham số hoạt động: 21 tỷ
  • Kiến trúc: Mixture-of-Experts (MoE)
  • Hiệu năng: Dù không cao như V3, nhưng DeepSeek V2.5 vẫn thể hiện thành tích đáng nể trên nhiều benchmark, đóng góp lớn vào sự phát triển mạnh mẽ của DeepSeek.

DeepSeek-Coder

DeepSeek-Coder là mô hình chuyên dụng được tối ưu hóa cho các bài toán lập trình. Nó hỗ trợ lập trình viên từ việc viết mã đến giải quyết các thuật toán phức tạp.

  • Ứng dụng: Chủ yếu trong lĩnh vực lập trình và phát triển phần mềm.
  • Kiến trúc: Tối ưu hóa cho mã hóa và giải thuật.
  • Hiệu năng: Hiệu quả trong việc giải quyết các bài toán liên quan đến mã hóa, vượt trội so với nhiều mô hình tương tự.

DeepSeek-Math

DeepSeek-Math là mô hình tối ưu hóa cho lĩnh vực toán học, tập trung vào việc giải quyết các vấn đề toán học từ cơ bản đến nâng cao.

  • Ứng dụng: Các bài toán toán học trong học thuật và nghiên cứu.
  • Kiến trúc: Tối ưu hóa cho toán học.
  • Hiệu năng: Hiệu quả đáng kể trong việc giải quyết các bài toán phức tạp, hỗ trợ học sinh và nhà nghiên cứu.

So sánh hiệu năng trên các benchmark quan trọng

Dưới đây là một số so sánh chi tiết về hiệu năng của các mô hình trên các benchmark quan trọng như MMLU, DROP và GPQA:

Benchmark / Mô hìnhDeepSeek V3DeepSeek V2.5Qwen 2.5Llama 3.1GPT-4o
MMLU (EM)88.580.685.388.687.2
MMLU-Redux (EM)89.180.385.686.288.0
DROP (3-shot F1)91.687.876.788.783.7
IF-Eval (Prompt Strict)86.180.684.186.084.3
GPQA-Diamond (Pass@1)59.141.349.051.149.9
SimpleQA (Correct)24.910.29.117.138.2

Những điểm tương đồng và khác biệt

Điểm tương đồng:

  • Kiến trúc MoE: Cả DeepSeek V2.5 và V3 đều sử dụng kiến trúc Mixture-of-Experts, giúp tối ưu hóa hiệu suất xử lý và tiết kiệm tài nguyên.
  • Hiệu quả vượt trội: Cả hai mô hình đều chứng minh được hiệu quả vượt trội trong các bài kiểm tra quan trọng, khẳng định vị thế của DeepSeek trong cộng đồng AI toàn cầu.

Điểm khác biệt:

  • Tổng số tham số: DeepSeek V3 có tổng số tham số cao hơn đáng kể so với V2.5, điều này cho thấy khả năng xử lý và học hỏi của V3 vượt trội hơn.
  • Hiệu suất: DeepSeek V3 có hiệu suất cao hơn rõ rệt trong các bài kiểm tra, đặc biệt là MMLU và DROP, cho thấy sự cải tiến vượt bậc so với phiên bản trước đó.

Ứng dụng của DeepSeek AI

DeepSeek AI không chỉ là một sản phẩm công nghệ tiên tiến mà còn mang lại nhiều lợi ích và ứng dụng thiết thực trong nhiều lĩnh vực khác nhau.

Nghiên cứu AI giá rẻ nhưng mạnh mẽ

DeepSeek được ví như “Pinduoduo của AI” nhờ chiến lược phát triển với chi phí thấp nhưng lại mang lại hiệu suất lớn. Giống như Pinduoduo trong lĩnh vực thương mại điện tử, làm cho hàng triệu người tiêu dùng tiếp cận được những sản phẩm phổ thông với chi phí phải chăng, DeepSeek giúp cộng đồng nghiên cứu và phát triển AI tiếp cận những công nghệ tiên tiến mà không cần đầu tư quá nhiều tài nguyên.

Hỗ trợ giáo dục và nghiên cứu khoa học

Trong lĩnh vực giáo dục, DeepSeek AI đã và đang trở thành công cụ không thể thiếu. Các phiên bản như DeepSeek-Math giúp sinh viên giải quyết các vấn đề phức tạp trong toán học, trong khi DeepSeek-Coder hỗ trợ lập trình viên học hỏi và cải thiện kỹ năng lập trình. DeepSeek không chỉ là một công cụ hỗ trợ học tập mà còn là một người thầy, cung cấp hướng dẫn và kiến thức theo cách dễ hiểu và hiệu quả.

Thị trường công nghệ toàn cầu

DeepSeek AI có ảnh hưởng lớn đến thị trường công nghệ toàn cầu. Các công ty lớn như Nvidia sẽ phải điều chỉnh chiến lược của mình để cạnh tranh với DeepSeek. Sự xuất hiện của các mô hình AI tiên tiến và hiệu quả này đang thúc đẩy sự cạnh tranh và đổi mới trong ngành công nghệ, giúp định hình lại chiến lược và cách tiếp cận của các doanh nghiệp lớn. Điều này không chỉ giúp nâng cao chất lượng sản phẩm AI mà còn mang lại nhiều lựa chọn phong phú và tiết kiệm chi phí cho người dùng cuối.

Vấn đề bảo mật và tranh cãi

Mặc dù DeepSeek AI mang lại nhiều lợi ích vượt trội, nhưng nó cũng đặt ra một số vấn đề về bảo mật và gây ra nhiều tranh cãi trong cộng đồng quốc tế và cả Việt nam chúng ta.

Nội dung sai lệch rất nặng!

DeepSeek AI cũng áp dụng các tiêu chuẩn kiểm duyệt nội dung phù hợp với quan điểm chính trị của chính phủ Trung Quốc. Điều này có nghĩa là các nội dung nhạy cảm hoặc chống chế độ có thể bị hạn chế hoặc không hiển thị. Trong một môi trường thông tin tự do, điều này có thể được xem như một bước lùi, làm giảm tính đa dạng và tự do truy cập thông tin của người dùng.

Điểm này tui cũng tổng hợp từ báo của mẽo, nhưng các câu hỏi về chủ quyền Việt Nam với đảo thì nó trả lời nước 3 🙂 và tuỳ theo cách hỏi của bạn, các câu trả lời mà tui nhận được là:

Nếu hỏi bằng tiếng Việt: sẽ nhận câu trả lời là của Việt Nam.

image 3

Nếu hỏi tiếng Anh mô hình DeepSeek-R1 thì nó sẽ trả lời là vùng bị tranh chấp, sau đó nó sẽ bị biến mất và trả lời là: “Sorry, that’s beyond my current scope. Let’s talk about something else.” 

image 2

Nếu bạn hỏi bằng tiếng Anh hoặc tiếng Trung trực tiếp với mô hình DeepSeek V3 nó sẽ trả lời là của trung quốc adu hay lắm.

image 1

Để nhìn thấy rõ việc này, bạn nên tự hỏi thêm và để xem họ xử lý như thế nào trong tương lai.

Lưu trữ dữ liệu

Một trong những mối quan ngại lớn nhất là việc dữ liệu đầu vào của người dùng được lưu trữ tại Trung Quốc. Điều này đã dấy lên nhiều lo ngại về bảo mật dữ liệu và quyền riêng tư. Vì Trung Quốc có những quy định nghiêm ngặt về dữ liệu và nhiều công ty có thể phải tuân theo các yêu cầu của chính phủ trong việc truy cập thông tin, người dùng từ các quốc gia khác có thể cảm thấy không an toàn khi sử dụng DeepSeek.

Đấy là báo nói thế, nếu sợ, bạn chỉ cần tải mô hình về và chạy local là được.

Cách để chạy DeepSeek AI local

Sẽ cập nhật sớm và bao gồm cả hướng dẫn chạy Janus Pro (nhưng lời khuyên là không nên chạy mô hình tạo ảnh Janus Pro của họ vì nó cùi lắm)

Kết luận

DeepSeek AI đã khẳng định vị thế của mình như một trong những công nghệ tiên tiến và hiệu quả nhất trong lĩnh vực trí tuệ nhân tạo. Với chiến lược phát triển độc đáo, tận dụng hiệu quả tài nguyên và chi phí thấp, DeepSeek mang lại những lợi ích to lớn cho cả cộng đồng nghiên cứu và người dùng thương mại.

Vậy liệu DeepSeek AI có đủ khả năng dẫn đầu trong cuộc đua AI tương lai? Điều này chỉ có thời gian mới có thể trả lời, nhưng chắc chắn chúng ta đang chứng kiến một bước ngoặt quan trọng trong sự phát triển của trí tuệ nhân tạo.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top