Báo Tri thức và Cuộc sống - TIN TỨC PHỔ BIẾN KIẾN THỨC 24H
  • Tài chính - Ngân hàng
  • Bất động sản
  • Golf & Doanh nhân
  • Doanh nghiệp
  • Tin 24/7
  • Hitech - Xe
  • Tiêu dùng - Bạn đọc
VietnamDaily Relax
Báo Tri thức và Cuộc sống - TIN TỨC PHỔ BIẾN KIẾN THỨC 24H
Tài chính - Ngân hàng Bất động sản Golf & Doanh nhân Doanh nghiệp Tin 24/7 Hitech - Xe Tiêu dùng - Bạn đọc

Hitech - Xe

DeepSeek-OCR đột phát thị giác máy tính đọc hiểu như con người

22/10/2025 14:15

Mô hình AI mới của DeepSeek được huấn luyện trên tập dữ liệu khổng lồ gồm hàng chục triệu tài liệu ở 100 ngôn ngữ khác nhau.

Tuệ Minh

DeepSeek đào tạo đã rẻ, nay còn có bản suy luận rẻ hơn

Startup AI DeepSeek lại một lần nữa khiến thế giới công nghệ rung động khi ra mắt mô hình AI đa phương thức DeepSeek-OCR với khả năng sử dụng thị giác máy tính để "đọc" thông tin văn bản, giúp giảm đáng kể số lượng token cần xử lý mà vẫn giữ độ chính xác cao.
Startup AI DeepSeek lại một lần nữa khiến thế giới công nghệ rung động khi ra mắt mô hình AI đa phương thức DeepSeek-OCR với khả năng sử dụng thị giác máy tính để "đọc" thông tin văn bản, giúp giảm đáng kể số lượng token cần xử lý mà vẫn giữ độ chính xác cao.
Token là đơn vị văn bản nhỏ nhất mà mô hình AI xử lý, và việc giảm số token đồng nghĩa với tiết kiệm chi phí tính toán khổng lồ. Thay vì xử lý văn bản theo cách đọc truyền thống, mô hình này chuyển đổi nội dung thành dạng hình ảnh và sử dụng khả năng nhận thức thị giác để nén thông tin.
Token là đơn vị văn bản nhỏ nhất mà mô hình AI xử lý, và việc giảm số token đồng nghĩa với tiết kiệm chi phí tính toán khổng lồ. Thay vì xử lý văn bản theo cách đọc truyền thống, mô hình này chuyển đổi nội dung thành dạng hình ảnh và sử dụng khả năng nhận thức thị giác để nén thông tin.
Cách tiếp cận này cho phép các mô hình ngôn ngữ lớn xử lý khối lượng văn bản khổng lồ mà không phải chịu chi phí tính toán tăng theo tỷ lệ thuận. Khả năng này cũng tương tự như việc đọc một trang sách của con người bằng cách nhìn vào toàn bộ đoạn văn hoặc trang sách thay vì đọc từng chữ.
Cách tiếp cận này cho phép các mô hình ngôn ngữ lớn xử lý khối lượng văn bản khổng lồ mà không phải chịu chi phí tính toán tăng theo tỷ lệ thuận. Khả năng này cũng tương tự như việc đọc một trang sách của con người bằng cách nhìn vào toàn bộ đoạn văn hoặc trang sách thay vì đọc từng chữ.
Kết quả mà DeepSeek công bố thực sự ấn tượng khi mô hình có thể giảm số token từ 7 đến 20 lần so với phương pháp xử lý văn bản truyền thống, đây là bước tiến đầy hứa hẹn trong việc giải quyết thách thức về ngữ cảnh dài trong các mô hình ngôn ngữ lớn.
Kết quả mà DeepSeek công bố thực sự ấn tượng khi mô hình có thể giảm số token từ 7 đến 20 lần so với phương pháp xử lý văn bản truyền thống, đây là bước tiến đầy hứa hẹn trong việc giải quyết thách thức về ngữ cảnh dài trong các mô hình ngôn ngữ lớn.
Hơn thế nữa, mô hình này không chỉ đọc chữ, mà còn hiểu bố cục, liên kết, cấu trúc, nghĩa là ngữ nghĩa của trang tài liệu đó, bao gồm cả bảng biểu và hình ảnh bên trong.
Hơn thế nữa, mô hình này không chỉ đọc chữ, mà còn hiểu bố cục, liên kết, cấu trúc, nghĩa là ngữ nghĩa của trang tài liệu đó, bao gồm cả bảng biểu và hình ảnh bên trong.
Động thái này phù hợp với triết lý mà DeepSeek đã theo đuổi qua hai mô hình mã nguồn mở đột phá V3 và R1: nâng cao hiệu suất AI trong khi hạ thấp chi phí xây dựng và sử dụng.
Động thái này phù hợp với triết lý mà DeepSeek đã theo đuổi qua hai mô hình mã nguồn mở đột phá V3 và R1: nâng cao hiệu suất AI trong khi hạ thấp chi phí xây dựng và sử dụng.
Về mặt kỹ thuật, DeepSeek-OCR bao gồm hai thành phần chính. Thành phần đầu tiên là DeepEncoder, động cơ cốt lõi duy trì mức kích hoạt thấp ngay cả khi xử lý đầu vào có độ phân giải cao, đồng thời đạt được tỷ lệ nén mạnh mẽ.
Về mặt kỹ thuật, DeepSeek-OCR bao gồm hai thành phần chính. Thành phần đầu tiên là DeepEncoder, động cơ cốt lõi duy trì mức kích hoạt thấp ngay cả khi xử lý đầu vào có độ phân giải cao, đồng thời đạt được tỷ lệ nén mạnh mẽ.
Thành phần thứ hai là bộ giải mã DeepSeek3B-MoE-A570M, một mô hình Mixture-of-Experts với 570 triệu tham số có nhiệm vụ tái tạo lại văn bản gốc.
Thành phần thứ hai là bộ giải mã DeepSeek3B-MoE-A570M, một mô hình Mixture-of-Experts với 570 triệu tham số có nhiệm vụ tái tạo lại văn bản gốc.
Kiến trúc Mixture-of-Experts hoạt động theo nguyên lý phân chia mô hình thành các mạng con chuyên xử lý một tập hợp con của dữ liệu đầu vào, giúp tối ưu hóa hiệu suất mà không cần kích hoạt toàn bộ mô hình.
Kiến trúc Mixture-of-Experts hoạt động theo nguyên lý phân chia mô hình thành các mạng con chuyên xử lý một tập hợp con của dữ liệu đầu vào, giúp tối ưu hóa hiệu suất mà không cần kích hoạt toàn bộ mô hình.
Ngoài khả năng xử lý các tác vụ thị giác tiêu chuẩn, DeepSeek-OCR còn phân tích được nội dung trực quan có cấu trúc phức tạp như bảng biểu, công thức toán học và sơ đồ hình học, mở ra tiềm năng ứng dụng trong lĩnh vực tài chính và khoa học.
Ngoài khả năng xử lý các tác vụ thị giác tiêu chuẩn, DeepSeek-OCR còn phân tích được nội dung trực quan có cấu trúc phức tạp như bảng biểu, công thức toán học và sơ đồ hình học, mở ra tiềm năng ứng dụng trong lĩnh vực tài chính và khoa học.
Theo các bài kiểm tra chuẩn mà công ty công bố, khi tỷ lệ nén dưới mười lần, DeepSeek-OCR đạt được độ chính xác giải mã lên tới 97%. Thậm chí khi tỷ lệ nén lên tới 20 lần, mô hình vẫn ghi nhận độ chính xác khoảng 60%, cho thấy khả năng bảo toàn thông tin mạnh mẽ ngay cả trong điều kiện nén cực cao.
Theo các bài kiểm tra chuẩn mà công ty công bố, khi tỷ lệ nén dưới mười lần, DeepSeek-OCR đạt được độ chính xác giải mã lên tới 97%. Thậm chí khi tỷ lệ nén lên tới 20 lần, mô hình vẫn ghi nhận độ chính xác khoảng 60%, cho thấy khả năng bảo toàn thông tin mạnh mẽ ngay cả trong điều kiện nén cực cao.
Trên bộ dữ liệu chuẩn OmniDocBench, DeepSeek-OCR vượt trội hơn các mô hình OCR chính như GOT-OCR 2.0 và MinerU 2.0 trong khi sử dụng ít token hơn nhiều. Cụ thể, DeepSeek-OCR chỉ cần khoảng 100 token hình ảnh cho mỗi trang, trong khi GOT-OCR 2.0 cần 256 token và MinerU 2.0 cần tới 6.000 token.
Trên bộ dữ liệu chuẩn OmniDocBench, DeepSeek-OCR vượt trội hơn các mô hình OCR chính như GOT-OCR 2.0 và MinerU 2.0 trong khi sử dụng ít token hơn nhiều. Cụ thể, DeepSeek-OCR chỉ cần khoảng 100 token hình ảnh cho mỗi trang, trong khi GOT-OCR 2.0 cần 256 token và MinerU 2.0 cần tới 6.000 token.
Điểm nổi bật nhất của DeepSeek-OCR chính là tốc độ xử lý đáng kinh ngạc. Mô hình có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày trên hệ thống tính toán chỉ với một card đồ họa NVIDIA A100-40G. Con số này mở ra khả năng mở rộng quy mô chưa từng có cho việc tạo dữ liệu huấn luyện mô hình ngôn ngữ lớn.
Điểm nổi bật nhất của DeepSeek-OCR chính là tốc độ xử lý đáng kinh ngạc. Mô hình có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày trên hệ thống tính toán chỉ với một card đồ họa NVIDIA A100-40G. Con số này mở ra khả năng mở rộng quy mô chưa từng có cho việc tạo dữ liệu huấn luyện mô hình ngôn ngữ lớn.
Động thái mới nhất với DeepSeek-OCR một lần nữa khẳng định cam kết của công ty trong việc đẩy mạnh hiệu suất AI trong khi giảm thiểu chi phí. Việc nén quang học có thể coi là giải pháp cho bài toán ngữ cảnh dài của các mô hình ngôn ngữ lớn. Hãy tưởng tượng một tài liệu có một triệu token được thu gọn thành bản đồ trực quan chỉ 100.000 token, mở đường cho thế hệ mô hình AI tiếp theo xử lý tài liệu như vỏ não thị giác được tăng cường.
Động thái mới nhất với DeepSeek-OCR một lần nữa khẳng định cam kết của công ty trong việc đẩy mạnh hiệu suất AI trong khi giảm thiểu chi phí. Việc nén quang học có thể coi là giải pháp cho bài toán ngữ cảnh dài của các mô hình ngôn ngữ lớn. Hãy tưởng tượng một tài liệu có một triệu token được thu gọn thành bản đồ trực quan chỉ 100.000 token, mở đường cho thế hệ mô hình AI tiếp theo xử lý tài liệu như vỏ não thị giác được tăng cường.
Các ứng dụng tiềm năng của công nghệ này rất rộng lớn. Phân tích tài liệu trực tiếp, OCR theo luồng cho khả năng tiếp cận, và dịch thuật thời gian thực với ngữ cảnh trực quan giờ đây trở nên khả thi về mặt kinh tế. DeepSeek-OCR không chỉ là một nâng cấp OCR thông thường mà là sự thay đổi mang tính cách mạng trong cách máy móc nhận thức và xử lý dữ liệu, đánh dấu bước tiến quan trọng trong hành trình phát triển trí tuệ nhân tạo.
Các ứng dụng tiềm năng của công nghệ này rất rộng lớn. Phân tích tài liệu trực tiếp, OCR theo luồng cho khả năng tiếp cận, và dịch thuật thời gian thực với ngữ cảnh trực quan giờ đây trở nên khả thi về mặt kinh tế. DeepSeek-OCR không chỉ là một nâng cấp OCR thông thường mà là sự thay đổi mang tính cách mạng trong cách máy móc nhận thức và xử lý dữ liệu, đánh dấu bước tiến quan trọng trong hành trình phát triển trí tuệ nhân tạo.
Dùng AI tạo giọng đọc tin tức như MC chuyên nghiệp.

Bạn có thể quan tâm

AI tái tạo nhân vật anime thành người thật, đẹp như minh tinh Hollywood

AI tái tạo nhân vật anime thành người thật, đẹp như minh tinh Hollywood

Mija ra mắt chăn sưởi ấm thông minh hiểu tiếng người, tự chỉnh nhiệt

Mija ra mắt chăn sưởi ấm thông minh hiểu tiếng người, tự chỉnh nhiệt

Hình ảnh ô nhiễm không khí nghiêm trọng ở Ấn Độ

Hình ảnh ô nhiễm không khí nghiêm trọng ở Ấn Độ

Một huyền thoại sụp đổ trên bầu trời Ukraine trước các đợt không kích của Nga

Một huyền thoại sụp đổ trên bầu trời Ukraine trước các đợt không kích của Nga

Trẻ, học thức, rành mạng vẫn dễ bị lừa online vì lý do không ngờ

Trẻ, học thức, rành mạng vẫn dễ bị lừa online vì lý do không ngờ

Moscow lên tiếng về thông tin thượng đỉnh Nga - Mỹ bị hoãn

Moscow lên tiếng về thông tin thượng đỉnh Nga - Mỹ bị hoãn

 Honda Civic Type R thể thao mới ra mắt, chuyên dùng để đua rally

Honda Civic Type R thể thao mới ra mắt, chuyên dùng để đua rally

Honda Today 50 - xe tay ga "siêu tiết kiệm xăng" về Việt Nam

Honda Today 50 - xe tay ga "siêu tiết kiệm xăng" về Việt Nam

Xem trước xe sedan Mazda3 2026 "đậm chất" Mazda6e và CX-5

Xem trước xe sedan Mazda3 2026 "đậm chất" Mazda6e và CX-5

Miệng “nồi hầm” Pokrovsk thu hẹp lại còn 5 km, quân Ukraine khó rút lui

Miệng “nồi hầm” Pokrovsk thu hẹp lại còn 5 km, quân Ukraine khó rút lui

Nổ xe bồn chở nhiên liệu, gần 40 người thiệt mạng

Nổ xe bồn chở nhiên liệu, gần 40 người thiệt mạng

Hãng Novitec độ Ferrari Purosangue thành siêu SUV "tàng hình"

Hãng Novitec độ Ferrari Purosangue thành siêu SUV "tàng hình"

Top tin bài hot nhất

Tại sao 160.000 quân Nga không “đè bẹp” 40.000 quân Ukraine ở Pokrovsk?

Tại sao 160.000 quân Nga không “đè bẹp” 40.000 quân Ukraine ở Pokrovsk?

22/10/2025 06:58
Miệng “nồi hầm” Pokrovsk thu hẹp lại còn 5 km, quân Ukraine khó rút lui

Miệng “nồi hầm” Pokrovsk thu hẹp lại còn 5 km, quân Ukraine khó rút lui

22/10/2025 13:29
Hình ảnh tuyết rơi trắng xóa ở thành phố Cáp Nhĩ Tân

Hình ảnh tuyết rơi trắng xóa ở thành phố Cáp Nhĩ Tân

22/10/2025 08:17
Hyundai Tucson 2027 sẽ bỏ bản máy dầu, thiết kế lột xác

Hyundai Tucson 2027 sẽ bỏ bản máy dầu, thiết kế lột xác

22/10/2025 06:13
NATO mất kiên nhẫn khi chiến đấu cơ chủ lực không phải là đối thủ của MiG-31

NATO mất kiên nhẫn khi chiến đấu cơ chủ lực không phải là đối thủ của MiG-31

22/10/2025 09:50

Giấy phép hoạt động báo chí số 29/GP-CBC, Bộ TTTT cấp ngày 24/12/2020

Tổng biên tập: Nhà báo Nguyễn Thị Mai Hương.

Phó Tổng biên tập: Nhà báo Nguyễn Danh Châu

Tòa soạn: Số 70 Trần Hưng Đạo, phường Cửa Nam, Hà Nội.

VPĐD tại TP.HCM: Số 54 Phạm Huy Thông, phường Hạnh Thông, Thành phố Hồ Chí Minh.

Điện thoại: 024 6 254 3519

Hotline: 096 523 77 56 (Toà soạn Hà Nội) / 091 122 12 22 (VPĐD TPHCM)

Email: tkts@kienthuc.net.vn

Chuyên trang của Báo

Báo Tri thức và Cuộc sống - TIN TỨC PHỔ BIẾN KIẾN THỨC 24H

Liên hệ quảng cáo

Email: quangcao.kienthuc@gmail.com

DMCA.com Protection Status