Trong thời gian gần đây, một dự án mã nguồn mở có tên Docling GitHub đang thu hút rất nhiều sự chú ý trong cộng đồng AI và xử lý tài liệu khi đạt hơn 59.000 stars trên GitHub cùng tốc độ phát triển khá mạnh.
Điểm khiến Docling nổi bật là khả năng xử lý gần như toàn bộ các loại tài liệu phổ biến hiện nay như PDF, Word, PowerPoint, Excel, HTML, hình ảnh và thậm chí cả file âm thanh rồi chuyển đổi thành Markdown hoặc dữ liệu có cấu trúc để AI có thể đọc và phân tích dễ dàng hơn.

Không chỉ đọc PDF
Phần lớn các công cụ hiện tại thường chỉ tập trung vào PDF hoặc OCR cơ bản. Tuy nhiên Docling được thiết kế như một hệ thống xử lý tài liệu tổng quát hơn.
Theo mô tả từ dự án, công cụ này hỗ trợ:
- DOCX
- PPTX
- XLSX
- HTML
- PNG/JPEG
- LaTeX
- MP3/WAV
Điều này giúp giảm đáng kể việc phải sử dụng nhiều phần mềm khác nhau cho từng loại định dạng.
Giữ được cấu trúc bảng biểu và layout
Một trong những vấn đề lớn khi xử lý tài liệu bằng AI là bảng biểu thường bị lỗi cấu trúc sau khi convert. Các cột dễ bị lệch hoặc mất thứ tự đọc.
Docling được đánh giá cao nhờ khả năng hiểu layout tài liệu, nhận diện bảng biểu, heading, công thức và thứ tự nội dung khá tốt. Đây là yếu tố quan trọng với những ai đang làm:
- AI chatbot nội bộ
- hệ thống RAG
- AI đọc hợp đồng
- xử lý báo cáo tài chính
- knowledge base doanh nghiệp
Hỗ trợ OCR và AI đọc hình ảnh
Ngoài text thông thường, Docling còn tích hợp GraniteDocling — mô hình AI thị giác do IBM phát triển để hỗ trợ OCR cho PDF scan hoặc tài liệu dạng ảnh.
Theo giới thiệu của dự án, hệ thống có thể phân tích:
- tài liệu scan
- catalogue
- biểu đồ
- hình ảnh trong tài liệu
và chuyển đổi chúng thành dữ liệu có cấu trúc.
Miễn phí và chạy offline
Một điểm đáng chú ý khác là Docling sử dụng giấy phép MIT mã nguồn mở nên có thể dùng thương mại mà không gặp nhiều ràng buộc.
Ngoài ra công cụ có thể chạy hoàn toàn trên máy tính cá nhân mà không cần upload dữ liệu lên cloud. Điều này khá quan trọng với các tài liệu nhạy cảm như:
- hợp đồng
- bảng giá
- dữ liệu khách hàng
- tài liệu nội bộ doanh nghiệp
Cài đặt khá đơn giản
Docling yêu cầu Python 3.10 trở lên và có thể cài nhanh bằng:
pip install docling
Dự án hỗ trợ:
- Windows
- macOS
- Linux
- Intel
- ARM
Ngoài Python API, công cụ cũng có sẵn CLI để chuyển đổi tài liệu bằng dòng lệnh.
Được IBM hậu thuẫn
Một trong những lý do khiến cộng đồng chú ý là Docling có IBM đứng sau phát triển. Hiện tại dự án đã có:
- hơn 59.2K stars GitHub
- hơn 170 bản release
- hàng nghìn commits
cho thấy đây không phải một repo thử nghiệm ngắn hạn mà đang được maintain khá tích cực.
Tổng kết
Trong bối cảnh AI Agent, RAG và hệ thống tìm kiếm bằng AI đang phát triển rất nhanh, nhu cầu xử lý tài liệu đa định dạng ngày càng lớn. Docling đang nổi lên như một lựa chọn đáng chú ý nhờ:
- hỗ trợ nhiều định dạng
- OCR tích hợp
- giữ layout tốt
- chạy offline
- miễn phí mã nguồn mở
Đây có thể là một trong những công cụ đáng thử cho các developer hoặc doanh nghiệp đang xây dựng hệ thống AI xử lý tài liệu nội bộ.


