Các kỹ sư Việt Nam đã phát triển một giải pháp AI giúp chuyển đổi bảng biểu từ hình ảnh sang file Excel với tốc độ nhận diện nhanh, lên tới 40 khung hình mỗi giây và đạt độ chính xác gần sát dữ liệu gốc, chỉ chênh lệch 2%.
Tại hội nghị ECAI 2024 chuyên về trí tuệ nhân tạo vừa tổ chức tại Tây Ban Nha, Viettel AI đã giới thiệu công nghệ mới này, nổi bật với tốc độ xử lý nhanh gấp bốn lần so với các giải pháp hiện có. Giải pháp này cho phép nhận diện và trích xuất cấu trúc cũng như nội dung bảng biểu từ ảnh gần như ngay lập tức, đáp ứng tốt nhu cầu xử lý thời gian thực.
Nguyễn Nam Quân, đại diện từ Viettel AI, giới thiệu giải pháp mới tại hội nghị ECAI 2024
Công nghệ nhận diện và trích xuất văn bản từ hình ảnh, đặc biệt là bảng biểu, vốn đã có nhờ OCR và AI, nhưng các hệ thống hiện tại gặp khó khăn trong việc xử lý bảng có cấu trúc phức tạp, như những bảng không viền, chứa ô trống hay có kích thước ô không đồng đều.
“Dù việc trích xuất chữ viết đã đạt hiệu quả nhất định, bảng biểu trong tài liệu vẫn là một thách thức lớn,” đại diện Viettel AI nhận định. “Tự động hóa quá trình này sẽ giảm đáng kể thời gian nhập liệu thủ công và tăng tính chính xác.”
Nhóm nghiên cứu của Viettel AI đã cải tiến quy trình để có thể xử lý bảng biểu chỉ trong một bước, thay vì phải chia thành nhiều giai đoạn như các phương pháp truyền thống. Nhờ vậy, giải pháp có thể nhận diện bảng có nhiều hàng và cột với tốc độ cao hơn, tiết kiệm bộ nhớ và đơn giản hóa quy trình huấn luyện AI. Tại hội nghị ECAI, giải pháp này đã đạt tốc độ trích xuất 40 khung hình/giây và sai số chỉ khoảng 2% so với dữ liệu gốc.
Trong thử nghiệm, khi xử lý ảnh chứa hai bảng biểu, giải pháp cho phép xuất dữ liệu với cấu trúc và thông tin chuẩn. Dù còn một số chi tiết cần cải thiện, như ký hiệu “≥”, công nghệ đã thể hiện hiệu suất cao và đang được tích hợp vào Viettel IDP để xử lý hồ sơ thông minh. Công nghệ này có thể tự động tách dữ liệu từ ảnh với tốc độ dưới hai giây mỗi trang, nhanh hơn từ 60 đến 80 lần so với nhập liệu thủ công và độ chính xác lên đến 90%, tiết kiệm tới 80% thời gian phê duyệt hồ sơ.
Nhóm nghiên cứu khẳng định rằng mục tiêu của họ không chỉ là đạt tốc độ xử lý dưới hai giây mà còn hướng đến phản hồi gần như ngay lập tức trong tương lai.
Chuyển hình ảnh chứa bảng thành dữ liệu trong Excel
Theo các chuyên gia, hiệu quả của công nghệ này cần được đánh giá thêm qua thực tế sử dụng. Trong quá trình thử nghiệm với hình ảnh chứa hai bảng biểu, giải pháp có thể ngay lập tức xuất dữ liệu với cấu trúc và thông tin chính xác. Tuy nhiên, vẫn còn một số chi tiết cần cải thiện, như ký hiệu “>=” chưa được thể hiện chính xác hoàn toàn.
Đại diện nhóm nghiên cứu cho biết công nghệ đã được tích hợp vào Viettel IDP – giải pháp xử lý hồ sơ thông minh, có khả năng tự động bóc tách thông tin từ ảnh với tốc độ dưới hai giây mỗi trang, nhanh hơn 60-80 lần so với nhập liệu thủ công, độ chính xác đạt 90%, giúp người dùng tiết kiệm đến 80% thời gian phê duyệt.
“Công nghệ vừa công bố tại ECAI 2024 là bước khởi đầu để tăng tốc độ xử lý, không chỉ đặt mục tiêu dưới hai giây mà còn hướng tới xử lý tức thì,” đại diện nhóm nhấn mạnh.