Hệ thống số hóa tài liệu bằng phần mềm nhận diện ký tự quang học tiếng Việt sử dụng công nghệ trí tuệ nhân tạo nhằm giải quyết triệt để bài gia tăng năng suất, giảm thiểu chi phí, tiết kiệm thời gian nhập liệu, số hóa tài liệu trong lư trữ văn bản. Dựa trên kinh nghiệm về các kỹ thuật quang học và công nghệ thị giác máy tính, giải pháp của công ty Starcom có độ chính xác cao, có thể triển khai trong thực tế theo nhiều quy mô và cấp độ khác nhau, xử lý các loại văn bản chữ in, chữ viết tay ở các định dạng khác nhau như PDF, file ảnh, văn bản Scan.
Giải pháp OCR bao gồm nhiều mô hình khác nhau, xử lý phân loại, nhận diện chữ tại các dòng, chuyển văn bản thành văn bản dạng số…
Mô hình phát hiện nhận dạng khối ký tự
Văn bản được chụp hoặc scan thành định dạng pdf hoặc file ảnh:
Sau đó, mô hình sử dụng trí tuệ nhân tạo để tự động phát hiện vị trí khu vực chứa khối ký tự trong ảnh:
Mô hình tiền xử lý xác định, cắt các các dòng chữ thành các ảnh riêng biệt
Mô hình hiệu chỉnh ngôn ngữ:
Do quá trình chụp ảnh, scan văn bản bị nhiễu hoặc văn bản bị mờ, thiếu sắc nét do lưu trữ lâu ngày sẽ dễ gây nhầm lẫn khi máy phân tích. Để đảm bảo chính xác, mô hình hiệu chỉnh ngôn ngữ sẽ đánh giá, bao quát toàn bộ ngữ cảnh để sửa các lỗi nhỏ trong quá trình nhận diện chữ, từ đó nâng cao độ chính xác.
Lập trình các tính năng phần mềm:
– Chỉnh sửa tài liệu sau khi số hóa: Sau khi số hóa có tỷ lệ nhỏ nội dung chưa chính xác, tính năng sẽ giúp hoàn thiện văn bản số đảm bảo chính xác với văn bản ban đầu.
– Tìm kiếm tài liệu theo nội dung đã số hóa: Cho phép tìm kiếm văn bản được số hóa và văn bản gốc tương ứng.
– Tạo API cho phép tài liệu số hóa thành đầu vào của các ứng dụng khác.
Thu thập dữ liệu và training các mô hình:
– Thu thập dữ liệu văn bản lưu trữ thực tế, tiến hành lấy mẫu scan chuyển thành file PDF hoặc file ảnh.
– Dùng các dữ liệu thu thập được để training các mô hình trí tuệ nhân tạo ở trên và hiệu chỉnh, tối ưu đảm bảo khi tiến hành vận hành thực tuế mô hình cho độ chính xác cao trên 98% với chữ in.