• Vui lòng đọc nội qui diễn đàn để tránh bị xóa bài viết
  • Tìm kiếm trước khi đặt câu hỏi

Trích xuất chuỗi Tiếng Việt trong ảnh với Tesseract OCR

Các Module, Class, UserControl và thư viện OCX, DLL hỗ trợ cho Visual Basic
Hình đại diện của người dùng
T7
Thành viên danh dự
Thành viên danh dự
Bài viết: 415
Ngày tham gia: T.Năm 24/05/2007 8:19 pm
Đến từ: Long Xuyên - An Giang
Been thanked: 12 time
Liên hệ:

Trích xuất chuỗi Tiếng Việt trong ảnh với Tesseract OCR

Gửi bàigửi bởi T7 » T.Năm 27/03/2008 2:19 pm

Tên: Trích xuất chuỗi Tiếng Việt trong ảnh với Tesseract OCR
Loại: file chạy *.exe
Ngôn ngữ lập trình: Bất kì ngôn ngữ nào
Tác giả: Sưu tầm
Chức năng: Giúp trích xuất các chuỗi tiếng Việt trong ảnh ra text. Rất thích hợp để làm phần mềm trích xuất ảnh từ văn bản đã scan vào máy.


Các bạn download file Tesseract OCR.rar bên dưới để bắt đầu thực hiện. Cơ chế hoạt động của Tesseract OCR rất đơn giản. Trung thư mục đã giải nén, bạn sẽ thấy file tesseract.exe, việc đơn giản là lập trình cho ct của mình chạy với dòng lệnh:
tesseract.exe <đường dẫn ảnh> <đường dẫn xuất> –l <ngôn ngữ cần nhận dạng (ở đây ta để là vie)>
vd: tesseract.exe vietsample.tif C:\a.txt –l vie
tesseract sẽ xuất chuỗi tìm được trong file ảnh ra file text đã đặt ở dòng code trên
Trước đây tesseract chỉ có thể nhận dạng được các dạng ảnh tif, nhưng cái tesseract của mình kiếm được có thể nhận dạng được cả các dạng ảnh khác như gif, bmp, jpg,... Và trong thư mục ngôn ngữ nhận dạng có 2 gối ngôn ngữ mình đã để vào đó là việt nam và english (các bạn cũng có thể download thêm các gối ngôn ngữ khác tại đây). Bộ ngôn ngữ nhận dạng tiếng Việt có thể nhận dạng các font chữ như Times New Roman, Arial, Verdana, và Courier New.
Hình ảnh của văn bản đã scan muốn được OCR nhận dạng tốt thì cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400. Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng. Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt, và phiên bản tới của Tesseract có thể nâng cao độ nhận dạng hơn nữa. Dầu vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét.
Các lỗi nhận dạng có thể phân làm ba loại. Nhiều lỗi thường bị bởi do lẫn lộn chữ hoa và chữ thường (upper and lower) — ví dụ: hOa, nhắC — có thể dễ dàng sửa chữa sử dụng các chương trình Unicode text editor. Lỗi do sự xử lý không chính xác, gây ra các lỗi như thiếu sót dấu, lầm với ký tự có hình dáng tương tự, v.v… — huu – hưu, mang – marg, h0a – hoa, la – 1a, uhìu - nhìn. Đa số các lỗi này cũng có thể dễ dàng sửa chữa dùng các phần mềm duyệt chính tả.

Loại lỗi cuối cùng là khó phát hiện nhất bởi chúng liên quan đến ngữ nghĩa, semantics, có nghĩa là những chữ đánh vần đúng (tức là mục từ có trong tự điển), nhưng sai nghĩa trong ngữ cảnh (context) — ví dụ: tinh – tình, vân – vấn. Những lỗi này cần phải có người đọc duyệt lại và sửa theo bản gốc trong hình.

Qua các bước trên, mức chính xác có thể vượt hơn 99%.Tuy những lỗi ngữ nghĩa semantic còn lại ít, nhưng đòi hỏi người duyệt đọc dò lại toàn bộ văn bản để được giống y như văn bản gốc quét.

Các bạn có thể tham khảo thêm về Tesseract OCR và một số ct mẫu tại đây :)
Tập tin đính kèm
Tesseract OCR.rar
(2.87 MiB) Đã tải 3539 lần
Sửa lần cuối bởi T7 vào ngày T.Sáu 28/03/2008 7:21 pm với 1 lần sửa.


While (i <= you) i++;

Hình đại diện của người dùng
truongphu
VIP
VIP
Bài viết: 4762
Ngày tham gia: CN 04/11/2007 10:57 am
Đến từ: Cam Đức, Khánh hòa
Has thanked: 14 time
Been thanked: 515 time

Re: Trích xuất chuỗi Tiếng Việt trong ảnh với Tesseract OCR

Gửi bàigửi bởi truongphu » T.Sáu 28/03/2008 4:11 pm

1- Đọc được tiếng Việt trên file ảnh, mà lại miễn phí, rõ là quà tặng quý giá. trước tiên hoan hô T7
2- tôi load về, bung nén thì đấy là một ứng dụng đóng gói
- Ứng dụng chạy dưới lệnh Cmd (khó cho bạn nào chưa quen). Nên làm lệnh Bat để dễ điều chỉnh.
- không mở được các file nén: tif, gif, jpg... ĐÃ TEST!
- Mở được file BMP, chuyển tiếng Việt từ ảnh ra tốt cụ thể vietsample.bmp
3- Lưu ý: file vietsample.tif đi kèm chỉ 137kB khi chuyển qua BMP nên chọn loại bmp/24bit --> 24MB! máy đơ một lát. PIII 800MHz --> 90 giây! = KQ tốt. Nếu tiết kiệm, chuyển qua bmp/16 color --> 90 giây ra chữ Lào? :D
lần nữa cảm ơn T7 :x
Sửa lần cuối bởi truongphu vào ngày CN 30/03/2008 8:25 am với 1 lần sửa.
o0o--truongphu--o0o

.........
Ghé thăm:
Chuyện Linh Tinh


Quay về “[VB] Module, Class, UserControl, OCX”

Đang trực tuyến

Đang xem chuyên mục này: Không có thành viên nào trực tuyến.2 khách