• Vui lòng đọc nội qui diễn đàn để tránh bị xóa bài viết
  • Tìm kiếm trước khi đặt câu hỏi

Cần code string searching văn bản docx, pdf

Bạn có những ý tưởng, sáng kiến nhưng không thực hiện được? Hãy chia sẽ với mọi người để biến ý tưởng thành hiện thực

Moderator: Điều hành

andy286
Posts: 2
Joined: Tue 01/11/2016 3:18 pm

Cần code string searching văn bản docx, pdf

Postby andy286 » Wed 02/11/2016 3:37 pm

Ý tưởng của em là trong một folder chứa rất nhiều file doc, docx, pdf đặt tên rất lộn xộn. Em muốn viết một code tự động quét lần lượt các file đó tìm cho em nội dung trong các file đó có chứa các ký tự như là "giám đốc nguyễn văn A" "Công ty B". Sau đó xuất ra một list box tên văn bản chứa các từ khóa đó và link mở nó. Em đã thiết kế giao diện và phần sườn một ít rồi nên em không muốn đặt mua phần mềm vì mọi thứ đã làm sẵn nên em cần xin code để tự học hỏi nghiên cứu thêm, nếu code ứng dụng thành công em cũng xin trả phí đáp lễ cho mọi người. Mong mọi người giúp đỡ!!! Nếu được xin giúp em nghiên cứu search ảnh trong các file văn bản đó :">


Chia sẻ và không ngừng học hỏi

User avatar
Kasper
Guru
Guru
Posts: 1063
Joined: Fri 16/05/2008 10:54 am
Has thanked: 2 times
Been thanked: 76 times
Contact:

Re: Cần code string searching văn bản docx, pdf

Postby Kasper » Thu 03/11/2016 6:04 pm

Tôi search được 2 kết quả như sau:
1. Về file .doc:
  1. protected bool FindTextInWord(object text, string flname)
  2.     {
  3.         object matchCase = false;
  4.         object matchWholeWord = true;
  5.         object matchWildCards = false;
  6.         object matchSoundsLike = false;
  7.         object matchAllWordForms = false;
  8.         object forward = true;
  9.         object format = false;
  10.         object matchKashida = false;
  11.         object matchDiacritics = false;
  12.         object matchAlefHamza = false;
  13.         object matchControl = false;
  14.         object read_only = false;
  15.         object visible = true;
  16.         object replace = 2;
  17.         object wrap = 1;
  18.  
  19.         Microsoft.Office.Interop.Word.Application app = new Microsoft.Office.Interop.Word.Application();
  20.         Microsoft.Office.Interop.Word.Document docOpen = app.Documents.Open(flname);
  21.         bool val = false;
  22.         try
  23.         {
  24.             val = app.Selection.Find.Execute(ref text, ref matchCase, ref matchWholeWord,
  25.             ref matchWildCards, ref matchSoundsLike, ref matchAllWordForms, ref forward, ref wrap,
  26.             ref format, Type.Missing, Type.Missing,
  27.             Type.Missing, Type.Missing, Type.Missing, Type.Missing);
  28.         }
  29.         finally
  30.         {
  31.             app.Documents.Close();
  32.         }
  33.         return val;
  34.     }
  35.  


sử dụng:
[csharp]
FindTextInWord((object)"Proposal","your file name here");
[/csharp]

2. Về file pdf:
http://www.codeproject.com/Articles/141 ... F-in-C-NET

Trên là link đến project extract nội dung file .pdf thành text, việc còn lại của bạn là tìm trong nội dung của text này.

Chúc bạn thành công !
Lành tợ tòng, ác tợ hoa,
Nhà hòa muôn việc đều nên.

andy286
Posts: 2
Joined: Tue 01/11/2016 3:18 pm

Re: Cần code string searching văn bản docx, pdf

Postby andy286 » Thu 03/11/2016 8:01 pm

Thanks Kasper em đang nghiên cứu code anh gửi. Nếu thành công post thành quả cho a xem :D
Chia sẻ và không ngừng học hỏi


Return to “Ý tưởng của bạn”

Who is online

Users browsing this forum: No registered users and 0 guests