Cài đặt và sử dụng công cụ Desktop Indexer

Hướng dẫn áp dụng cho các đơn vị sử dụng từ đầu năm 2021 trở về trước và chưa chuyển sang hệ thống quản lý dữ liệu nội sinh trên website.

Công cụ Desktop Indexer là phần mềm dành cho các đơn vị sử dụng KTTL từ năm 2021 trở về trước khi chưa có hệ thống quản lý dữ liệu nội sinh. Các đơn vị triển khai từ năm 2021 sẽ sử dụng hoàn toàn hệ thống quản lý dữ liệu nội sinh với nhiều chức năng hơn (như quản lý, phân quyền, lưu lịch sử thay đổi), dễ sử dụng, không mất công cài đặt và có bảo mật cao hơn.

Chức năng chính của công cụ là xử lý và trích xuất dữ liệu từ các tài liệu trong thư mục mà người dùng chọn thành dạng text (chỉ có nội dung chữ, không có định dạng hoặc thông tin tài liệu); đảo thứ tự giữa các đoạn văn để đảm bảo không khôi phục được tài liệu gốc; sau đó đẩy nội dung đã được xáo trộn lên Hệ thống quản lý dữ liệu nội sinh để đánh chỉ mục vào cơ sở dữ liệu tìm kiếm của đơn vị.

Thiết lập môi trường chạy phần mềm

Yêu cầu về phần mềm

Hệ điều hành Windows, MacOS hoặc Ubuntu

RAM tối thiểu 2GB, khuyến nghị 4GB. Lưu ý nếu dung lượng RAM của máy tính còn lại thấp thì nên tắt bớt các ứng dụng để giải phóng bộ nhớ.

Cài đặt Java 8

Nếu máy của bạn chưa cài đặt Java 8, hãy vào đường dẫn sau để tải Java 8 về máy: Đường dẫn tải JDK 8

Sau khi tải về, hãy click vào file .exe đã tải và bắt đầu cài đặt.

Lưu ý là công cụ yêu cầu phải cần cài đúng chính xác phiên bản Java 8. Các phiên bản java khác như 7, 11,14,... chưa được hỗ trợ.

Chạy công cụ index

1. Giải nén file và chạy công cụ

Mỗi đơn vị sẽ được cung cấp một file zip chứa công cụ. Sau khi nhận được công cụ, bạn hãy giải nén file .zip được cung cấp.

Sau khi giải nén, danh sách các tệp (file) sẽ như sau:

Để bắt đầu chạy công cụ, hãy click 2 lần vào file run.bat (với máy tính sử dụng hệ điều hành Windows) hoặc run.sh (với máy tính sử dụng hệ điều hành Mac hoặc Linux).

2. Chọn thư mục chứa tài liệu

Đầu tiên, bạn cần đưa tất cả những file cần được index vào 1 thư mục. Bạn có thể tạo nhiều thư mục con bên trong thư mục chính, công cụ sẽ quét toàn bộ các thư mục và tệp bên trong thư mục mà bạn chọn.

Một thư mục có thể được chọn để index nhiều lần, khi đó công cụ sẽ tự bỏ qua những tệp tin đã được index và chỉ index những tệp tin mới, đảm bảo 1 tệp tin chỉ được index tối đa 1 lần. Việc xác định 1 tệp tin đã được index hay chưa dựa trên dung lượng và hash của tệp tin đó, do đó nếu có chỉnh sửa về nội dung, kể cả có thay đổi 1 ký tự hay chỉnh lại định dạng (font, kích thước chữ,...), thì công cụ sẽ xác định file chỉnh sửa đó là file mới và index file đó.

Vì công cụ sẽ mặc định lấy tên file làm tiêu đề của nguồn dữ liệu và hiển thị trên báo cáo kết quả trùng lặp. Bạn lưu ý nên đặt tên file rõ ràng, đủ thông tin để phục vụ việc tìm kiếm và truy vết sau này. Ví dụ: KLTN_2022_CNTT_Nguyễn Văn A.docx

Các định dạng file hỗ trợ: doc, docx, pdf. Hiện tại công cụ chưa hỗ trợ các tài liệu scan

Khi bạn đã chuẩn bị xong thư mục cần được index, hãy vào Công cụ Index và click vào nút chọn file để chọn thư mục.

3. Kiểm tra danh sách tài liệu

Sau khi chọn thư mục, danh sách các tài liệu trong thư mục sẽ được hiển thị.

Nếu thư mục nặng (hoặc máy chậm) sẽ có 1 khoảng thời gian trễ sau khi chọn thư mục.

Danh sách tài liệu sẽ ở trạng thái “Chờ Index” (với tài liệu mới). Các tài liệu đã từng được index sẽ không được liệt kê trong danh sách này.

Nếu chọn sai thư mục hoặc cần đồng bộ lại danh sách (nếu bạn có xóa/thêm file nào đó trong thư mục), bạn có thể thực hiện lại hành động 2. Chọn thư mục chứa tài liệu

Index dữ liệu

Hãy click vào nút Bắt đầu để đẩy dữ liệu lên. Tài liệu sẽ được đồng bộ từ từ lên hệ thống quản lý dữ liệu nội sinh

Các tài liệu đã được đẩy lên sẽ chuyển sang trạng thái Đã Index.

Lưu ý: Một số tài liệu có thể gặp lỗi trong quá trình xử lý, hầu hết những lỗi này đều là do file bị hỏng định dạng, file scan, bị khóa,... Trong trường hợp này, hãy kiểm tra mở thử file đó để kiểm tra. Nếu file mở ra thành công và không phải là file scan (hãy thử copy-cắt và paste-dán một đoạn nội dung trong file đó ra nơi khác xem được không), vui lòng gửi file cho bộ phận kỹ thuật để kiểm tra.

Sau khi hoàn tất, bạn có thể thực hiện lại từ bước 2. Chọn thư mục chứa tài liệu để đẩy thêm dữ liệu từ thư mục khác.

Last updated