Nghiên cứu công nghệ tìm kiếm (Mã nguồn mở) Lucene áp dụng giải quyết bài toán tìm kiếm trong hệ thống Văn bản

http://repository.vnu.edu.vn/handle/VNU_123/54301 Về lý thuyết, luận văn tìm hiểu về các thành phần cơ bản của một hệ thống tìm kiếm thông tin bao gồm: Thành phần Thu thập dữ liệu: thực hiện thu thập toàn bộ dữ liệu sẽ tìm kiếm đưa về một nguồn tập trung để phục vụ quá trình phân tích và đánh chỉ mục dữ liệu. Thành phần Đánh chỉ mục dữ liệu: thực hiện phân tích, tiền xử lý nội dung dữ liệu, sau đó tiến hành đánh chỉ mục dữ liệu theo cách thức, cơ chế và yêu cầu của từng máy tìm kiếm cụ thể. Thành phần Tìm kiếm dữ liệu: thực hiện phân tích câu truy vấn và tìm kiếm tài liệu trên các file index, sau đó kết hợp với thông tin xếp hạng để trả lại kết quả tìm kiếm cho người dùng. Luận văn cũng tìm hiểu một cách hệ thống các tính năng và hoạt động của mã nguồn mở Lucene như: Lucene cung cấp khả năng phân tích dữ liệu, tạo chỉ mục cho các tài liệu để xây dựng nên hệ thống chỉ mục, cung cấp khả năng tiếp nhận các xâu truy vấn của người dùng, thực hiện tìm kiếm dựa trên hệ thốn...