Bài 1: Công cụ tìm kiếm hoạt động như thế nào?

October 28, 2017

Những công cụ tìm kiếm hiện đại ngày nay như Google, Bing, … thường có 2 chức năng chính: quét dữ liệu (crawling) + lập chỉ mục (indexing) và cung cấp cho người tìm kiếm danh sách các câu trả lời là các trang web mà chúng xác định có liên quan nhất.

Quét dữ liệu và lập chỉ mục

Hãy tưởng tượng thế giới World Wide Web như là một mạng lưới các điểm dừng trong một hệ thống tàu điện ngầm tại các thành phố lớn.

Mỗi 1 điểm dừng là 1 tài liệu duy nhất (thông thường là trang web, nhưng đôi khi có thể là tập tin PDF, hình JPG hoặc các loại tài liệu khác). Công cụ tìm kiếm cần một cách để thu thập toàn bộ thông tin trong thành phố và tìm tất cả các điểm dừng, và cách họ dùng là sử dụng các con đường có sẵn tốt nhất – đó là liên kết.

Cấu trúc liên kết của các máy chủ web sẽ kết hợp các trang khác nhau

Liên kết cho phép các robot của công cụ tìm kiếm tiếp cận hàng tỷ trang web được kết nối với nhau trên thế giới World Wide Web. Các robot của công cụ tìm kiếm thường được gọi là spider hoặc crawler.

Một khi công cụ tìm kiếm tìm được những trang web này, chúng sẽ đọc mã nguồn của các trang web và lưu trữ các thông tin phù hợp trong một cơ sở dữ liệu khổng lồ. Để hoàn thành nhiệm vụ lưu trữ hàng tỷ trang web khác nhau mà có thể truy xuất trong một phần của giây, các công cụ tìm kiếm đã xây dựng các trung tâm dữ liệu khắp nơi trên thế giới.

Những cơ sở lưu trữ khổng lồ này chứa hàng nghìn máy tính để xử lý thông tin một cách nhanh nhất. Khi ai đó tìm kiếm, kết quả sẽ được trả về gần như tức thời.

Cung cấp câu trả lời

Công cụ tìm kiếm còn được gọi là “máy trả lời”. Khi ai đó tìm kiếm, công cụ tìm kiếm sẽ tìm trong hàng tỷ trang web khác nhau và thực hiện 2 việc:

+ Việc thứ nhất

Nó sẽ trả về kết quả là những trang liên quan hoặc hữu ích cho truy vấn của người tìm kiếm.

+ Việc thứ hai

Nó sẽ xếp hạng các kết quả dựa trên mức độ phổ biến của website có chứa trang web được liệt kê ở trên.

Làm thế nào công cụ tìm kiếm xác định sự liên quan và độ phổ biến?

Đối với công cụ tìm kiếm, sự liên quan có ý nghĩa nhiều hơn việc tìm kiếm một trang web với những từ thích hợp.

Nhiều năm trước đây, công cụ tìm kiếm chỉ dựa vào một vài yếu tố để đưa ra kết quả và điều này đã được các webmaster khai thác triệt để làm “méo mó” kết quả tìm kiếm. Theo thời gian, các công cụ tìm kiếm dần cải tiến và ngày càng thông minh hơn. Cho đến hiện tại, như Google chẳng hạn, đã có hàng trăm yếu tố khác nhau để cùng xác định sự liên quan. Dĩ nhiên, những thằng ngu như chúng ta sẽ biết được những yếu tố quan trọng nhất thông qua giáo trình này.

Công cụ tìm kiếm thường cho rằng mức độ phổ biến của một webite, một trang web, hay một tài liệu sẽ tỷ lệ thuận với giá trị nội dung của website, trang web hay tài liệu đó. Giả thuyết này có vẻ đúng! Hãy thử nghĩ xem, nếu bạn đọc được một nội dung hay, hữu ích, bạn có chia sẻ cho nhiều người không? Những người nhận chia sẻ từ bạn có tiếp tục chia sẻ không? Và cứ thế … mức độ phổ biến dần dần tăng cao.

Mức độ phổ biến và sự liên quan không xác định bằng cách thủ công mà công cụ tìm kiếm sử dụng những thuật toán phân loại và xếp hạng. Những thuật toán này có hàng trăm biến số khác nhau, không ai có thể biết được tất cả các biến số, và trong thế giới SEO, các biến số này được gọi “ranking factors” – các yếu tố xếp hạng.

Bây giờ, hãy theo dõi đoạn clip ngắn của Matt Cutts – kỹ sử trưởng của dự án chống SPAM từ Google nói gì về cách thức hoạt động của công cụ tìm kiếm.