5/5 - (3 bình chọn)

Mỗi ngày, hàng tỷ người dùng sử dụng công cụ tìm kiếm của Google để đặt câu hỏi, về tất cả mọi thứ. Đôi khi câu hỏi còn liên quan trực tiếp đến chính công cụ Google Tìm kiếm, đại khái như: Google Tìm kiếm hoạt động như thế nào?

Chủ đề này đã được xuất bản trên hàng trăm bộ sách dầy cộp, nhưng làm thế nào để hiểu ngắn ngọn hơn về cách công cụ Google Tìm kiếm hoạt động? Giả sử bây giờ là 4:00 chiều và bạn muốn tìm kiếm công thức để làm món mỳ ý lasagna.

Kết quả tìm kiếm từ Lasagna
Kết quả tìm kiếm từ Lasagna

Có thể bạn đã từng thấy giao diện này trước đây. Nhưng hãy tìm hiểu vào sâu hơn một chút. Quay trở lại vào thời kỳ sơ khai, trang chủ Google lúc này đang còn rất đơn giản và chứa ít thông tin. Google đã liên tục lập bản đồ web, hàng trăm tỷ trang web để tạo ra một thứ gọi là chỉ mục.

Chỉ mục giống như một thư viện khổng lồ, chứa dữ liệu mà Google sử dụng để sàng lọc kết quả mỗi khi bạn tìm kiếm từ lasagna, hoặc bất cứ cụm từ nào khác.

Chỉ mục
Chỉ mục giống như một thư viện dữ liệu

Vấn đề ở đây là từ lasagna lại xuất hiện trên rất nhiều trang web, như trang web nói về lịch sử của món mỳ lasagna, bài báo liên quan đến món lasagna, hay một nhà khoa học có tên lasagna.

Nếu bạn đang đói, nhấp vào ngỗng nhiên hàng trăm triệu trang web để tìm kiếm công thức nấu món mỳ lasagna là một điều không thể, đây là lúc thuật toán sắp xếp của Google phát huy tác dụng. Đầu tiên, Google cố gắng hiểu bạn đang muốn tìm kiếm thứ gì, ngay cả trong trường hợp bạn viết sai chính tả. Sau đó Google sẽ thực hiện sàng lọc hàng triệu trang web có trong chỉ mục và sắp xếp lại thông tin để hiển thị lên trang tìm kiếm.

Trang web chứa những thông tin phù hợp nhất sẽ xuất hiện trên đầu
Trang web chứa những thông tin phù hợp nhất sẽ xuất hiện trên đầu

Trang web chứa nhiều thông tin hữu ích và phù hợp nhất sẽ được đưa lên trên cùng. Nhưng dựa vào yếu tố nào mà thuật toán của Google lại quyết định đưa trang web này lên trên cùng? Trên thực tế, có hàng trăm yếu tố quyết định đến kết quả tìm kiếm cuối cùng.

Bạn từng nghĩ các trang web có chứa từ tìm kiếm sẽ được hiển thị ra trang kết quả? Như vị trí của từ tìm kiếm xuất hiện trong tiêu đề của trang hoặc trong ghi chú của hình ảnh. Trên thực tế có rất nhiều yếu tố quyết định đến kết quả tìm kiếm, không chỉ dựa vào từ mà chúng ta tìm.

Các trang web chứa từ tìm kiếm có khả năng xuất hiện trên trang đầu
Các trang web chứa từ tìm kiếm có khả năng xuất hiện trên trang đầu

Ngay từ khi được đưa vào hoạt động, Google đã chú ý đến cách mà các trang web được liên kết với nhau, mục đích nhằm tìm ra trang web nào chứa nội dung hữu ích và đáng tin cậy. Ngày nay, liên kết vẫn là một yếu tố quan trọng, nhưng xuất hiện thêm một số yếu tố khác ảnh hưởng đến kết quả tìm kiếm, như vị trí nơi bạn đang đứng.

Vì nếu bạn đang ở Omea, nước Ý, bạn có thể đang tìm kiếm thông tin về lễ hội lasagna, hay nếu bạn đang ở Omaha, Nebraska, bạn có thể tìm kiếm thông tin khác về từ lasagna.

Google Tìm kiếm
Yếu tố thời gian quyết định kết quả tìm kiếm

Thời gian cũng là một yếu tố quyết định đến kết quả tìm kiếm, vì nội dung vừa được đăng tải lên trang web thường chứa thông tin chính xác hơn, đặc biệt đúng khi nói về phần tin tức nhanh.

Hơn hết, không phải mọi trang web đều chứa thông tin hữu ích, cũng giống như cuộc gọi tự động từ nhà mạng hoặc tin nhắn spam trong email, có rất nhiều trang web được lập ra với mục đích lừa đảo. Mỗi ngày, những kẻ lừa đảo đăng tải lên trang web hàng triệu kết quả tìm kiếm. Vậy nên khi một trang web chứa 400 từ lasagna, không có nghĩa là trang web đó sẽ chứa thông tin hữu ích.

Trang web chứa 400 từ lasagn không có nghĩa là trang web đó hữu ích
Trang web chứa 400 từ lasagn không có nghĩa là trang web đó hữu ích

May mắn thay, Google luôn có cách để đối phó với những mánh khóe như thế này, đảm bảo thuật toán có thể nhận diện ra những trang web lừa đảo và gắn cờ trước khi trang web lừa đảo lọt vào bảng kết quả tìm kiếm. Hàng tỷ lần mỗi ngày, bất cứ khi nào bạn tìm kiếm từ lasagna, Google sẽ thực hiện sàng lọc những trang web hữu ích có trong chỉ mục và loại bỏ trang web lừa đảo ra khỏi kết quả tìm kiếm, dựa hàng trăm yếu tố như từ khóa tìm kiếm, liên kết, vị trí tìm kiếm và độ mới.

Từ năm 1998, khi Google bắt đầu được đưa vào hoạt động, mọi người đã đánh giá cao kết quả tìm kiếm của công cụ này, nhưng công nghệ luôn thay đổi và mọi người luôn tìm kiếm điều mới mẻ. Trên thực tế, có khoảng 1 trong 7 trang web chứa thông tin người dùng cần tìm không được hiển thị trên trang kết quả tìm kiếm. Không chỉ tiến hành cải tiến công cụ Tìm kiếm, mà Google cũng cần đến những người như bạn để quyết định kết quả tìm kiếm. Mỗi ngày có hàng ngàn người tham gia xếp hạng chất lượng trang web và Google sẽ sử dụng những đánh giá này để quyết định kết quả tìm kiếm cuối cùng.

Google sử dụng đánh giá để quyết định kết quả tìm kiếm
Google sử dụng đánh giá để quyết định kết quả tìm kiếm

Tóm gọn lại, mỗi khi bạn nhấp vào tìm kiếm, các thuật toán của Google sẽ hoạt động, phân tích ý nghĩa của từ ngữ bạn muốn tìm thông tin, sau đó sàng lọc nội dung có khả năng hữu ích nhất dựa vào các yếu tố như nơi tìm kiếm, đánh giá từ người dùng, độ mới của thông tin,… rồi mới đưa ra bảng kết quả tìm kiếm.

Tất nhiên đây chỉ là tóm tắt nhanh cách công cụ Google Tìm kiếm hoạt động. Bạn nào hiểu rõ hơn xin chia sẻ thêm cho mình và những bạn khác cùng biết nhé.

Hướng dẫn chuyên sâu về cách thức hoạt động của Google Tìm kiếm

Google Tìm kiếm là một công cụ tìm kiếm hoàn toàn tự động, sử dụng những phần mềm được gọi là trình thu thập dữ liệu web có chức năng thường xuyên khám phá Internet nhằm tìm các trang để thêm vào chỉ mục của chúng tôi. Trên thực tế, rất ít trang xuất hiện trong các kết quả tìm kiếm của chúng tôi được gửi theo cách thủ công. Phần lớn các trang được tự động tìm thấy và thêm vào kết quả khi trình thu thập dữ liệu web của chúng tôi khám phá các trang web. Tài liệu này giải thích các giai đoạn trong cách thức hoạt động của Tìm kiếm cho bối cảnh trang web của bạn. Khi nắm được kiến thức cơ sở này, bạn có thể khắc phục các vấn đề về quá trình thu thập dữ liệu, lập chỉ mục các trang và tìm hiểu cách tối ưu hoá trang web trên Google Tìm kiếm.

Trước khi đi sâu vào cách thức hoạt động của Tìm kiếm, bạn cần lưu ý rằng Google không nhận tiền để thu thập dữ liệu thường xuyên hơn hay tăng thứ hạng cao hơn cho trang web. Nếu ai đó nói khác thì họ đã nhầm.

Google không đảm bảo sẽ thu thập dữ liệu, lập chỉ mục hoặc phân phát trang của bạn, ngay cả khi trang của bạn tuân thủ Nguyên tắc cơ bản của Google Tìm kiếm.

Google Tìm kiếm hoạt động theo ba giai đoạn và không phải tất cả các trang đều vượt qua được mỗi giai đoạn:

  1. Thu thập dữ liệu: Google dùng các chương trình tự động gọi là trình thu thập dữ liệu để tải văn bản, hình ảnh và video trên các trang mà chúng tôi tìm thấy trên Internet.
  2. Lập chỉ mục: Google phân tích các tệp văn bản, hình ảnh và video trên trang rồi lưu trữ thông tin trong chỉ mục của Google, một cơ sở dữ liệu lớn.
  3. Phân phát kết quả tìm kiếm: Khi người dùng tìm kiếm trên Google, Google sẽ trả về thông tin liên quan đến cụm từ mà người dùng tìm kiếm.

Giai đoạn đầu tiên là tìm hiểu những trang tồn tại trên Internet. Do không tồn tại một danh mục trung tâm về mọi trang web, Google phải liên tục tìm những trang mới và mới cập nhập, rồi thêm những trang đó vào danh sách các trang đã biết. Quá trình này gọi là “Phát hiện URL”. Google biết đến một số trang vì chúng tôi từng truy cập những trang đó. Google phát hiện các trang khác khi đi theo đường liên kết từ một trang đã biết đến một trang mới, ví dụ: một trang trung tâm (chẳng hạn như trang danh mục) liên kết đến một bài đăng mới trên blog. Ngoài ra, chúng tôi cũng phát hiện một số trang khác khi bạn gửi danh sách các trang (sơ đồ trang web) để Google thu thập dữ liệu.

Khi phát hiện ra URL của một trang, Google có thể truy cập (hoặc “thu thập dữ liệu”) trang đó để tìm hiểu nội dung trên trang. Chúng tôi sử dụng một số lượng lớn máy tính để thu thập dữ liệu của hàng tỷ trang trên Internet. Chương trình thực hiện việc tìm nạp của chúng tôi được gọi là Googlebot (còn gọi là robot, bot, spider hay trình thu thập dữ liệu). Googlebot sử dụng một quy trình dựa trên thuật toán để xác định những trang web cần thu thập dữ liệu, tần suất thu thập và số trang cần tìm nạp trên từng trang web. Trình thu thập dữ liệu của Google cũng được lập trình để cố gắng không thu thập dữ liệu quá nhanh trên trang web để tránh làm quá tải trang web. Cơ chế này dựa trên phản hồi của trang web (ví dụ: lỗi HTTP 500 tức là “chậm lại”) và chế độ cài đặt trong Search Console.

Tuy nhiên, Googlebot không thu thập dữ liệu tất cả các trang mà Googlebot phát hiện được. Một số trang có thể không được chủ sở hữu trang web cho phép thu thập dữ liệu, một số trang khác có thể không truy cập được nếu không đăng nhập vào trang web.

Trong quá trình thu thập dữ liệu, Google kết xuất trang và chạy mọi JavaScript tìm được bằng cách sử dụng một phiên bản Chrome mới, tương tự như cách trình duyệt của bạn kết xuất các trang mà bạn truy cập. Quá trình kết xuất đóng vai trò quan trọng vì các trang web thường dựa vào JavaScript để đưa nội dung vào trang. Nếu không thực hiện quy trình kết xuất thì có thể Google sẽ không thấy nội dung đó.

Khả năng thu thập dữ liệu phụ thuộc vào việc trình thu thập dữ liệu của Google có truy cập được trang web hay không. Một số vấn đề thường gặp khi Googlebot truy cập các trang web bao gồm:

  • Sự cố với máy chủ xử lý trang web
  • Sự cố mạng
  • Các quy tắc trong tệp robots.txt ngăn Googlebot truy cập trang

Sau khi thu thập dữ liệu trên một trang, Google sẽ cố gắng tìm hiểu nội dung của trang đó. Giai đoạn này gọi là lập chỉ mục và bao gồm cả hoạt động xử lý và phân tích nội dung văn bản cũng như thẻ và thuộc tính chính của nội dung, chẳng hạn như phần tử <title> và thuộc tính alt, hình ảnh, video, v.v.

Trong quá trình lập chỉ mục, Google xác định xem một trang có phải là trang trùng lặp của một trang khác trên Internet hay trang chính tắc không. Trang chính tắc là trang có thể xuất hiện trong kết quả tìm kiếm. Để chọn trang chính tắc, trước tiên, chúng tôi sẽ nhóm các trang có nội dung tương tự với nhau (còn gọi là hoạt động phân cụm) mà chúng tôi tìm thấy trên Internet. Sau đó, chúng tôi sẽ chọn trang tiêu biểu nhất trong nhóm đó. Các trang khác trong nhóm là các phiên bản thay thế có thể được phân phát trong các trường hợp khác nhau, như khi người dùng đang tìm kiếm trên thiết bị di động hoặc đang tìm một trang rất cụ thể trong nhóm đó.

Google cũng thu thập các tín hiệu về trang chính tắc và nội dung của trang đó (có thể dùng trong giai đoạn tiếp theo) để phân phát trang trong kết quả tìm kiếm. Có một số tín hiệu bao gồm cả ngôn ngữ của trang, quốc gia bản địa của nội dung, khả năng hữu dụng của trang, v.v.

Thông tin được thu thập về trang chính tắc và cụm của trang đó có thể được lưu trữ trong chỉ mục của Google, một cơ sở dữ liệu lớn được lưu trữ trên hàng nghìn máy tính. Google không đảm bảo hoạt động lập chỉ mục; không phải mọi trang mà Google xử lý đều sẽ được lập chỉ mục.

Hoạt động lập chỉ mục cũng phụ thuộc vào nội dung và siêu dữ liệu của trang. Một số vấn đề thường gặp khi lập chỉ mục có thể bao gồm:

  • Chất lượng nội dung trên trang thấp
  • Quy tắc meta Robots ngăn việc lập chỉ mục
  • Có thể thiết kế của trang web gây khó khăn cho việc lập chỉ mục

Google không nhận tiền để xếp hạng các trang cao hơn và quy trình xếp hạng được thực hiện theo chế độ lập trình. Tìm hiểu thêm về quảng cáo trên Google Tìm kiếm.

Khi người dùng nhập một cụm từ tìm kiếm, công cụ tìm kiếm của chúng tôi sẽ tìm kiếm các trang thích hợp trong chỉ mục và trả về kết quả mà chúng tôi cho là có chất lượng cao nhất và liên quan nhất với cụm từ tìm kiếm của họ. Mức độ liên quan được xác định dựa trên hàng trăm yếu tố, có thể bao gồm cả thông tin về vị trí, ngôn ngữ và thiết bị của người dùng (máy tính hoặc điện thoại). Ví dụ: khi tìm kiếm cùng một cụm từ là “cửa hàng sửa xe đạp”, người dùng ở Paris và người dùng ở Hong Kong sẽ nhận được những kết quả khác nhau.

Dựa trên cụm từ tìm kiếm của người dùng, các tính năng của kết quả tìm kiếm xuất hiện trên trang kết quả tìm kiếm cũng thay đổi. Ví dụ: khi tìm kiếm “cửa hàng sửa xe đạp”, có thể người dùng sẽ thấy kết quả địa phương và không có kết quả hình ảnh nào; trong khi đó, khi tìm kiếm “xe đạp hiện đại”, nhiều khả năng người dùng sẽ thấy kết quả hình ảnh thay vì kết quả tại địa phương. Bạn có thể khám phá các thành phần phổ biến nhất trên giao diện người dùng Google Web Search trong Thư viện Phần tử trực quan của chúng tôi.

Có thể Search Console cho bạn biết rằng một trang đã được lập chỉ mục nhưng bạn lại không thấy trang đó trên kết quả tìm kiếm. Điều này có thể là do:

  • Nội dung trên trang không liên quan đến cụm từ tìm kiếm của người dùng
  • Chất lượng nội dung trên trang thấp
  • Quy tắc meta Robots ngăn chặn việc phân phát

Hướng dẫn này giải thích cách thức hoạt động của Tìm kiếm. Dù vậy, hãy lưu ý rằng chúng tôi luôn không ngừng nỗ lực cải thiện thuật toán của mình. Bạn có thể theo dõi những thay đổi này bằng cách theo dõi blog của Trung tâm Google Tìm kiếm.

Nguồn: Google

5/5 - (3 bình chọn)

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Nội dung liên quan: