Khái niệm Search Engine là gì?
earch Engine (hay còn gọi với cái tên đầy đủ hơn là Web Search Engine) được dịch nghĩa là công cụ tìm kiếm, đây là một loại hệ điều hành được thiết kế với chức năng tìm kiếm các thông tin tren mạng World Wide Web. Khi người dùng muốn tìm kiếm một thứ gì đó họ sử dụng công cụ tìm kiếm, đầu tiên họ cần nhập một hay nhiều từ khóa của chủ đề họ câfn tìm, các kết quả được trả về bao gồm: trang web, hình ảnh, video…. có liên quan đến chủ đề mà họ tìm kiếm.
Bằng các thuật toán tìm kiếm của mình, Search Engine trả về các kết quả được sắp xếp theo một thứ tự nhất định. Tùy vào mỗi công cụ tìm kiếm, sẽ có kết quả khác nhau. Vì đây là những kết quả không có sự can thiệp từ phía con người, nên các kết quả này còn được gọi là kết quả tìm kiếm tự nhiên (Organic Search Traffic).
Các công cụ tìm kiếm phổ biến hiện nay
Hiện nay, có rất nhiều công cụ tìm kiếm khác nhau trên toàn cầu, tuy nhiên chiếm thị phần nhiều nhất là Google Search, chiếm khoảng 70%.
Tuy nhiên, tùy vào mỗi quốc gia các công cụ tìm kiếm chiếm thị phần khác nhau. Chẳng hạn, tại Nga và một số quốc gia đông á, Google bị mất vị trí dẫn đầu về thị phần vào tay của những đối thủ khác, cụ thể là Yandex. Đây là công cụ tìm kiếm được sử dụng nhiều nhất và phổ biến nhất tại Nga, chiếm 61,9%. Tại Trung Quốc, Baidu là công cụ tìm kiếm phổ biến nhất, ở hàn là Naver, còn ở Nhật Bản và Đài Loan là Yahoo! (wikipedia.com)
Đối với thị trường Việt Nam, Cốc Cốc là công cụ tìm kiếm có lượng người dùng truy cập hàng ngày nhiều nhất. Tuy nhiên, kết quả trên công cụ này chủ yếu được thực hiện bởi Google Search, cho nên Google vẫn là công cụ tìm kiếm phổ biến nhất tại Việt Nam
Cấu tạo của Search Engine
Cấu tạo của Search Engine thường gồm 3 bộ phận chính, điều này giúp các công cụ tìm kiếm giảm thiểu tối đa thời gian tìm kiếm thông tin cho người dùng:
- Spider – Crawler – Bot là một công cụ giúp Search Engine thu thập dữ liệu của bất kỳ trang web nào, những dữ liệ này bao gồm thông tin về nội dung trên trang, số lượng và tần soauats liên kết của các trang web khác đến trang đó. Quá trình thu thập dữ liệu của spider thưc hiện không ngừng nghỉ, chúng chỉ kết thức khi tất cả các liên kết có liên quan được thu thập dữ liệu hết. Thông tin liên kết đến và đi khỏi website sẽ được gắn liền với các webstie, điều này giúp Search Engine đánh giá độ phổ biến cũng như sự uy tín của website đó ( chỉ số DA và DP). Từ một trang ban đầu, Spider có thể đã thu thập dữ liệu của hàng triệu các website khác, đảm bảo tất cả các website đều có thể được thu thập dữ liệu và được đánh giá một cách chính xác nhất.
- Index (công cụ lập chỉ mục) thực hiện việc lưu trữ tối ưu toàn bộ dữ liệu mà nó đã thu thập từ một trang web. Chúng bao gồm nội dung và các liên kết đi và đến trên trang. Các dữ liệu này sẽ được mã hóa dưới dạng file text (văn bản) để có thể lưu lại với dung lượng thấp nhất và trích xuất kết quả tìm kiếm được nhanh nhất. Dữ liệu sau khi được mã hóa sẽ được phân tích và lập chỉ mục lưu lại trong bộ cơ sở dữ liệu gốc, giúp cho Search Engine không phải tìm thông tin trên từng website mỗi khi có người dùng tìm kiếm từ khóa, giảm thiểu tối đa thời gian trả về kết quả tìm kiếm cho người dùng.
- Công cụ trích xuất kết quả tìm kiếm: Khi có một tìm kiếm của người dùng được gởi đến cho Search Engine, từ khóa đó sẽ phải đi qua các bộ lọc truy vấn nhằm giúp công cụ tìm kiếm đánh giá rõ hơn về thông tin tìm kiếm và thông tin của người dùng. Từ đó, tìm kiếm và trích xuất các thông tin từ những dữ liệu đã được index sao cho phù hợp với truy vấn của người dùng nhất. Về bản chất, mỗi khi người dùng tìm kiếm thông tin trên mạng, họ chỉ đang tìm kiếm thông tin trên những bản lưu website mà Search Engine đã lưu trước đó.
- Bảng kết quả tìm kiếm(SERP): Kết quả tìm kiếm của Google sau khi được Công cụ trích xuất kết quả tìm kiếm xử lý và xếp hạng kết quả tìm kiếm, sẽ được hiển thị trên một bảng kết quả như chúng ta vẫn thấy khi sử dụng Google.
Các Search Engine hàng đầu hiện nay
Google Search
Có thể nói Google Search là một trong những công cụ tìm kiếm được sử dụng phổ biến hiện nay. Đây là công cụ thuoọc sở hữu bởi tập đoàn Google. Ước tính, mỗi này có tới hơn 3 tỷ lượt tìm kiếm trên công cụ này. Công cụ này được phát triển năm 1997 bởi Larry Page và Sergey Brin, đến năm 1998, Google đã chính thức ra mắt công cụ tìm kiếm của mình.
Cho đến nay, sau nhiều năm cập nhập và phát triển, với hàng tỉ dữ liêu jđược lưu trữ, tốc độ tìm kiếm ưu việt hàng đầu và luôn đi tiên phong trong việc tạo và cập nhập các thuật toán chống spam giúp Google đem lại những trải nghiệm tốt nhất cho người dùng
Yahoo! Search
Yahoo Search được thành lập từ những năm 1995, đây là công cụ tìm kiếm thuộc quyền sở hữu của tập đoàn Yahoo!. Tuy nhiên phải đến năm 2004 công cụ này mới chính thức trình làng. Cho đến tháng 2/2015 đây là công cụ tìm kiếm lớn thứ 3 tại Mỹ với hơn 12,8% lượt truy vấn tìm kiếm. Mặc dù ra sau nhưng với lợi thế sở hữu Yahoo! Messenger và Yahoo! Mail , công cụ này vẫn cạnh ranh khá tốt với các công cụ ra đời trước.
Việc cạnh tranh khốc liệt với Google đã khiến Yahoo! và Microsoft hợp tác cùng phát triển Bing Yahoo Search năm 2009.
Bing Search
Bing Search đươcj biết điến là tiền thân của MSN Search (trước đó là Live Search, Windows Live Search) được ra mặt vào ngày 28/05/2009, là công cụ tìm kiếm của tập đoàn Micrrosoft. Bing Search thực sự thành công khi trở thành công cụ tìm kiếm lớn thứ hai thị trường Bắc Mỹ.
Như mục phía trên đã nói ,ngày 29/07/2009 Microsoft và Yahoo! đã đi đến một thỏa thuận mười năm với nội dung:
Yahoo! Search sẽ được thay thế bởi Bing Search. Yahoo! sẽ nhận được 88% doanh thu từ tất cả các doanh thu quảng cáo tìm kiếm trên công cụ tìm kiếm này.
Baidu
Baidu là một công cụ tìm kiếm được thiết kế ra dành riêng cho người sử dụng tiếng Trung. Đây là công cụ tìm kiếm của Trung Quốc thành công nhất cho đến nay. Baidu ra mắt năm 2000, cho đến nay Baidu là công cụ tìm kiếm được sử dụng nhiều thứ 2 trên thế giới chỉ sau Google.
Đằng sau sự thành công của Baidu, phải kể đến công rất lớn từ sự hỗ trợ độc quyền của chính phủ Trung Quốc. Tuy nhiên, đây là một trong những công cụ kế thừa rất tốt từ những người đi trước như Google hay Wikipedia.