SEO.VIETISO.COM - SEARCH ENGINE OPTIMIZATION
DỊCH VỤ SEO HÀNG ĐẦU, TƯ VẤN QUẢNG BÁ CHUYÊN NGHIỆP CỦA VIETISO
Crawler - Spider : Những điều chưa biết
Những cỗ máy tìm kiếm tự động, như Google, tạo ra những danh sách của họ tự động. Chúng sử dụng các chương trình máy tính, được gọi là “robots“, “spiders”, hay crawlers để lần tìm thông tin trên mạng. Khi có ai đó tìm kiếm một thông tin, các Search Engine lập tức hiển thị các thông tin lưu trữ tương ứng. Nếu bạn thay đổi những trang web của các bạn, những cỗ máy tìm kiếm tự động dần dần tìm thấy những sự thay đổi này, và điều đó có thể ảnh hưởng đến bạn được liệt kê như thế nào.
Tags:
crawler spider
Bot là viết tắt của robot, tức các chương trình tự động hoá (chứ không phải là người máy như nghĩa chúng ta vẫn gọi) thường xuyên được sử dụng trong thế giới Internet. Một ví dụ về bot đó là search enginer. Người ta định nghĩa spider được dùng bởi các công cụ tìm kiếm trực tuyến, ánh xạ website và phần mềm đáp ứng theo yêu cầu trên IRC (như eggdrop) là robot.
Bên cạnh các ứng dụng kể trên, bot còn có thể được cài đặt tại nơi đòi hỏi tốc độ phản ứng cao hơn tốc độ của con người (chẳng hạn bot trò chơi điện tử và bot tại các trang web bán đấu giá) hoặc trong các tình huống cần đến sự bắt chước các hoạt động của con người (chẳng hạn các chatbot - bot nói chuyện).
Botnet là từ chỉ một tập hợp các robot phần mềm hoặc các con bot hoạt động một cách tự chủ. Từ này còn được dùng để chỉ một mạng các máy tính sử dụng phần mềm tính toán phân tán.
Tuy từ "botnet" có thể dùng để chỉ một nhóm bot bất kỳ, chẳng hạn IRC bot, từ này thường được dùng để chỉ một tập hợp các máy tính đã bị tấn công và thỏa hiệp và đang chạy các chương trình độc hại, thường là sâu máy tính, trojan horse hay các cửa hậu, dưới cùng một hạ tầng cơ sở lệnh và điều khiển. Một chương trình chỉ huy botnet (botnet's originator hay bot herder) có thể điều khiển cả nhóm bot từ xa, thường là qua một phương tiện chẳng hạn như IRC, và thường là nhằm các mục đích bất chính. Mỗi con bot thường chạy ẩn và tuân theo chuẩn RFC 1459 (IRC). Thông thường, kẻ tạo botnet trước đó đã thỏa hiệp một loạt hệ thống bằng nhiều công cụ đa dạng (tràn bộ nhớ đệm, ...). Các bot mới hơn có thể tự động quét môi trường của chúng và tự lan truyền bản thân bằng cách sử dụng các lỗ hổng an ninh và mật khẩu yếu. Nếu một con bot có thể quét và tự lan truyền qua càng nhiều lỗ hổng an ninh, thì nó càng trở nên giá trị đối với một cộng đồng điều khiển botnet.
Các botnet đã trở nên một phần quan trọng của Internet, tuy chúng ngày càng ẩn kĩ. Do đa số các mạng IRC truyền thống thực hiện các biện pháp cấm truy nhập đối với các botnet đã từng ngụ tại đó, những người điều khiển botnet phải tự tìm các server cho mình. Một botnet thường bao gồm nhiều kết nối, chẳng hạn quay số, ADSL và cáp, và nhiều loại mạng máy tính, chẳng hạn mạng giáo dục, công ty, chính phủ và thậm chí quân sự. Đôi khi, một người điều khiển giấu một cài đặt IRC server trên một site công ty hoặc giáo dục, nơi các đường kết nối tốc độ cao có thể hỗ trợ một số lớn các bot khác. Chỉ đến gần đây, phương pháp sử dụng bot để chỉ huy các bot khác mới phát triển mạnh, do đa số hacker không chuyên (script kiddie) không đủ kiến thức để sử dụng phương pháp này.
Human-Powered Directories - Các thư mục do con người quản lý và cập nhật
Các thư mục Internet - ví dụ như Dự án thư mục mở - Open Directory Project (Dmoz.org) hòan tòan phụ thuộc vào sự quản lý của con người. Bạn đăng ký website của bạn vào thư mục với một vài dòng mô tả ngắn gọn hoặc các biên tập viên của thư mục viết giúp phần mô tả cho bạn - chúng phù hợp với nội dung và chủ đề của từng danh mục.
Việc thay đổi những trang web của các bạn không có hiệu lực trên danh mục của các bạn. Những thứ hữu ích để cải thiện vị trí xếp hạng với một cỗ máy tìm kiếm không có gì để làm với việc cải thiện một vị trí trong một thư mục. Ngoại lệ duy nhất là một site tốt, với nội dung tốt, có lẽ thích hợp hơn để được xem xét so với một website nghèo nàn.
“Hybrid Search Engines” - Các hệ thống tìm kiếm tổng hợp
Ngày trước, mỗi cỗ máy tìm kiếm sử dụng giải thuật riêng để tạo sự khác biệt. Đã là hệ thống tìm kiếm tự động thì không kèm theo một thư mục internet và ngược lại. Nhưng hiện nay, hầu hết hệ thống tìm kiếm đều là sự tổng hợp của hệ thống tìm kiếm tự động và một thư mục do con người quản lý. Ví dụ, Yahoo có Yahoo Directory, Google có Google directory (dựa trên thư mục Dmoz), MSN và các hệ thống tìm kiếm khác cũng vậy.
Các thành phần của một cỗ máy tìm kiếm tự động
Những cỗ máy tìm kiếm tự động có ba phần tử chính. Đầu tiên là spider, cũng được gọi là crawlers. Spider đến thăm một trang web, đọc nó, và sau đó đi theo sau những mối liên kết tớ những trang khác bên trong website. Có nghĩa là, khi có ai đó tìm kiếm đến một trang, các spiders sẽ ghi nhớ điều đó. Nó sẽ quay lại trang đó và theo chu kỳ 1-2 tháng. Như vậy, nếu trang web được tìm thấy càng nhiều, thì các spiders càng năng quay trở lại hơn và như thế, kết quả tìm kiếm của bạn cũng được cải thiện theo.
Mọi thứ spider tìm thấy đi vào trong phần thứ hai của cỗ máy tìm kiếm, Chỉ mục (the index). Chỉ mục, đôi khi gọi là tài liệu, là một kho lưu trữ khổng lồ chứa đựng một sự sao chép của mọi trang web mà spider tìm thấy. Nếu một trang web thay đổi, thì danh sách này được cập nhật với thông tin mới.
Đôi khi, cần phải có thời gian để các spiders lập chỉ mục cho một trang mới hay một trang được thay đổi nội dung. Như vậy, sẽ có trường hợp: một trang đã được các spiders tìm đến, nhưng lại chưa được lập chỉ mục. Và trong khỏang thời gian này, trang web sẽ hòan tòan không tồn tại trên Search engine.
Phần mềm tìm kiếm chính là phần tử thứ ba của một cỗ máy tìm kiếm. Đây là một chương trình máy tính có chức năng sàng lọc thông tin từ hàng triệu trang tương tự nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất. Đây chính là nơi mà các công ty SEO khai thác để đưa một website nào đó lên vị trí Top khi được tìm kiếm với một hay nhiều từ khóa chỉ định.
Major Search Engines: Các cỗ máy tìm kiếm chính - Giống nhau nhưng cũng khác nhau
Tất cả các cỗ máy tìm kiếm tự động có những phần cơ bản được mô tả ở trên, nhưng có những sự khác nhau trong những phần này trong việc nó được điều chỉnh tác động như thế nào. Đó là lý do tại sao cùng một từ khóa, khi tìm kiếm trên những cỗ máy tìm kiếm khác nhau thường cho ra những kết quả khác nhau. Một ví dụ cụ thể: Nếu bạn đánh một từ khóa, thì Google, Yahoo, MSN, AOL, Ask hay Exactseek đều cho ra các kết quả khác nhau, dù có nhiều website hơi giống nhau.
VietISO tổng hợp
Tags:
crawler spider
CÁC BÀI VIẾT CÙNG CHỦ ĐỀ
Để bắt đầu một cuộc đối thoại với đại diện tư vấn của chúng tôi, xin vui lòng hoàn thành Phiếu yêu cầu, và một trong những đại diện của chúng tôi sẽ liên hệ với bạn ngay lập tức.
Cùng chuyên mục:
- Conversion Rate là gì?
- Blog - Tìm hiểu và phân tích
- Sự khác biệt giữa Social Media và Social Network
- Google Insights for Search là gì?
- TrustRank là gì?
- SEM - Những hiểu biết cơ bản
- Conversion Rate và những điều cần biết
- Search engine – Máy tìm kiếm
- Giới thiệu khái niệm cổng thông tin tích hợp (portal)
- PageRank – Thứ hạng trang
- Alexa Traffic Ranking – Alexa Rank – Alexa Toolbar
- 6 Điều khiến bạn sẽ chọn làm SEO cùng VietISO
- Google Also Ignores Geo-Meta Tags, But Bing Lives By Them
- Phương pháp tối ưu URL và một số điểm cần lưu ý
- Tối ưu hóa Video trên website cho Google search
- Finding High Paying Keywords with SEO Digger
- Master SEO: 10 Steps to Free Traffic
- How To Get The Most SEO Out Of A Hyperlink
- Get Backlinks For Top Google Page Rank
- The Best Google On Page SEO Strategies
- Chọn lựa đúng từ khóa quyết định sự thành bại của chiến dịch SEO
- SEO : 10 công cụ nghiên cứu từ khóa miễn phí hay nhất
- Tối Ưu Hóa Nội Dung Thẻ Meta Description
- Tối ưu Page - Page size như thế nào là chuẩn
- Giải pháp xây dựng liên kết
- Ký sự SEO: Các bước cơ bản (Phần 2)
Xem thêm về SEO:
Trang chủ
-
Thiết kế website
-
Server lưu trữ
-
Tối ưu hóa - SEO
-
Cổng thanh toán trực tuyến
-
Tên miền (Domain)