手写搜索引擎的搭建与实践

后端

2023-12-19 05:18:35

搜索引擎的搭建与实践

在信息泛滥的数字时代，搜索引擎已经成为我们获取信息和知识的重要工具。如果你有兴趣探索搜索引擎的奥秘，并亲手构建自己的搜索引擎，那么这篇博文将为你提供详细的指导。

理论架构

页面抓取

首先，我们需要从互联网上获取网页内容，这个过程被称为页面抓取。我们可以使用 Python 的 requests 库或 BeautifulSoup 库等工具来实现此目的。

存储

抓取到的网页内容需要存储在数据库中，以便进行进一步的分析和搜索。MySQL 和 MongoDB 是两种常用的数据库选择。

分析

接下来，我们需要对网页内容进行分析，提取出有价值的信息，例如标题、正文和关键词。

搜索实现

当用户输入查询词时，搜索引擎需要根据存储的网页内容检索相关信息。TF-IDF 算法和 PageRank 算法是两种流行的搜索算法。

展现

最后，搜索结果需要以用户友好的方式呈现给用户。我们可以使用 HTML、CSS 和 JavaScript 等前端技术来实现此目的。

实践步骤

页面抓取

import requests
from bs4 import BeautifulSoup

url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.title.string
body = soup.body.text

存储

CREATE TABLE pages (
  id INT NOT NULL AUTO_INCREMENT,
  url VARCHAR(255) NOT NULL,
  title VARCHAR(255) NOT NULL,
  body TEXT NOT NULL,
  PRIMARY KEY (id)
);

分析

from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer

tokens = word_tokenize(body)
stemmer = PorterStemmer()
stemmed_tokens = [stemmer.stem(token) for token in tokens]
freq_dist = nltk.FreqDist(stemmed_tokens)
top_keywords = freq_dist.most_common(10)

搜索实现

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform([body])
query_vector = vectorizer.transform([query])
similarities = cosine_similarity(vectors, query_vector)
top_urls = [url for url, similarity in sorted(zip(urls, similarities), key=lambda x: x[1], reverse=True)]

展现

<!DOCTYPE html>
<html>
<head>
  
</head>
<body>
  <h1>搜索结果</h1>
  <ul>
    {% for url, similarity in top_urls %}
      <li><a href="{{ url }}">{{ url }}</a> (相似度：{{ similarity }})</li>
    {% endfor %}
  </ul>
</body>
</html>