返回

蛋卷基金爬虫:从海量组合中筛选出优秀组合

闲谈

一、网页分析

1、打开网页

我们随意打开一个蛋卷基金上投资组合的网页,例如:

链接:https://danjuanapp.com/strategy/52539322?stock_code=sz300358

打开后,可以看到这个网页主要分为以下几个部分:

  • 组合概览: 这部分显示了组合的基本信息,包括组合名称、组合收益率、组合规模等。
  • 组合持仓: 这部分显示了组合的持仓情况,包括股票代码、股票名称、持仓数量、持仓成本等。
  • 组合收益率曲线: 这部分显示了组合的收益率曲线,可以直观地看到组合的收益率走势。
  • 组合交易历史: 这部分显示了组合的交易历史,包括交易时间、交易类型、交易股票、交易数量、交易价格等。

2、分析网页源代码

为了从网页中提取数据,我们需要分析网页的源代码。我们可以使用浏览器的开发者工具来查看网页的源代码。在 Chrome 浏览器中,我们可以按 F12 键打开开发者工具,然后点击「Elements」标签。

在开发者工具中,我们可以看到网页的源代码。我们需要找到包含数据的部分。例如,我们可以找到包含组合基本信息的部分:

<div class="strategy-detail-info">
  <div class="strategy-detail-name">组合名称:蛋卷基金量化组合</div>
  <div class="strategy-detail-annualized-return">组合收益率:12.34%</div>
  <div class="strategy-detail-scale">组合规模:1000万</div>
</div>

从这段代码中,我们可以提取出组合名称、组合收益率、组合规模等信息。

3、编写爬虫程序

有了网页源代码,我们就可以编写爬虫程序来提取数据了。我们可以使用 Python、Java、C++ 等编程语言来编写爬虫程序。

这里是一个用 Python 编写的爬虫程序:

import requests
from bs4 import BeautifulSoup

# 获取网页内容
url = 'https://danjuanapp.com/strategy/52539322?stock_code=sz300358'
response = requests.get(url)

# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')

# 提取数据
combination_name = soup.find('div', class_='strategy-detail-name').text
combination_annualized_return = soup.find('div', class_='strategy-detail-annualized-return').text
combination_scale = soup.find('div', class_='strategy-detail-scale').text

# 打印数据
print('组合名称:', combination_name)
print('组合收益率:', combination_annualized_return)
print('组合规模:', combination_scale)

运行这个程序,就可以提取出组合名称、组合收益率、组合规模等信息。

二、数据存储

提取出数据后,我们需要将数据存储起来。我们可以将数据存储在数据库中,也可以存储在文件中。

这里是一个将数据存储在数据库中的示例:

import sqlite3

# 创建数据库连接
conn = sqlite3.connect('danjuan.db')

# 创建游标
cursor = conn.cursor()

# 创建表
cursor.execute('''CREATE TABLE IF NOT EXISTS combinations (
  id INTEGER PRIMARY KEY,
  name TEXT,
  annualized_return REAL,
  scale REAL
)''')

# 插入数据
cursor.execute('''INSERT INTO combinations (name, annualized_return, scale) VALUES (?, ?, ?)''', (combination_name, combination_annualized_return, combination_scale))

# 提交数据
conn.commit()

# 关闭连接
conn.close()

运行这个程序,就可以将数据存储在数据库中了。

三、数据分析

存储了数据后,我们就可以对数据进行分析了。我们可以使用 Python、R 等编程语言来对数据进行分析。

这里是一个用 Python 编写的简单的分析程序:

import pandas as pd

# 读取数据
combinations = pd.read_sql('SELECT * FROM combinations', 'danjuan.db')

# 分析数据
combinations['annualized_return'] = combinations['annualized_return'].str.replace('%', '').astype(float)
combinations = combinations.sort_values('annualized_return', ascending=False)

# 打印数据
print(combinations.head())

运行这个程序,就可以对组合进行分析了。

四、总结

本文介绍了如何使用蛋卷基金爬虫从蛋卷基金网站上收集投资组合数据。这些数据可以用于量化投资、金融科技等领域。蛋卷基金爬虫是一个开源项目,可以在GitHub上找到。本文介绍了如何使用这个爬虫,以及如何使用这些数据。