揭秘中科院半导体所论文：从数据中探索数学表达的新视角

人工智能

2023-02-10 17:07:26

符号回归：从数据中提取数学表达

随着数据呈爆炸式增长，我们迫切需要一种方法来从数据中提取有意义的信息。符号回归 (SR) 是一种从数据中查找精确数学表达的方法，它在机器学习领域备受关注。SR 可以揭示给定观测数据的潜在数学关系，为我们提供对数据更深刻的理解。

SR 的工作原理

SR 通过迭代优化过程逐渐逼近数据中隐藏的数学关系。它从一个初始表达式开始，然后使用进化算法或其他优化技术来修改表达式，直到它尽可能准确地拟合数据。这个过程不断重复，直到找到最佳的数学表达式。

中科院半导体所突破

中科院半导体所的研究人员最近在 TNNLS 顶刊上发表了一篇论文，提出了一种探索数学表达的新视角。他们的方法允许模型学习具有变量数目的表达式，并在多种任务上取得了令人瞩目的效果。

该方法的关键在于使用一种新的表示形式来数学表达式。这种表示形式允许模型学习具有任意数量变量的表达式，而不需要预先指定变量的数量。这使得模型可以从数据中自动发现潜在的数学关系，而不需要人工干预。

SR 的应用

SR 有广泛的应用，包括：

科学发现： SR 可以帮助科学家从实验数据中发现新的数学关系，从而揭示自然界的规律。
工程设计： SR 可以帮助工程师从历史数据中学习最佳的设计参数，从而优化产品性能。
金融分析： SR 可以帮助金融分析师从市场数据中发现隐藏的规律，从而做出更准确的预测。

SR 的优势

SR 相比于传统机器学习方法有几个优势：

解释性： SR 产生的数学表达式是可解释的，这有助于我们理解数据背后的机制。
准确性： SR 可以找到精确的数学表达式，而不仅仅是近似值。
泛化能力： SR 学习到的数学表达式可以泛化到新数据，使模型能够进行预测。

代码示例

以下是用 Python 实现的简单 SR 算法的代码示例：

import numpy as np
import sympy

def sr(data, max_iters=100):
    """
    符号回归算法

    参数：
        data：数据
        max_iters：最大迭代次数

    返回：
        最佳数学表达式
    """

    # 初始化
    best_expr = None
    best_error = np.inf

    for i in range(max_iters):
        # 创建随机表达式
        expr = sympy.Symbol("x") ** np.random.randint(1, 10) + np.random.randn()

        # 拟合数据
        error = np.mean((expr.subs(x, data) - data) ** 2)

        # 更新最佳表达式
        if error < best_error:
            best_expr = expr
            best_error = error

    return best_expr