🧊foril

🧊foril

初识遗传算法

2023-04-02

阅读时间：4分钟

最近看了两篇有关冲突消解的论文 $^{[1]}$ $^{[2]}$ ，其中主要的一个任务是需要找到一个模式（pattern）以及一个替换字符串，前者是一个正则表达式，可能包括一些捕获组，而后者是一个可能包括 back refence 的字符串，能够使用 $1 这样的表示拿到 pattern 中捕获组拿到的数据。这个任务能够把一个原始字符串变换成为目标字符串，而论文中采用的方法正是遗传算法来找到这两个部分。在了解过程中，我发现遗传算法很有趣，有一种深度学习出现之前的传统计算机科学的魅力，在这简单对自己的理解做一个记录，理解的不算全面，也可能存在一些错误，欢迎指正。

什么是遗传算法

遗传算法(英语: Genetic Algorithm,GA)是计算数学中用于解决最优化的搜索算法，是一种 随机全局搜索优化方法，是进化算法的一种。进化算法最初是借鉴了进化生物学中的一些现象而发展起来的，用计算机模拟了自然界中生物进化的过程，通过模拟自然界中的生物进化过程来寻找最优解，这些过程包括 复制（reproduction）、交叉（crossover）、变异（mutation）等。

基本概念

在遗传算法中有几个基本的概念，包括：

种群（population）：种群是指所有可能解的集合。在遗传算法中，初始种群是通过随机生成可能解的集合来构建的。种群的规模取决于问题的复杂度和搜索空间的大小，通常越复杂的问题需要更大的种群。
个体（individual）：个体是种群中的一个成员，表示一个可能解。在遗传算法中，每个个体都有一个适应度函数用于评估其解决问题的能力。
染色体（chromosome）：染色体是指个体的染色体结构，可以看做是个体的编码方式（用染色体表示个体）。在遗传算法中，染色体通常使用二进制编码方式来表示个体。染色体的长度取决于问题的复杂度，通常长度越长，个体的表达能力越强。
基因（gene）：基因是染色体中的一个元素，表示一个问题的解的一部分。在二进制编码中，基因可以是一个二进制位。每个基因对应一个特定的问题参数，例如在求解旅行商问题中，基因可以表示旅行路径中的一个城市。这里我的理解是基因就是解的一部分组成，之后可以通过变异、交叉等对基因的操作来生成新的个体的染色体。
适应度函数（fitness function）：用来评估每个个体的优劣，然后通过 选择（selection）、交叉（crossover）、变异（mutation） 等操作来生成新的个体，这些操作都是基于适应度函数的。

下面我们就以 找到最优个体 这样的任务目标出发分析遗传算法的过程。

基本流程

遗传算法的基本流程如下：

随机生成一组初始解（称为种群），每个解可以表示为某些参数的一个组合。
通过适应度函数对每个解进行评估，以确定其质量。
从当前种群中选择一些较好的解（父代），并使用交叉和变异操作生成一些新解（子代）。
对新解进行适应度评估，将它们与当前种群中的解进行比较。
如果新解比现有解更好，那么将它们添加到种群中。否则，它们被丢弃。
重复步骤3-5，直到满足某个停止准则（例如达到一定迭代次数或找到满足要求的解）。

遗传算子

遗传算子是指在遗传算法中使用的一组基本操作，包括选择、交叉和变异等。这些操作模拟了自然界中的生物进化过程，用于改变种群中个体的 染色体结构 和基因，以逐渐逼近问题的最优解。

选择操作
选择操作是指从种群中选择适应度高的个体作为下一代的父代。常用的选择操作包括轮盘赌选择、锦标赛选择和随机选择等。
交叉操作
交叉操作是指将两个父代的染色体结合在一起，生成新的个体。交叉操作可以保留优良的特征并引入新的变化，从而增加种群的多样性。常用的交叉操作包括单点交叉、多点交叉和均匀交叉等。
变异操作
变异操作是指在个体的染色体中随机改变一些基因，以增加种群的多样性。常用的变异操作包括位变异、反转变异和插入变异等。

遗传算子是遗传算法的核心，具体选择取决于问题的性质和算法的实现。

总结

遗传算法可以根据具体问题进行改进和扩展，例如使用多目标遗传算法来解决多目标问题，使用精英保留机制来保留最优解等等。遗传算法的应用非常广泛，可以用来解决各种不同的优化问题，例如机器学习、数据挖掘、组合优化、自动控制等等。它的优点在于可以在非常大的搜索空间中寻找全局最优解，并且可以处理非线性、多模态和随机问题。但是，由于其搜索过程是基于随机性的，因此无法保证找到全局最优解，而只能找到局部最优解。