传统基因组学研究方法在应对海量基因组数据时,逐渐暴露出诸多弊端,效率低下、精度欠佳等问题成为制约研究进一步深入的瓶颈。而深度学习技术凭借其卓越的数据处理能力和强大的模式识别本领,宛如一把精准的手术刀,能够自动从错综复杂的基因组数据中精准提取关键特征,为攻克这些核心难题提供了全新的、行之有效的途径。
具体而言,不同类型的深度学习模型在基因组学的各个细分领域大放异彩,展现出独特的优势。在监督学习领域,深度神经网络(DNN)犹如一位精准的预测大师,能够对外显子剪接进行准确预测;卷积神经网络(CNN)则像是一位技艺高超的工匠,擅长从序列中提取关键特征;循环神经网络(RNN)如同一位高效的序列处理专家,能够有效处理DNA/RNA序列;图卷积神经网络(GCN)则在基因调控网络分析中扮演着关键角色,发挥着不可替代的作用。在无监督学习方面,自编码器(AE)好似一位神奇的压缩大师,可实现基因表达数据的有效降维;生成对抗网络(GAN)则如同一位富有创造力的艺术家,能够生成逼真的DNA序列,为基因组学研究开辟了前所未有的新方向。
然而,基因组学与深度学习的深度融合,涉及多学科交叉,其复杂性和专业性犹如一座高耸入云的山峰,给相关人才的培养带来了巨大挑战。在此背景下,本课程应运而生,宛如一座连接理论与实践的桥梁,旨在为学员构建一个全面且深入的基因组学与深度学习融合的知识体系,同时提供丰富且实用的实践技能培训,助力学员在基因组学与深度学习交叉领域展翅翱翔。
课程目标
1.使学员了解深度学习的基本原理和常见模型,如深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等。
2.掌握深度学习模型在基因组学分析中的各种应用,包括识别G4基序特征、预测染色体亲和性、基因表达预测等。
3.培养学员使用深度学习工具和框架进行基因组数据处理和分析的能力,能够独立完成相关的实操项目。
培训对象
1.对深度学习、基因组学、转录组学、蛋白组学、药物基因组学等多组学分析感兴趣的学员。
2.希望掌握深度学习在基因组学中应用的科研人员、研究生等。
课程安排:2026年5月27-29日 线上+线下(提供课程回放,学员不用担心错过课程,课后也可反复观看)
|
时间 |
时段 |
内容详情 |
|
第一天
上午 |
深度学习与基因组学理论基础 |
1. 深度学习在基因组学中的核心基础
(1) 基因组学研究核心问题:基因变异预测、调控因子结合预测、疾病亚型识别
(2) 深度学习模型分类与适用场景
DNN(预测外显子剪接)
CNN(序列特征提取)
RNN(处理DNA/RNA序列)
GCN(基因调控网络分析)
无监督学习
AE(基因表达数据降维)
GAN(生成DNA序列)
2. 基因组学数据与工具概览
(1) 核心数据库
GeneBank(核酸序列)
UniGene(基因非冗余集合)
dbSNP(SNP 变异)
UCSC 基因组浏览器(可视化)
(2) 关键数据格式
BED(基因组区间)
GFF/GTF(基因注释)
FASTA(序列)
BIGWIG(连续数据) |
|
第一天
下午 |
人工智能编程语言基础 |
1. Linux与基因组数据管理
(1) 常用命令实操
ls(列举文件)
cd(切换路径)
pwd(显示路径)
mkdir/rmdir(创建 / 删除目录)
cp/mv(复制 / 移动文件)
(2) Vim编辑器实操
i(插入)
Esc+:wq(保存退出)
Esc+:q!(强制退出)
编辑FASTA格式的DNA序列文件
(3) 文件权限修改
通过ls -l查看权限(如 -rw-rw-r--)
用chmod调整权限(如 chmod o+w test.bed给其他人写权限)
处理基因组数据文件
2. Python与深度学习框架搭建
(1) Python环境配置
安装Anaconda
创建虚拟环境
安装numpy(数据处理)
pandas(表格读取)
matplotlib(可视化)
(2) 深度学习框架安装与测试
安装TensorFlow/Keras
PyTorch(根据系统选择命令)
基础代码测试 |
|
第二天
上午 |
机器学习基因组学的应用实践 |
1.机器学习经典算法概述
2.线性回归
3.逻辑回归
4.人工神经网络
6.支持向量机
8.随机森林模型
9.聚类算法模型及其应用
10.Sklearn库概述
11.Sklearn库概述的实战操作
12.机器学习常见评估方法:准确率、召回率、混淆矩阵、F1分数、AUC指标、ROC曲线
13.机器学习序列预测 |
|
第二天
下午 |
深度学习的基因组学应用实践 |
1.深度学习算法概述
2.卷积神经网络算法及其应用
3.循环神经网络及其应用
4.图神经网络算法及其应用
5.图卷积神经网络(GCN)介绍
6.基于注意力机制的神经网络及其应用
7.图注意力神经网络(GAN)介绍
8.深度学习算法常见的评估方法:MSE、RMSE、MAE、MAPE、目标识别交并比、图像分割交并比
9.生物医药大模型介绍 |
|
人工智能实验平台的部署与案例实践 |
1.深度学习框架运行的基本软硬件环境要求
2.深度学习框架的安装
3.验证环境安装的正确性
4.常用深度学习框架介绍与案例演示
Pytorch
Tensorflow
Keras |
|
|
第三天
上午 |
核心模型理论与数据处理 |
1.数据表示与模型要素
DNA序列的one-hot编码
张量运算
2.数据集分割
3.读取BED(基因区间)和FASTA(序列)文件,生成训练数据
4.DNN基序识别实操
单层单过滤器DNN,训练并评估准确率
多层多过滤器DNN,对比模型性能变化
5.加载预训练模型,输入1000bp DNA序列(含SNP),预测染色质效应(如TF结合、组蛋白标记) |
|
第三天
下午 |
经典模型复现 |
1.预测非编码变异
2.预测premiRNA:数据预处理、LSTM模型构建
3.预测拷贝数变异:数据集准备、混合模型构建、ROC曲线评估
4.预测药物反应
5.预测肿瘤类型 |
注:内容以实际发生为准;若调,会提前通知。
师资力量
授课老师具备丰富数据分析经验,有十余年的生物信息数据分析经验。研究领域涉及生物信息、人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。
【报名费用】
注册费:4200元/人(含当期听课费、资料费、证书费、视频回看)。
提供当期视频回放以供复习使用(羽林学院平台)。
开具增值税发票,提供盖章通知、结业证书等相关材料。
【报名优惠政策】
1、3人以上团体报名每人可减少300元;
2、4+1团报,可免费赠送一个名额;
上面优惠政策不能同时享受,只能享受其中一种。
老学员参加及推荐学员参加均可额外优惠200元。
【付费方式】
手机银行或电子银行转账、银行汇款等
单位全称:北京市计算中心有限公司
账号:0200151819100023937
开户银行:中国工商银行股份有限公司北京自贸试验区永丰基地支行
(汇款信息备注:“智能计算——您的姓名”,个人汇款请备注单位名称)
注:款项支出后,请提供付款回执给工作人员,方便核实到账、开具发票。
【扫码报名】
【咨询请联系】
QQ号:2814500767
邮箱:bcc-sxpx@bcc.ac.cn
徐老师010-59341786,15801436028(微信同号)
员老师010-59341773,18701529461(微信同号)
【注】开课前一周会发送邮件通知;若未接到邮件通知,请电话咨询。