孟加拉国肺癌
巡航长
3枚
0
50
0
2025/06/01 12:19
该数据集经过精心合成,以支持肺癌生存预测研究,从而能够开发估计:
概述
数据文档

背景描述

孟加拉国肺癌
孟加拉国人肺癌合成生成的数据集。

数据说明

关于 Dataset
关于数据集
📌概述
该数据集经过精心合成,以支持肺癌生存预测研究,从而能够开发估计:

患者是否有可能在诊断后至少存活一年(二元分类)。
基于临床和生活方式因素的生存概率(回归分析)。
该数据集专为医学 AI、肿瘤学研究和预测性医疗保健中的机器学习和深度学习应用而设计。

📜 数据集生成过程
数据集是结合真实世界的流行病学见解、医学文献和统计建模生成的。特征分布和关系经过仔细建模,以反映真实世界的临床场景,确保生物医学的有效性。

📖 医学参考和来源
数据集结构基于领先的医学研究和临床指南中记录的已建立的肺癌风险因素和生存指标:

世界卫生组织 (WHO) 肺癌流行病学报告。
国家癌症研究所(NCI)和美国癌症协会(ACS)关于肺癌风险因素和治疗结果的指南。
IASLC 肺癌分期项目(第 8 版):肺癌分期的标准参考。
哈里森内科原理(第 20 版):对肺癌诊断和治疗进行了深入的回顾。
肺癌:原则与实践(2022 年,牛津大学出版社):对肺癌检测、治疗和生存因素的临床见解。
🔬 数据集
的特点 数据集中的每条记录都代表个人的临床状况、生活方式风险因素和生存结果。该数据集包括以下功能:

1️⃣ 患者人口统计
年龄 → 肺癌进展和生存的关键风险因素。
性别 → 男性和女性肺癌生存率可能不同。
居住地 → 城市与农村(环境因素的影响)。
2️⃣ 风险因素和生活方式指标
这些因素在流行病学研究中与肺癌风险有关:

吸烟状况 →(当前吸烟者、前吸烟者、从未吸烟)。
空气污染暴露→(低、中、高)。
生物质燃料使用→(是/否) – 与室内空气污染有关。
工厂暴露→(是/否) – 工业暴露会增加患肺癌的风险。
家族史 →(是/否) – 肺癌的遗传易感性。
饮食习惯→(素食、非素食、混合) – 营养对癌症进展的影响。
3️⃣ 症状(主要预测因素)
这些是与肺癌检测和严重程度相关的关键临床指标:

咯血,
胸痛
,疲劳&虚弱
慢性咳嗽
不明原因的体重减轻⃣
4️肿瘤特征和临床特征
肿瘤大小,→检测到的肿瘤的大小。
组织学类型 →(腺癌、鳞状细胞癌、小细胞癌)。
癌症 → 期(I 期至 IV 期)。
5️⃣ 接受的治疗和医疗机构
治疗→(手术、化疗、放疗、靶向治疗)。
医院类型 →(私立、政府、医学院)。
6️⃣ 目标变量(预测结果)
生存率(二进制)→ 1(是)如果患者存活至少 1 年,否则为 0(否)。
生存概率 (%) (可以推导) → 一年内估计的生存概率。
⚡ 为什么这个数据集很有价值?
✅ 平衡的数据分布
旨在确保肺癌生存病例的代表性分布。
防止模型偏差并提高预测模型中的泛化。
✅ 医学启发的特征工程
特征源自现实世界的肺癌风险因素,并通过医学文献进行了验证。
结合生活方式和临床指标,以提高预测准确性。(没有使用真人数据,只是做了一个生物医学环境)
✅ 多种风险因素 认为
吸烟、空气污染和遗传史是肺癌的主要因素。
症状严重程度和肿瘤组织学影响生存率。
✅ 可扩展性和机器学习
适用性 理想的机器学习分类和回归任务。
可与深度学习(TensorFlow、PyTorch)、ML 模型(XGBoost、Random Forest、SVM)以及 SHAP 和 LIME 等可解释的 AI 技术一起使用。
📂 数据集使用和应用
这个数据集对于多种医疗保健AI应用非常有用,包括:

🩺 预测分析 → 早期发现高危肺癌患者。
🤖 医疗保健聊天机器人→ AI 驱动的风险评估工具。

数据来源

https://www.kaggle.com/datasets/nishatvasker/lung-cancer-bangladesh

问题描述

该数据能解决什么问题?适用于什么场景

信息

挂载目录

/home/mw/input/SDG4351

数据格式

.csv

文件大小

655.7 KB

主题

医疗健康,公共卫生

技术领域

数据分析,数据处理

挂载目录

/home/mw/input/SDG4351/