跳轉到主要內容
行業的頭

增加醫療股本與數據

通過斯科特黑

2022年4月18日 行業

分享這篇文章

健康問題社會決定因素(SDOH)有一個無可爭辯的對衛生公平的影響。他們一直關注的中心,醫療保健專業人士,和許多政府機構,其成分經驗由於非醫療衛生不公平現象的社會和經濟因素,如種族、收入和性取向。根據疾病防治中心的說法,“衛生不公平現象反映在不同的生命的長度;生活質量;利率的疾病、殘疾和死亡;疾病嚴重程度;和治療。”Negative consequences of health inequities include lower quality of life, but the good news is that use of data relevant to social determinants of health can play a large role in helping to identify disparities and prioritize health equity. Closing the gap on health disparities requires analyzing many rich sources of data, which can be challenging. The pandemic and the accompanying vaccine distribution rates among various socioeconomic and social groups provide the most recent example. It can be helpful to use COVID-19 to bring visibility to this issue and illustrate such disparities through the use of data. However, it's important to note that health equity is relevant to many use cases across local, state and federal governments.

使用COVID-19疫苗為例,現有數據源可以提供寶貴的見解疫苗接種率低的原因,可能在某些社區。COVID-19疫苗已經廣泛使用在美國至少一年,但疫苗接種率千差萬別內不僅跨州縣,縣下的水平。而那些已經接種疫苗的基本信息,例如,年齡,種族和性別-提供洞察缺醫少藥的人群有限,有許多額外的數據來源,可用於獲得一個更全麵的視圖。對於我們的分析,我們將使用現有的和公共數據集,如收入、受教育程度、人口密度和健康特征如哮喘、癌症發病率,肥胖率和醫療保險,等等。

今天做的怎麼樣?

盡管上麵的數據集和其他私人數據集存在於各種縣和國家部門,如衛生、勞動、正義和家庭服務,曆來決策者麵臨的挑戰是無法訪問這些數據集。為了幫助可視化這些挑戰,讓我們考慮一個司空見慣的希瑟之間的談話,一位生物統計學家正在尋找成本索賠和健康問題社會決定因素之間的相關性,瑞安,醫療保險和醫療補助的數據庫的數據庫管理員。

樣品生物之間的談話是誰找的費用索賠和健康問題社會決定因素之間的相關性和公共衛生數據庫管理員。

類似加重過程中為每個額外的數據來源是必要的。即使在這種情況下,訪問敏感的公共衛生數據像醫療索賠可能會需要一個安全審查無論數據平台,考慮將改變如果希瑟非敏感數據她上本地采購筆記本電腦,隻是需要更多的計算能力比她的筆記本電腦的能力。Beplay体育安卓版本她仍然需要:

  • 基礎架構團隊提供計算
  • 一個數據平台處Beplay体育安卓版本理數據
  • ETL團隊將數據裝載到數據平台Beplay体育安卓版本
  • 分析工具進行分析

甚至在雲環境中,生物統計學和數據分析師預計不會知道如何提供自己的數據庫,ETL工具和計算,所以額外的團隊需要參與。

一個更好的辦法:一個現代數據平台Beplay体育安卓版本

現在讓我們看看希瑟如何使用磚Lakehouse平台,現代的數據平台,支持她的行動。Beplay体育安卓版本她會:

  • 上傳數據到她S3, ADLS或GCS帳戶
  • 執行任何所需的數據清理使用R, SQL或Python
  • 用短暫的計算數據清理和分析
  • 利用協作筆記本進行beplay娱乐ios分析
  • 分享她分析的結果在磚和外部的其他BI工具

注意lakehouse之間的關鍵差異和“總是做。”Using the existing skill set of Python, R or SQL, Heather can ingest, cleanse and use the data without going through a lengthy and complex process of coordinating across multiple IT teams.

COVID-19疫苗接種率

使用lakehouse,我們將執行一個分析非常類似於一個希瑟想做什麼。使用JSON和CSV文件收集來自各種公共數據來源,我們將上傳數據到雲存儲賬戶,淨化它,確定哪些因素是COVID-19最有影響力的疫苗接種率。

數據聚合在一個縣,覆蓋的人口比例完全接種疫苗,以及種族和人口密度數據,教育和收入水平,和肥胖、癌症、吸煙,哮喘和醫療保險覆蓋率。最初,我們將攝取的數據大多是原始形式。這允許快速數據探索。下麵是步驟,需要疫苗接種率從CSV文件,執行一個簡單的日期解析步驟,然後保存數據差值表。

pyspark.sql.functions進口to_date,上校dfVaccs = spark.read。csv (storageBase +“/ COVID-19_Vaccinations_in_the_United_States_County.csv”頭=真正的inferSchema =真正的)dfVaccs = dfVaccs.withColumn (“日期”,to_date(坳(“日期”),“MM / dd / yyyy”))顯示器(dfVaccs)dfVaccs.write。格式(“δ”).mode (“覆蓋”).option (“mergeSchema”,真正的).option (“路徑”storageBase +“/δ/ bronze_vaccinations”).saveAsTable (“sdoh.bronze_vaccinations”)

類似的步驟重複另一個數據集來完成青銅、原始層的數據。接下來,精致的銀層數據創建缺失的數據,如FIPS代碼,添加和過濾掉不需要的數據。下麵的步驟創建一個健康特征表,隻包括我們感興趣的特征和軸心的表,讓它更容易與我們的用例。

創建sdoh.silver_health_stats使用δ位置”{storageBase} / sdoh /δ/ silver_health_stats”;選擇*sdoh.bronze_health_stats主(馬克斯(data_value)作為data_v測量(“Current_smoking_among_adults_aged_18_years”作為SmokingPct,“Obesity_among_adults_aged_18_years”作為ObesityPct,“Coronary_heart_disease_among_adults_aged_18_years”作為HeartDiseasePct,“Cancer_excluding_skin_cancer_among_adults_aged_18_years”作為CancerPct,“current_lack_of_health_insurance_among_adults_aged_18 - 64 _years”作為NoHealthInsPct,“Current_asthma_among_adults_aged_18_years”作為AsthmaPct))訂單通過LocationID

數據清理完成後,我們一行每縣,包括每個屬性我們打算分析。下麵是一個清單的數據部分。

樣品隻健康特征表包括感興趣的特征,產生的醫療Lakehouse磚。

執行分析,我們將使用XGBoost創建一個線性回歸模型。為簡便起見,隻有模型顯示設置和培訓。

xgb_regressor = = XGBRegressor(目標“注冊:squarederror”max_depth = max_depth learning_rate = learning_rate reg_alpha = reg_alpha n_estimators =3000年importance_type =“total_gain”random_state =0)xgb_model = xgb_regressor。適合(X_train y_train eval_set = [(X_test y_test)], eval_metric =“rmse”early_stopping_rounds =25)

模型的均方誤差率達到6.8%,這意味著疫苗率可能是+ / - 6.8%的實際利率。當我們在預測未來疫苗接種率不感興趣,我們可以使用該模型來解釋每個屬性如何影響疫苗的接種率。我們將使用世鵬科技電子執行此分析。有一個專門的磚的博客進入世鵬科技電子顯示世鵬科技電子為什麼如此強大計算屬性對模型的影響。

結果

當我們總結和可視化的結果所有屬性在每個縣,我們看到,缺乏健康保險是最具影響力的因素在決定疫苗接種率。是什麼讓這個有趣的是COVID-19疫苗已經對所有人免費,所以健康保險或缺乏不應該接種疫苗是一個障礙。健康保險後,收入水平和人口密度的三大因素。

樣本衛生公平圖表,可視化的因素影響疫苗接種率。

在創建一個模型,涵蓋了整個美國是有趣和有見地,當地趨勢可能不明顯的在如此大的範圍。創建相同的模型,但數據僅限於縣加利福尼亞州內產生一個非常不同的圖景。

樣本衛生公平圖表、可視化影響因素由加州縣疫苗接種率。

以絕對優勢取勝,人口密度是最具影響力的因素在加州的疫苗接種率縣。人確認為吸煙者的百分比是位居第二,而醫療保險狀態甚至沒有進入前六個因素。

最後,我們可以把每個縣從我們整個國家最高因素模型和可視化地圖(下圖)。這些細節可以告訴我們相關的因素由國家或地區和比較他們的個別縣了解異常值或模式。這些知識可以幫助我們開始解決差距衛生公平性影響最脆弱的成員我們的選區。

樣本衛生公平圖表,可視化的因素影響全美疫苗接種率。

接下來是什麼

公開的數據集提供了一個良好的起點在人口健康可視化差距,通過這個例子可以看到COVID-19接種疫苗。然而,這是一個小的用例,我希望說明的見解可能進展衛生公平,當利用磚Lakehouse觸手可及。當我們能夠彙集更多的來自各種數據源的數據,我們可以取得更大的洞察力和積極影響衛生政策和成果為公民需要我們的支持,確保在未來健康更公平的分配。

閱讀更多關於數據分析和人工智能對我們的磚為州和地方政府行業頁麵

免費試著磚
看到所有行業的帖子
Baidu
map