臺灣健保資料庫NHIRD_藥物安全與療效研究－The L Laugh

父親大人早上帶著我到演講廳，聽他主持的一場開放給院內醫師課程，講者是我國科會的指導老師：林敬恒副研究員。主題是利用台灣健保資料庫探討Drug safety and effectiveness。摘要如下：

1) Propensity score

這個部分主要是在介紹干擾因子在使用健保資料庫時的考量。在台灣腦中風學會網站裡有詳細敘述與介紹：http://www.stroke.org.tw/newpaper/2008Dec/paper_4.asp。因為使用健保資料庫的其中主要標的之一就是「讓研究看起來像是臨床試驗」，所以在如此非隨機的觀察性研究世代中，干擾因子就是很重要的變項之一。就我目前在寫的proposal來說，探討RA患者得冠心病的發生率當然會有許多干擾因子，如RA患者本身共同遺傳特性、飲食習慣與生活型態等等，都可能會間接造成欲探求的結果，而並非是疾病造成的影響，這時候Crude(Original) data要怎麼調整。

2) 藥物效果與Dose-dependent

林博士提到，用藥與疾病嚴重程度一般最好是呈現U-shape，就是說當沒得病時藥物當然對你沒效，而最有效時應該是在疾病嚴重程度不高之時，因為當病得太嚴重，你持續投藥反而看不見效果，因為疾病已經入膏肓了。但你這時就最好要去注意次分層的分析，不能說研究顯示開這個藥會導致病人中風，等真的發生問題時病患拿著研究揚言要告你；而是要找出是不是有哪些特質或次族群是high or low risk，這些藥物對那些特性的人群特別有危害，這樣才會有意義。

3) 假設與變項

如同資料庫分析團隊的張嘉莉學姊之前也提到的，在NHIRD研究中，變項如何被定義(如define drug daily dose)是非常重要的，你應該在研究中清楚地將如何定義、為何如此定義變項都交代得鉅細靡遺，因為這牽涉到研究設計，因此最好先找幾篇model paper參考一般的做法。同時，可加入與國外資料庫(如英國、德國)的類比，多多介紹我們台灣的健保資料庫，林博士說John Hopkins最近對我們的資料庫甚感興趣，因此這是好好讓台灣的資料庫優勢發光發熱的時候！

參考吳俊穎教授演講：

a) Confounding by indication

觀察性研究常被問的critical問題是為什麼這組病人給藥、另組不給？這是因為該組病人會有適應症(適合用它來治療的疾病)，這時就會看到所謂的confounding by indication如研究幽門桿菌對胃癌的影響，某組病人有殺菌(一定要有菌健保才會給付)後來殺掉了、另組病人從一開始就沒有菌所以不用殺，所以前者的risk還是比後者高，結果是殺菌的risk反而比沒有殺菌還要高，這樣就bias說如果在沒有hypothesis-driven情況下，有菌千萬不要殺反而會使胃癌機率增加！如此反而變成反面教材。因此建議在做健保資料庫藥物的部份時，應該要針對用藥做matching，分兩組病人的用藥做配對。

b) Competing mortality

此外，目前處理的疾病很多都是重大傷病，但現在有個問題是診斷的正確度到底是多少？而且這些重大傷病病人的死亡常是重要confounder，所以常要計算competing mortality(競爭性死因，在event之前發生死亡；而overall mortality就是不論在event前或後死亡)，control高風險死亡率病人之後，因為一旦病人死亡後就終止，所以不能當成sensor而要當成event；比方說肝硬化的病人在還沒出血之前就死亡，這就是competing mortality，就是因為很高的機率死亡所以沒有再出血。要怎麼解釋？就是因為這還是相對保守的估計，可以去做age-stratified，如果死亡很明顯壓低發生率，年紀大的容易死亡，而可以看到60歲以上族群其出血機率很明顯因為高死亡率而被抑制下來，低於其他年輕族群，所以我們可以推估：對於年輕族群(以往常被忽視)，出血是很重要的。

c) Immortal time bias

用藥很少每天用，大多數都是今天吃個幾天、後天不痛就不吃；有時術後半年開始吃，有的兩年後才開始吃，中間有休息要怎麼做處理？圖上半部：分成治療組與非治療組，一般是開過刀後開始追蹤，但可能術後半年、一年才開始first prescription (misclassified immortal time)，但這段時間misclassified immortal time他必須沒有死，他才有機會用這個藥！選擇的是從一開始就做計算，但有這段時間他根本沒吃藥，這樣效果就轉嫁給他看起來特別好，但事實上是因為他存活了，所以他有更好的機會可以被分到這一組。圖下半部：所以有人想說從第一次開始用藥開始計算，但這樣對他很不利，可能他前面存活10年結果用藥六個月後死亡，我們就說他只存活六個月，selection bias他要活到可以用藥就是被選擇過了！這樣怎麼選都不對。

immortal

所以有人提出以下想法，分成statin users(吃一年以上)、non-users(吃一年以內)、non-users(一顆都沒吃)，就有相同的cohort entry、6 months、first statin等時間點，而第一組用得比較久，所以有一年使用及超過一年；第二組也有first statin但不到一年就結束了。這時候就會有immortal period 1：病人必須先活過六個月，開始有selection bias；2是要活到第一次開藥，另一個selection bias；3是第一組一定要超過一年才行，這時要怎麼起算？

time-fixed analysis

另外一種方式：immortal time corrected time dependent analysis有不同算法，第一組要在用藥結束或開始都可以，但如果他用藥用得太久，到觀察結束之前都還在用，選last statin開始算就很不利，因為觀察時間可能是0。而第二組在用完藥(last statin)開始算也可以，因為可能活比較久比較有利，越快結束用藥越快進入study。

immortal time corrected time dependent analysis

Solution：

1- 用藥之前，開藥前的immortal person-time當成unexposed，變成另外一組；或用Cox proportional hazards model的方式，但把變數當成time-dependent，每天、每周去計算用藥的狀況，如QD，今天有用貢獻度是1、沒用貢獻度是0。很多研究都指出，研究設計的不同會讓研究結果有非常大的差異！time-dependent後會把bias用掉。

2- To compare with active comparators 找出另外一個這個族群也會用的藥，當成comparison，都是從用藥開始比較，到發生event為止。

sol2

其實不管怎麼做bias還是存在！但time-dependent被接受度還是比較高的。

*參考資料：http://nhird.nhri.org.tw/file_talk/rr2004_2.pdf; http://nhird.nhri.org.tw/file_talk/rr2005_2.pdf; http://nhird.nhri.org.tw/file_talk/rr2006-6.pdf; http://w3.nhri.org.tw/rr2012/data/2012091404.pdf; http://robertlu.med.ncku.edu.tw/data/robert%20lu%20Feb%2014%202012%2001.pdf; http://www.taiwan-pharma.org.tw/JTP/112/002-006.html

另外補充使用NHIRD進行藥物研究(藥物流行病學Pharmacoepidemiology：將流行病學的研究方法應用在藥品使用的研究上，以藥物當作暴露源，研究使用以及沒有使用藥物之間的差異)的相關事項：

NHIRD乃二次資料使用的最佳範例，涵蓋最大範圍的醫療保健使用資料，在現今的電子世代，以完整、快速、經濟的方式進行資料處理，具大量性、統一性，資料來源一定、格式統一、適合長期追蹤，省時、省錢，樣本數夠大，原始資料的發生不是為了做研究，不會有嚴重偏差，資料內容又包含大多數研究相關欄位。我們可以(1)從問題開始→find data bases to fit a research question，或是(2)從資料庫開始→find research questions to fit existing data sets。常見題目有：疾病發生率/盛行率的估計、某服務或處置使用率/住院日數、直接醫療成本的估計、門診或住院重複就醫與用藥的探討、診斷/藥物與治療的適應/禁忌、某處置的療效/不良反應的評估。而我們現在針對藥物的相關研究，如藥品療效efficacy、用藥安全safety、藥物使用utilization、市場行銷marketing、潛在市場potential market都是新的挑戰，因為需要龐大檔案(大容量、高速度的電腦與資訊專業)、串連重建個人就醫紀錄(統計分析師)、藥物編碼複雜且未國際化(需要藥師與專科醫師合作)。

利用NHIRD進行藥物研究的特點：藥品使用資料記錄完整，包括處方劑量、處方日數。藥品劑型劑量、主成分資料皆可藉由資料庫串聯獲得。綜合而言，可以透過資料庫針對藥物使用情形進行描述。使用歸人檔更能了解病人的所有用藥情形，進行藥物使用評估。

再評估療效或不良反應評估時，處置記錄來自清單檔，處方紀錄來自醫令檔，依照條件擷取接受或未接受某處置或藥物之病人串連治療之後的就醫記錄，比較發生某種臨床狀況的發生率，是臨床藥物流行病學之研究。看兩個相關：Exposure(cause): a certain treatment -> drug, procedure, education... 如開給RA的藥物；Outcome: the end result of care, or a measurable change in the health status or behavior of patients. 可以是clinical或functional的，如心血管疾病的發生率。臨床試驗不足以釐清藥物不良反應：‹試驗族群均質性：單純病況、排除特定族群：孕婦、老年人、小孩；‹試驗人數不足以觀察到機率較低的不良反應；‹試驗期間較短；不足以預測醫療的臨床實境；併用藥品的交互作用。

評估藥物不良反應的風險：‹發生率多高？危險因素是什麼？‹作用機轉是什麼？‹和別的藥品是否有交互作用？

健保資料庫分類
••系統抽樣檔是以看病人次為基本抽樣單位，無法提供研究學者做長期追蹤之研究。
••承保抽樣歸人資料庫以保險對象為基本抽樣單位的抽樣檔，納入其歷年完整的就醫資料，持續追蹤數年，可做長期追蹤分析之研究。

抽樣歸人檔

抽樣歸人檔：以健保承保資料檔為抽樣母群體，依簡單隨機抽樣，決定樣本（人），依此擷取各該人各年所有資料(包括門診、住院及特約藥局），每組共抽出五萬人。抽出樣本之年齡、性別及費用三項變項分佈與母體間並無明顯差異。每批五萬人當中，沒有使用健保的人也會被抓入資料庫當中。每一個人所有的就醫資料，可供追蹤使用。可以了解每一個人在此期間所有的就醫情形，並結合醫令清單檔，對使用之藥物進行追蹤。

可能研究方向：(1)以藥物使用為主，分析藥物使用的狀況，包括使用金額、平均使用劑量、處方劑量(PDD)以及Defined Daily Dose等 (2)

以藥物為主，分析醫師處方劑量以及處方天數。 (3)

找出不適當的合併用藥，包括會有藥物交互作用的處方、對病情有影響的用藥等等。(4)

以疾病為主，分析該疾病的在此一世代當中的盛行率。(5)

該疾病的醫療資源利用情形，以主診斷碼以及次診斷碼進行篩選分析。(6)

分析醫師處方型態以及用藥策略。(7)

特定藥品的使用量、使用金額。(8)

以特定藥品為主，分析使用該藥品族群的醫療資源利用情形。(9)

分析藥物治療的結果，包括急診率、住院率等等。(10)

追蹤長期使用該藥物可能的副作用，以使用該藥物一段時間後，分析其看診疾病以及其他使用之藥物。

加值2

加值3

加值4

分析性流行病學(Analytic epidemiology)分為世代和個案研究：

(補充：‧‧描述流行病學(Descriptive epidemiology)––Cross-sectional studies、Drug utilization studies)

● Prospective cohort study 前瞻性世代研究

Step

1) Assemble the cohort - inception cohort: onset of disease/ zero time

2) Measure predictor variables (prognostic 預後/predictive)

3) Follow-up and measure outcomes - time to event(incidence): change of status; surrogate, QOL...: change of value

● Retrospective cohort study 回溯性世代研究 (我這次使用的)

Step

1) Identify a suitable cohort

2) Collect data about predictor variables 這次是RA使用的藥物種類

3) Collect data about outcomes at a later time 心血管疾病發生率

-basically also a cohort or follow-up study 這次是追蹤的部分

-only difference: time of measurement

-common in clinical studies/ data linkage 林博士就說這要看起來像是臨床試驗

-not necessarily collecting outcomes "later" but at a later time than the occurrence of the exposure

世代研究

世代研究優缺點

例子1

例子1_2

例子1_3

● Case-control study in outcome research 病例對照研究

Step

1) Draw a sample of new (incident) cases (outcome +)

2) Draw a sample of controls (outcome - at a certain time): a sample of hypothetical population from which cases came from

3) Measure the predictor variables: usually at the time when cases and controls are drawn

case-control

case-control優缺點

健保資料庫之內容
門診處方及治療明細檔(CD)、門診處方醫令明細檔(OO)、住院醫療費用清單明細檔(DD)、住院醫療費用醫令明細檔(DO)、特約藥局處方及調劑明細檔(GD)、特約藥局處方調劑醫令明細檔(GO)

串聯圖檔

臨床分析的基本變項：住院

- 醫事機構基本資料檔(HOSB)：醫院代碼、特約類別、評鑑等級、縣市區碼等

- 住院醫療費用清單明細檔(DD)及相關特定主題分檔：入院和出院年月日、出生日期、就醫科別、醫院、醫師代碼、主診斷和次診斷、主手術和手術一至四、轉歸代碼、醫療費用、性別等

臨床分析的基本變項：門診
- 門診處方及治療明細檔(CD) 及相關特定主題分檔特約藥局(GD)：出生日期、健保卡就醫序號(含預防保健)、特定治療項目代號一至四、就醫科別、合計金額、國際疾病分類號一至三、給藥日數、性別等

用藥檔案：住院醫令檔
•住院醫療費用醫令清單明細檔(DO)：含全部醫令，一醫令一記錄
醫令類別order_type
醫令代碼order_code
醫令數量order_qty
醫令單價order_price
醫令金額order_amt

用藥檔案：門診與藥局醫令檔
•門診/特約藥局處方醫令明細檔(OO, GO)：以藥品為主，一藥品一記錄
醫令類別order_type
藥品（項目）代號drug_code
藥品用量drug_use
藥品使用頻率（診療部位）drug_fre
單價unit_price
總量total_qty
金額total_amt

存檔方式
‧門診住院CD、DD：以使用（看門診或住院）為單位
‧醫令OO、DO：以醫令為單位
‧串連方式：CD-OO / DD-DO
‧基本形式：一對多，每次使用有多個醫令
‧串檔變項：每次使用有不同編碼
住院column 1-32 變項1-6
門診column 1-33 變項1-6

OO/DO藥品醫令擷取條件
‧醫令類別 order_type
1=用藥明細
‧可只擷取此種醫令
‧其他視需要而定

藥物1

藥品代號 drug_code
‧標準碼: 中央健保局 (http://www.nhi.gov.tw/02hospital/hospital_6.htm)
‧依照查驗登記順序
‧非國際標準代碼
‧同成分藥品不同廠商代碼不同

藥品名稱

藥品用量 drug_use
•依全民健康保險藥品使用標準碼之原則輸入
•若醫令為藥品時，此欄為必要欄位
•填藥品一次之劑量，右靠不足前補0
• Unit：一次之劑量，一顆=000100

藥品使用頻率 drug_fre
‧本欄左靠不足補空白
‧依全民健康保險藥品使用標準碼之原則輸入
‧若醫令為藥品時，此欄為必要欄位
‧Qd, bid, tid

藥品使用例子

串檔需要的變項
•醫事機構基本資料檔和各門診住院使用記錄檔
醫事機構或人員代號(加密)
•當次門診住院清單檔和醫令檔
住院 column 1-32 變項1-6：一對多
門診 column 1-33 變項1-6：一對多
•個人就醫紀錄歸戶檔
身份證統一編號(加密)

CD-OO串檔
data CD;
*length default= 4;
infile 'd:\research\nhi\formal99\S_CD19990.DAT'
lrecl=209;
input id $1-33 kind $34;
proc sort data=CD; by id; run;
data OO;
*length default= 4;
infile 'd:\research\nhi\formal99\S_OO19990.DAT';
input id $1-33 order_t $34;
proc sort data=OO; by id; run;

data CDOO;
merge CD OO; by id;
run;

data CDOO1;
set CDOO;
if kind ^= ' ' and order_t ^= ' ';
run;

健保資料庫目前的限制
•僅含健保申報之就醫記錄；非健保使用不申報
•正確性和完整性不一定可靠
•不能外接醫院或個人記錄以資核對
•中央健保局態度不明確：保護？開放？
•必須有全部就醫和醫令紀錄，不可用抽樣檔
•個人資料只有年齡性別; 醫院的地區別不代表病人的地區別
•健保涵蓋率非100%

••缺乏檢驗值––如：warfarin研究之INR

••缺藥理分類碼

••複方藥很難歸類
••資料內容之missing data需處理––如：缺處方天數、用法、E-code
••A--code診斷碼需轉成ICD code

••Confounding by indication難處理
••Compliance無法得知
••無法獲得OTC藥併用情形 (以上我也不太了解)