UniProt是Universal Protein的(de)(de)(de)英文縮寫,是信息(xi)(xi)最豐富、資源(yuan)最廣的(de)(de)(de)蛋白質(zhi)數(shu)(shu)據(ju)庫(ku)。它由整合(he)Swiss-Prot、TrEMBL和 PIR-PSD三大數(shu)(shu)據(ju)庫(ku)的(de)(de)(de)數(shu)(shu)據(ju)而成。他的(de)(de)(de)數(shu)(shu)據(ju)主要來自于基因組測序項目完成后,后續獲得的(de)(de)(de)蛋白質(zhi)序列。它包(bao)含了(le)大量來自文獻(xian)的(de)(de)(de)蛋白質(zhi)的(de)(de)(de)生物功能的(de)(de)(de)信息(xi)(xi)。
UniProtKB全稱UniProt Knowledgebase(UniProt知識庫)它是(shi)經過專家校(xiao)驗的數據集(ji),主要由兩部分組成(cheng):UniProtKB/Swiss-Prot(包(bao)含檢查過的、手工注(zhu)釋(shi)(shi)的條(tiao)目(mu))和(he)UniProtKB/TrEMBL(包(bao)含未校(xiao)驗的、自動(dong)注(zhu)釋(shi)(shi)的條(tiao)目(mu)),在(zai)2010年8月是(shi)10日發布的版本中,UniProtKB/Swiss-Prot包(bao)含519,348條(tiao)注(zhu)釋(shi)(shi)條(tiao)目(mu),UniProtKB/TrEMBL包(bao)含11,636,205條(tiao)注(zhu)釋(shi)(shi)條(tiao)目(mu)。
UniProtKB/Swiss-Prot
高質(zhi)量的(de)、手工注(zhu)釋的(de)、非冗余的(de)數據(ju)集;主要(yao)來自文(wen)獻中的(de)研究成果和E-value校(xiao)驗過計算分析結(jie)果。有質(zhi)量保證的(de)數據(ju)才被加入該數據(ju)庫。
UniProtKB/TrEMBL
該數據(ju)(ju)(ju)集包含高質量的(de)(de)計(ji)算分析結(jie)果(guo),一般都在自(zi)動注(zhu)(zhu)釋中(zhong)富集,主要應(ying)對基因組項目獲得的(de)(de)大量數據(ju)(ju)(ju)流(liu)以人工校驗在時間上(shang)和(he)人力上(shang)的(de)(de)不(bu)足。他(ta)能(neng)注(zhu)(zhu)釋所有可(ke)用的(de)(de)蛋白序列(lie)(lie)。在三大核酸數據(ju)(ju)(ju)庫(ku)(EMBL-Bank/GenBank/DDBJ)中(zhong)注(zhu)(zhu)釋的(de)(de)編碼序列(lie)(lie)都被(bei)自(zi)動翻譯并加入(ru)該數據(ju)(ju)(ju)庫(ku)中(zhong)。它也(ye)有來(lai)自(zi)PDB數據(ju)(ju)(ju)庫(ku)的(de)(de)序列(lie)(lie),以及Ensembl、Refeq和(he)CCDS基因預測的(de)(de)序列(lie)(lie)。
UniParc
UniParc全(quan)稱(cheng)是UniProt Archive,他(ta)是一(yi)(yi)(yi)(yi)個(ge)(ge)綜(zong)合(he)性的非冗余數(shu)據(ju)庫(ku)(ku),他(ta)包(bao)含(han)了所有主要(yao)的、公開的數(shu)據(ju)庫(ku)(ku)的蛋白(bai)質(zhi)序(xu)(xu)列(lie)。 由于蛋白(bai)質(zhi)可能在(zai)不同(tong)的數(shu)據(ju)庫(ku)(ku)中存在(zai),并且可能在(zai)同(tong)一(yi)(yi)(yi)(yi)個(ge)(ge)數(shu)據(ju)庫(ku)(ku)中有多(duo)個(ge)(ge)版本(ben),為了去冗余,UniaraParc對每條(tiao)唯一(yi)(yi)(yi)(yi)的序(xu)(xu)列(lie)只存一(yi)(yi)(yi)(yi)次。無論是否為同(tong)一(yi)(yi)(yi)(yi)物(wu)種的序(xu)(xu)列(lie),只要(yao)序(xu)(xu)列(lie)相同(tong)就被合(he)并為一(yi)(yi)(yi)(yi)條(tiao),每條(tiao)序(xu)(xu)列(lie)提供穩(wen)定(ding)的、唯一(yi)(yi)(yi)(yi)的編號(hao)UPI。該(gai)數(shu)據(ju)庫(ku)(ku)只含(han)有蛋白(bai)質(zhi)的序(xu)(xu)列(lie)信(xin)息,而沒有注釋數(shu)據(ju)。