UniProt هي قاعدة بيانات يمكن الوصول إليها بحرية لتسلسل البروتين والمعلومات الوظيفية، حيث يتم استخلاص العديد من الإدخالات من مشاريع تسلسل الجينوم . ويحتوي على كمية كبيرة من المعلومات حول الوظيفة البيولوجية للبروتينات المستمدة من الأدبيات البحثية. يتم صيانته من قبل اتحاد UniProt، والذي يتكون من العديد من منظمات المعلوماتية الحيوية الأوروبية ومؤسسة من واشنطن العاصمة ، الولايات المتحدة الأمريكية .

اتحاد UniProt

تعديل

اتحاد UniProt يضم المعهد الأوروبي للمعلومات الحيوية (EBI)، والمعهد السويسري للمعلومات الحيوية (SIB)، ومورد معلومات البروتين (PIR). يستضيف معهد EBI، الذي يقع في حرم Wellcome Trust Genome في هينكستون بالمملكة المتحدة، موردًا كبيرًا من قواعد البيانات والخدمات المتعلقة بالمعلومات الحيوية. تحتفظ شركة SIB، التي تقع في جنيف بسويسرا، بخوادم ExPASy (نظام تحليل البروتين الخبير) التي تعد موردًا مركزيًا لأدوات وقواعد بيانات التحليل البروتيني. يعد مركز PIR، الذي تستضيفه مؤسسة الأبحاث الطبية الحيوية الوطنية (NBRF) في المركز الطبي لجامعة جورج تاون في واشنطن العاصمة، الولايات المتحدة، وريثًا لأقدم قاعدة بيانات لتسلسل البروتين، وهو أطلس مارغريت دايهوف لتسلسل البروتين وبنيته، والذي نُشر لأول مرة في عام 1965. في عام 2002، انضمت EBI وSIB وPIR إلى اتحاد UniProt. [1]

جذور قواعد بيانات UniProt

تعديل

كل عضو يشارك في الكونسورتيوم بشكل كبير في صيانة قاعدة بيانات البروتين وشرحها. حتى وقت قريب، أنتجت EBI وSIB معًا قواعد بيانات Swiss-Prot وTrEMBL، بينما أنتجت PIR قاعدة بيانات تسلسل البروتين (PIR-PSD). [2] [3] [4] تتعايش قواعد البيانات هذه مع تغطية تسلسل البروتين المختلفة وأولويات الشرح. تم إنشاء Swiss-Prot في عام 1986 بواسطة Amos Bairoch أثناء حصوله على درجة الدكتوراه وتم تطويره بواسطة المعهد السويسري للمعلومات الحيوية وتم تطويره لاحقًا بواسطة Rolf Apweiler في المعهد الأوروبي للمعلومات الحيوية . [5] [6] [7] تهدف Swiss-Prot إلى توفير تسلسلات بروتينية موثوقة مرتبطة بمستوى عالٍ من التوضيح (مثل وصف وظيفة البروتين، وبنية مجاله ، والتعديلات بعد الترجمة ، والمتغيرات، وما إلى ذلك)، ومستوى أدنى من التكرار ومستوى عالٍ من التكامل مع قواعد البيانات الأخرى. مع إدراك أن بيانات التسلسل يتم إنشاؤها بسرعة تتجاوز قدرة Swiss-Prot على مواكبة ذلك، تم إنشاء TrEMBL (مكتبة بيانات تسلسل النوكليوتيدات EMBL المترجمة) لتوفير التعليقات التوضيحية الآلية لتلك البروتينات غير الموجودة في Swiss-Prot. وفي الوقت نفسه، حافظت PIR على PIR-PSD وقواعد البيانات ذات الصلة، بما في ذلك iProClass ، وهي قاعدة بيانات لتسلسلات البروتين والعائلات المنسقة. أعضاء الكونسورتيوم جمعو مواردهم وخبراتهم المتداخلة، و أطلقو UniProt في ديسمبر 2003. [8]

تنظيم قواعد بيانات UniProt

تعديل

UniProt يوفر 4 قواعد بيانات أساسية: UniProtKB (مع الأجزاء الفرعية Swiss-Prot وTrEMBL)، وUniParc، وUniRef، وProteome.

يوني بروتكب

تعديل

UniProt Knowledgebase (UniProtKB) هي قاعدة بيانات بروتينية تم تنظيمها جزئيًا بواسطة خبراء، وتتكون من قسمين: UniProtKB/Swiss-Prot (تحتوي على إدخالات تمت مراجعتها وشرحها يدويًا) وUniProtKB/TrEMBL (تحتوي على إدخالات غير مراجعة وشرحها تلقائيًا). [9] As of 22 فبراير 2023[[تصنيف:Articles containing potentially dated statements from غلط تعبيري: عامل < مش متوقع]] </link></link> يحتوي الإصدار "2023_01" من UniProtKB/Swiss-Prot على 569,213 إدخال تسلسل (يشتمل على 205,728,242 حمض أميني مستخلص من 291,046 مرجعًا) ويحتوي الإصدار "2023_01" من UniProtKB/TrEMBL على 245,871,724 إدخال تسلسل (يشتمل على 85,739,380,194 حمض أميني). [10]

UniProtKB/السويسري-Prot

تعديل

UniProtKB/Swiss-Prot عبارة عن قاعدة بيانات تسلسل بروتين غير مكررة يتم التعليق عليها يدويًا. إنه يجمع بين المعلومات المستخرجة من الأدبيات العلمية والتحليل الحسابي الذي تم تقييمه بواسطة biocurator . يهدف UniProtKB/Swiss-Prot إلى توفير جميع المعلومات ذات الصلة المعروفة حول بروتين معين. يتم مراجعة التعليقات التوضيحية بانتظام لمواكبة النتائج العلمية الحالية. يتضمن التعليق اليدوي على المدخل تحليلًا تفصيليًا لتسلسل البروتين والأدبيات العلمية. [11]

يتم دمج التسلسلات من نفس الجين ونفس النوع في نفس إدخال قاعدة البيانات. يتم تحديد الاختلافات بين التسلسلات، وتوثيق سببها (على سبيل المثال، الوصل البديل ، والتباين الطبيعي ، ومواقع البدء غير الصحيحة، وحدود الإكسون غير الصحيحة، والإطارات التحولية ، والصراعات غير المحددة). يتم استخدام مجموعة من أدوات تحليل التسلسل في شرح إدخالات UniProtKB/Swiss-Prot. يتم تقييم التوقعات الحاسوبية يدويًا، ويتم اختيار النتائج ذات الصلة للتضمين في الإدخال. تتضمن هذه التوقعات تعديلات ما بعد الترجمة، والمجالات عبر الغشاء والطوبولوجيا ، وببتيدات الإشارة ، وتحديد المجال، وتصنيف عائلة البروتين . [11] [12]

يتم تحديد المنشورات ذات الصلة من خلال البحث في قواعد البيانات مثل PubMed . يتم قراءة النص الكامل لكل ورقة، واستخراج المعلومات وإضافتها إلى المدخل. تتضمن التعليقات التوضيحية الناتجة عن الأدبيات العلمية، على سبيل المثال لا الحصر: [8] [11] [12]

  • أسماء البروتينات والجينات
  • وظيفة
  • معلومات خاصة بالإنزيم مثل النشاط التحفيزي والعوامل المساعدة والبقايا التحفيزية
  • الموقع الفرعي للخلية
  • تفاعلات البروتين مع البروتين
  • نمط التعبير
  • مواقع وأدوار المجالات والمواقع الهامة
  • مواقع ربط الأيونات والركيزة والعوامل المساعدة
  • أشكال متغيرات البروتين الناتجة عن التنوع الجيني الطبيعي، وتحرير الحمض النووي الريبي ، والربط البديل، والمعالجة البروتينية ، والتعديل بعد الترجمة

تخضع الإدخالات الموضحة لضمان الجودة قبل تضمينها في UniProtKB/Swiss-Prot. عندما تصبح البيانات الجديدة متاحة، يتم تحديث الإدخالات.

يوني بروتكب/تريميبل

تعديل

UniProtKB/TrEMBL يحتوي على سجلات عالية الجودة تم تحليلها حسابيًا، والتي تم إثرائها بالتعليق التلقائي. تم تقديمه استجابة لزيادة تدفق البيانات الناتجة عن مشاريع الجينوم، حيث لم يكن من الممكن توسيع عملية التعليق اليدوي التي تستغرق وقتًا طويلاً والعمالة في UniProtKB/Swiss-Prot لتشمل جميع تسلسلات البروتين المتاحة. [8] يتم معالجة ترجمات تسلسلات الترميز الموضحة في قاعدة بيانات تسلسل النوكليوتيدات EMBL-Bank/GenBank/DDBJ تلقائيًا وإدخالها في UniProtKB/TrEMBL. يحتوي UniProtKB/TrEMBL أيضًا على تسلسلات من PDB ، ومن التنبؤ بالجينات، بما في ذلك Ensembl و RefSeq و CCDS . [13] منذ 22 يوليو 2021، أصبح يشمل أيضًا الهياكل المتوقعة باستخدام AlphaFold2 . [14]

يونيبارك

تعديل

UniProt Archive (UniParc) عبارة عن قاعدة بيانات شاملة وغير مكررة، تحتوي على جميع تسلسلات البروتين من قواعد بيانات تسلسل البروتين الرئيسية المتاحة للجمهور. [15] يمكن أن توجد البروتينات في عدة قواعد بيانات مصدرية مختلفة، وفي نسخ متعددة في نفس قاعدة البيانات. لتجنب التكرار، يقوم UniParc بتخزين كل تسلسل فريد مرة واحدة فقط. يتم دمج التسلسلات المتطابقة، بغض النظر عما إذا كانت من نفس النوع أو من أنواع مختلفة. يتم منح كل تسلسل معرفًا ثابتًا وفريدًا (UPI)، مما يجعل من الممكن تحديد نفس البروتين من قواعد بيانات مصدر مختلفة. يحتوي UniParc فقط على تسلسلات البروتين، دون أي تعليق توضيحي. تسمح المراجع المتبادلة لقواعد البيانات في إدخالات UniParc باسترجاع مزيد من المعلومات حول البروتين من قواعد البيانات المصدر. عندما تتغير التسلسلات في قواعد البيانات المصدر، يتم تعقب هذه التغييرات بواسطة UniParc ويتم أرشفة تاريخ جميع التغييرات.

قواعد البيانات المصدرية

تعديل

UniParc حاليًا يحتوي على تسلسلات بروتينية من قواعد البيانات المتاحة للجمهور التالية:

  • قواعد بيانات تسلسل النوكليوتيدات INSDC EMBL -Bank/ DDBJ / GenBank
  • فرقة موسيقية
  • المكتب الأوروبي لبراءات الاختراع
  • FlyBase: المستودع الأساسي للبيانات الجينية والجزيئية لعائلة الحشرات Drosophilidae (FlyBase)
  • قاعدة بيانات H-Invitational (H-Inv)
  • مؤشر البروتين الدولي (IPI)
  • مكتب براءات الاختراع الياباني
  • مصدر معلومات البروتين (PIR-PSD)
  • بنك بيانات البروتين
  • مؤسسة أبحاث البروتين (PRF) [16]
  • مرجعية
  • قاعدة بيانات جينوم السكارومايسيس (SGD)
  • موارد معلومات نبات أرابيدوبسيس (TAIR)
  • تروم
  • مكتب براءات الاختراع الأمريكي (USPTO)
  • UniProtKB/Swiss-Prot، أشكال البروتين UniProtKB/Swiss-Prot، UniProtKB/TrEMBL
  • قاعدة بيانات شرح الفقاريات والجينوم (VEGA)
  • قاعدة الديدان

يونيريف

تعديل

تتكون مجموعات UniProt المرجعية (UniRef) من ثلاث قواعد بيانات لمجموعات مجمعة من تسلسلات البروتين من UniProtKB وسجلات UniParc المحددة. [17] تقوم قاعدة بيانات UniRef100 بدمج التسلسلات المتطابقة وأجزاء التسلسل (من أي كائن حي ) في إدخال UniRef واحد. يتم عرض تسلسل البروتين التمثيلي وأرقام الوصول لجميع الإدخالات المدمجة والروابط إلى سجلات UniProtKB وUniParc المقابلة. يتم تجميع تسلسلات UniRef100 باستخدام خوارزمية CD-HIT لبناء UniRef90 وUniRef50. [17] [18] تتكون كل مجموعة من تسلسلات تحتوي على ما لا يقل عن 90% أو 50% من هوية التسلسل، على التوالي، إلى أطول تسلسل. يؤدي تجميع التسلسلات إلى تقليل حجم قاعدة البيانات بشكل كبير، مما يتيح إجراء عمليات بحث أسرع في التسلسلات.

UniRef متاح من موقع UniProt FTP .

تمويل

تعديل

تمويل UniProt من خلال المنح المقدمة من المعهد الوطني لأبحاث الجينوم البشري ، والمعاهد الوطنية للصحة (NIH)، والمفوضية الأوروبية ، والحكومة الفيدرالية السويسرية من خلال المكتب الفيدرالي للتعليم والعلوم، و NCI-caBIG ، ووزارة الدفاع الأمريكية. [9]


شوف كمان

تعديل

مراجع

تعديل
  1. "2002 Release: NHGRI Funds Global Protein Database". National Human Genome Research Institute (NHGRI). مؤرشف من الأصل في 2015-09-24. اطلع عليه بتاريخ 2018-04-14.
  2. O'Donovan، C.؛ Martin، M. J.؛ Gattiker، A.؛ Gasteiger، E.؛ Bairoch، A.؛ Apweiler، R. (2002). "High-quality protein knowledge resource: SWISS-PROT and TrEMBL". Briefings in Bioinformatics. ج. 3 ع. 3: 275–284. DOI:10.1093/bib/3.3.275. PMID:12230036. مؤرشف من الأصل في 2024-01-24. اطلع عليه بتاريخ 2024-01-24.
  3. Wu، C. H.؛ Yeh، L. S.؛ Huang، H.؛ Arminski، L.؛ Castro-Alvear، J.؛ Chen، Y.؛ Hu، Z.؛ Kourtesis، P.؛ Ledley، R. S. (2003). "The Protein Information Resource". Nucleic Acids Research. ج. 31 ع. 1: 345–347. DOI:10.1093/nar/gkg040. PMC:165487. PMID:12520019.
  4. Boeckmann، B.؛ Bairoch، A.؛ Apweiler، R.؛ Blatter، M. C.؛ Estreicher، A.؛ Gasteiger، E.؛ Martin، M. J.؛ Michoud، K.؛ O'Donovan، C. (2003). "The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003". Nucleic Acids Research. ج. 31 ع. 1: 365–370. DOI:10.1093/nar/gkg095. PMC:165542. PMID:12520024.
  5. Bairoch، A.؛ Apweiler، R. (1996). "The SWISS-PROT protein sequence data bank and its new supplement TREMBL". Nucleic Acids Research. ج. 24 ع. 1: 21–25. DOI:10.1093/nar/24.1.21. PMC:145613. PMID:8594581.
  6. Bairoch، A. (2000). "Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!". Bioinformatics. ج. 16 ع. 1: 48–64. DOI:10.1093/bioinformatics/16.1.48. PMID:10812477. مؤرشف من الأصل في 2024-02-05. اطلع عليه بتاريخ 2024-02-05.
  7. Séverine Altairac, "Naissance d’une banque de données: Interview du prof. Amos Bairoch Archived 2010-07-12 at the Wayback Machine".
  8. أ ب ت Apweiler، R.؛ Bairoch، A.؛ Wu، C. H. (2004). "Protein sequence databases". Current Opinion in Chemical Biology. ج. 8 ع. 1: 76–80. DOI:10.1016/j.cbpa.2003.12.004. PMID:15036160. المرجع غلط: وسم <ref> غير صالح؛ الاسم "pmid15036160" معرف أكثر من مرة بمحتويات مختلفة.
  9. أ ب Uniprot، C. (2009). "The Universal Protein Resource (UniProt) in 2010". Nucleic Acids Research. ج. 38 ع. Database issue: D142–D148. DOI:10.1093/nar/gkp846. PMC:2808944. PMID:19843607. المرجع غلط: وسم <ref> غير صالح؛ الاسم "pmid19843607" معرف أكثر من مرة بمحتويات مختلفة.
  10. "UniProtKB/Swiss-Prot Release 2023_01 statistics". web.expasy.org. مؤرشف من الأصل في 2023-04-04. اطلع عليه بتاريخ 2023-03-31.
  11. أ ب ت "How do we manually annotate a UniProtKB entry?". UniProt. 21 سبتمبر 2011. مؤرشف من الأصل في 2013-12-13. اطلع عليه بتاريخ 2018-04-14. المرجع غلط: وسم <ref> غير صالح؛ الاسم "faq45" معرف أكثر من مرة بمحتويات مختلفة.
  12. أ ب Apweiler، R.؛ Bairoch، A.؛ Wu، C. H.؛ Barker، W. C.؛ Boeckmann، B.؛ Ferro، S.؛ Gasteiger، E.؛ Huang، H.؛ Lopez، R. (2004). "UniProt: The Universal Protein knowledgebase". Nucleic Acids Research. ج. 32 ع. 90001: 115D–1119. DOI:10.1093/nar/gkh131. PMC:308865. PMID:14681372. المرجع غلط: وسم <ref> غير صالح؛ الاسم "pmid14681372" معرف أكثر من مرة بمحتويات مختلفة.
  13. "Where do the UniProtKB protein sequences come from?". UniProt. 21 سبتمبر 2011. مؤرشف من الأصل في 2013-12-15. اطلع عليه بتاريخ 2018-04-14.
  14. Hassabis، Demis (22 يوليو 2022). "Putting the power of AlphaFold into the world's hands". Deepmind. مؤرشف من الأصل في 2021-07-24. اطلع عليه بتاريخ 2021-07-24.
  15. Leinonen، R.؛ Diez، F. G.؛ Binns، D.؛ Fleischmann، W.؛ Lopez، R.؛ Apweiler، R. (2004). "UniProt archive" (PDF). Bioinformatics. ج. 20 ع. 17: 3236–3237. DOI:10.1093/bioinformatics/bth191. PMID:15044231. مؤرشف من الأصل في 2024-03-30.
  16. "Protein Research Foundation". مؤرشف من الأصل في 2010-08-30. اطلع عليه بتاريخ 2010-08-25.
  17. أ ب Suzek، B. E.؛ Huang، H.؛ McGarvey، P.؛ Mazumder، R.؛ Wu، C. H. (2007). "UniRef: Comprehensive and non-redundant UniProt reference clusters". Bioinformatics. ج. 23 ع. 10: 1282–1288. DOI:10.1093/bioinformatics/btm098. PMID:17379688.
  18. Li، W.؛ Jaroszewski، L.؛ Godzik، A. (2001). "Clustering of highly homologous sequences to reduce the size of large protein databases". Bioinformatics. ج. 17 ع. 3: 282–283. DOI:10.1093/bioinformatics/17.3.282. PMID:11294794.

روابط خارجية

تعديل

 

قالب:Bioinformatics