14 -bob. S yordamida ketma -ketlik motifini tahlil qilish; Biopiton-cn 0. 1 文档

14 -bob Bio.motifs yordamida ketma -ketlik motifini tahlil qilish¶

14 -bob Bio.motifs yordamida ketma -ketlik motiflarini tahlil qilish¶ Bu bobda Biopython -ga kiritilgan Bio.motifs to'plamining funksionalligi haqida umumiy ma'lumot berilgan. U bor odamlar uchun mo'ljallangan
08.09.2021

Ushbu bobda Biopython -ga kiritilgan Bio.motifs to'plamining imkoniyatlari haqida umumiy ma'lumot berilgan. Bu ketma -ketlik motiflarini tahlil qilish bilan shug'ullanadigan odamlar uchun mo'ljallangan, shuning uchun menimcha, siz motivlarni tahlil qilishning asosiy tushunchalari bilan tanishsiz. Agar biror narsa tushunarsiz bo'lsa, ba'zi havolalarni 14.8 -bo'limga qarang.

Ushbu bobning ko'p qismida Biopython 1.61 -dan keyingi Bio.motifs yangi to'plami tasvirlangan bo'lib, u Biopython 1.50 bilan almashtirilgan eski Bio.Motif to'plamini almashtiradi, bu esa o'z navbatida Bio.AlignAce va Bio.MEME ikkita eski Biopython modullariga asoslangan. . Bu ularning ko'p funktsiyalarini motifli ob'ektni birlashtirilgan holda amalga oshirish bilan ta'minlaydi.

Boshqa kutubxonalar haqida gapirganda, agar siz buni o'qiyotgan bo'lsangiz, sizni ketma -ketlik motiflari bilan shug'ullanish uchun mo'ljallangan boshqa piton kutubxonasi TAMO qiziqtirishi mumkin. Bu ko'proq de-novo motif topuvchilarni qo'llab-quvvatlaydi , lekin u Biopython tarkibiga kirmaydi va tijorat maqsadlarida foydalanish uchun ba'zi cheklovlarga ega.

14.1 Motifli narsalar

Motiflarni tahlil qilish bizni qiziqtirgani uchun, biz birinchi navbatda Motif ob'ektlarini ko'rib chiqishimiz kerak. Buning uchun Bio.motifs kutubxonasini import qilishimiz kerak:

va biz birinchi motif ob'ektlarimizni yaratishni boshlashimiz mumkin. Biz motif ob'ektlari ro'yxatidan Motif ob'ektini yaratishimiz mumkin yoki motif ma'lumotlar bazasidan yoki motiflarni qidirish dasturidan faylni ajratish orqali Motif ob'ektini olishimiz mumkin.

14.1.1 Misollardan motiv yaratish.

Aytaylik, bizda DNK motifining misollari bor:

keyin biz Motif ob'ektini quyidagicha yaratishimiz mumkin:

Namunalar m.instances atributida saqlanadi, bu asosan Python ro'yxati bo'lib, u quyida ta'riflanganidek, qo'shimcha funksiyalarga ega. Motif ob'ektini chop etish, u yaratilgan misollarni ko'rsatadi:

Motifning uzunligi ketma -ketlik uzunligi sifatida belgilanadi, u hamma holatlar uchun bir xil bo'lishi kerak:

Motif obyekti atributga ega. Har bir pozitsiyada har bir nukleotidning hisobini o'z ichiga oladi. Ushbu matritsani chop etish uni oson o'qiladigan formatda ko'rsatadi:

Siz lug'at sifatida bu hisoblarga kirishingiz mumkin:

lekin siz uni nukleotidni birinchi o'lchov va pozitsiyani ikkinchi o'lchovli 2D qator sifatida ham ko'rishingiz mumkin:

Hisoblash matritsasining ustunlariga to'g'ridan -to'g'ri kirishingiz mumkin

Nukleotidning o'rniga, motif alifbosidagi tartiblangan harflardagi nukleotid indeksidan ham foydalanishingiz mumkin:

Motif, hisob matritsasining mos keladigan ustunlaridagi eng katta qiymatga ega bo'lgan motifning pozitsiyalari bo'ylab harflar ketma -ketligi sifatida aniqlangan konsensus ketma -ketligiga ega:

shuningdek, hisoblar matritsasi ustunlaridagi eng kichik qiymatlarga mos keladigan kelishuvga qarshi ketma -ketlik:

Siz, shuningdek, ko'p sonli nukleotidlar ko'p bo'lgan pozitsiyalar uchun noaniq nukleotidlar qo'llaniladigan degenerativ konsensus ketma -ketligini so'rashingiz mumkin:

Bu erda W va R IUPAC nukleotidlarining noaniqlik kodlariga amal qiladi: V - A yoki T, V - A, C yoki G [10]. Degenerativ konsensus ketma -ketligi Cavener [11] tomonidan belgilangan qoidalarga muvofiq tuzilgan.

Motivning teskari to'ldiruvchisini ham olishimiz mumkin:

Teskari komplement va buzilgan konsensus ketma -ketligi faqat DNK motiflari uchun belgilanadi.

14.1.2 O'qish motiflari

Motivlarni qo'lda yaratish biroz zerikarli, shuning uchun o'qish va yozish uchun kirish -chiqish funktsiyalari bo'lishi foydalidir. Motiflarni saqlash uchun aniq belgilangan standartlar yo'q, lekin boshqalarga qaraganda ko'proq qo'llaniladigan bir nechta format mavjud. Eng muhim farq - bu motif tasviri misollarga asoslanganmi yoki PWM matritsasining ba'zi versiyalariga asoslanganmi.

JASPAR¶

Eng mashhur motifli ma'lumotlar bazalaridan biri JASPAR motiflarni misollar ro'yxati yoki chastota matritsasi sifatida saqlaydi. Misol tariqasida, bu Arnt sichqon spirali-halqa-spirali transkripsiya faktorining ma'lum bog'lanish joylarini ko'rsatuvchi JASPAR Arnt.sites faylining boshlanish va tugash satrlari:

Katta harflar bilan ketma -ketlik qismlari bir -biriga mos keladigan motivli misollardir.

Biz bu holatlardan Motif ob'ektini quyidagicha yaratishimiz mumkin:

Bu motif yaratilgan misollar .instances xususiyatida saqlanadi:

Bu motifning hisob matritsasi quyidagi holatlardan avtomatik tarzda hisoblanadi:

JASPAR ma'lumotlar bazasi, shuningdek, motiflarni to'g'ridan -to'g'ri hisoblash matritsasi sifatida yaratadi. Masalan, bu inson SRF transkripsiya faktori uchun hisoblash matritsasini o'z ichiga olgan SRF.pfm JASPAR fayli:

Biz bu matritsaning motifini quyidagicha yaratishimiz mumkin:

Bu motif to'g'ridan -to'g'ri hisoblash matritsasidan yaratilganligi sababli, u bilan bog'liq bo'lmagan misollar mavjud:

Endi biz ushbu ikkita motifning konsensus ketma -ketligini so'rashimiz mumkin:

MEME [12] - bu DNK yoki oqsil ketma -ketligi guruhidagi motiflarni kashf qilish vositasi. Bu DNK yoki oqsil ketma -ketligi guruhini oladi va so'ralganicha ko'proq motiflarni chiqaradi. Shuning uchun, JASPAR fayllaridan farqli o'laroq, MEME chiqish fayllari odatda bir nechta motiflarni o'z ichiga oladi. Bu misol.

MEME tomonidan ishlab chiqarilgan chiqish faylining yuqori qismida MEME va ishlatilgan MEME versiyasi haqida ba'zi ma'lumotlar ko'rsatilgan:

Keyinchalik, mashg'ulotlar ketma -ketligining kirish to'plami takrorlanadi:

va ishlatilgan aniq buyruq qatori:

Keyingi topilgan har bir motif haqida batafsil ma'lumot:

Ushbu faylni tahlil qilish uchun (meme.dna.oops.txt sifatida saqlanadi) foydalaning

Motifs.parse buyrug'i to'liq faylni to'g'ridan -to'g'ri o'qiydi, shuning uchun siz motifs.parse ni chaqirgandan so'ng faylni yopishingiz mumkin. Sarlavha ma'lumotlari atributlarda saqlanadi:

Yozuv Bio.motifs.meme.Record sinfining ob'ektidir. Sinf ro'yxatdan meros bo'lib qoladi va siz Motif ob'ektlarining ro'yxati sifatida yozishni o'ylashingiz mumkin:

Bu umumiy motif atributlaridan tashqari, har bir motif MEME tomonidan hisoblangan o'ziga xos ma'lumotlarni ham saqlaydi. Misol uchun,

Yozuvda indeksni ishlatishdan tashqari, biz yuqorida aytganimizdek, uni o'z nomi bilan ham topishingiz mumkin:

Har bir motifda har bir misol haqida ma'lumot beradigan motif topilgan ketma -ketlik misollari bo'lgan.

TRANSFAC¶

TRANSFAC - bu transkripsiya omillarining qo'lda tuzilgan ma'lumotlar bazasi, ularning genomik bog'lanish joylari va DNK bilan bog'lanish profillari [27]. Hozirgi vaqtda TRANSFAC ma'lumotlar bazasida ishlatiladigan fayl formati boshqalar tomonidan ham qo'llanilsa, biz uni TRANSFAC fayl formati deb ataymiz.

TRANSFAC formatidagi minimal fayl quyidagicha ko'rinadi:

Bu faylda 12 nukleotid motif motifining chastota matritsasi ko'rsatilgan. Umuman, TRANSFAC formatidagi bitta fayl bir nechta motiflarni o'z ichiga olishi mumkin. Masalan, bu TRANSFAC faylining transfac.dat misolida keltirilgan:

TRANSFAC faylini tahlil qilish uchun foydalaning

Umumiy versiya raqami, agar mavjud bo'lsa, record.version sifatida saqlanadi:

Yozuvdagi har bir motif Bio.motifs.transfac.Motif sinfiga tegishli bo'lib, u Bio.motifs.Motif sinfidan ham, Python lug'atidan ham meros bo'lib oladi. Lug'at motif haqidagi qo'shimcha ma'lumotlarni saqlash uchun ikki harfli kalitlardan foydalanadi:

TRANSFAC fayllari odatda bu misolga qaraganda ancha murakkabroq bo'lib, motif haqida ko'plab qo'shimcha ma'lumotlarni o'z ichiga oladi. 14.1.2-jadvalda odatda TRANSFAC fayllarida uchraydigan ikki harfli maydon kodlari keltirilgan:

14.1 -jadval: TRANSFAC fayllarida keng tarqalgan maydonlar
AC Kirish raqami
AS Kirish raqamlari, ikkilamchi
BA Statistik asos
BF Majburiy omillar
BS Matritsaning asosini bog'laydigan omillar
CC Izohlar
CO Mualliflik huquqi haqida bildirishnoma
DE Qisqa faktor tavsifi
DR Tashqi ma'lumotlar bazalari
DT Yaratilgan/yangilangan sana
HC Subfamiliyalar
HP Super oilalar
ID Identifikator
NA Bog'lanish omilining nomi
OK Taksonomik tasnif
OS Turlar/Taxon
OV Eski versiya
PV Tanlangan versiya
TY Turi
XX Bo'sh chiziq; bu yozuvlarda saqlanmaydi.

Har bir motifda ikkita harfli tugmalar yordamida motif bilan bog'liq havolalarni o'z ichiga olgan atributlar mavjud.

14.2 -jadval: TRANSFAC fayllarida havolalarni saqlash uchun ishlatiladigan maydonlar
RN Malumot raqami
RA Malumot mualliflari
RL Malumot ma'lumotlari
RT Malumot sarlavhasi
RX PubMed identifikatori

Motiflarni chop etish ularni TRANSFAC formatida yozadi:

Siz motiflarni TRANSFAC formatida eksport qilishingiz mumkin, bu chiqishni mag'lubiyatga yozib oling va uni faylga saqlang:

14.1.3 Motiflarni yozish

Eksport haqida gapirganda, umuman eksport funktsiyalarini ko'rib chiqaylik. Motifni JASPAR .pfm formatida eksport qilish uchun foydalaning

Motifni TRANSFAC-ga o'xshash matritsa formatida yozish uchun foydalaning

Bir nechta motiflarni yozish uchun siz motifs.write dan foydalanishingiz mumkin. Bu funksiya motiflar TRANSFAC faylidan kelib chiqqanidan qat'i nazar ishlatilishi mumkin. Misol uchun,

14.1.4 Ketma -ketlik logotipini yaratish

Agar bizda Internetga kirish imkoni bo'lsa, biz weblogo yaratishimiz mumkin:

Biz logotipimizni belgilangan faylda PNG formatida saqlashimiz kerak.

14.2 Pozitsiya-vaznli matritsalar

Motif ob'ektining .counts atributi har bir nukleotidning har bir pozitsiyada qanchalik tez -tez paydo bo'lganligini ko'rsatadi. Biz bu matritsani hizalanishdagi misollar soniga bo'lish orqali normalizatsiya qilishimiz mumkin, natijada har bir pozitsiyada har bir nukleotid ehtimoli bo'ladi. Biz bu ehtimollarni pozitsiya-vazn matritsasi deb ataymiz. Ehtiyot bo'ling, adabiyotda bu atama biz quyida muhokama qiladigan pozitsiyaga xos ballar matritsasi uchun ham ishlatilishi mumkin.

Odatda, har bir pozitsiyaga normallashtirishdan oldin soxta hisoblar qo'shiladi. Bu pozitsiya-vazn matritsasini hizalanishdagi cheklangan miqdordagi motifli misollar bilan to'ldirishdan saqlaydi, shuningdek, ehtimollarning nolga aylanishiga to'sqinlik qilishi mumkin. Barcha pozitsiyalardagi barcha nukleotidlarga sobit soxta hisob qo'shish uchun soxta hisoblar argumenti uchun raqamni ko'rsating:

Shu bilan bir qatorda, soxta hisoblar har bir nukleotid uchun soxta hisoblarni ko'rsatuvchi lug'at bo'lishi mumkin. Masalan, inson genomining GC tarkibi taxminan 40%bo'lgani uchun, siz shunga mos ravishda soxta hisoblarni tanlashingiz mumkin:

Pozitsiya-vazn matritsasi konsensus, antikonsensus va buzilgan konsensus ketma-ketligini hisoblashning o'ziga xos usullariga ega:

E'tibor bering, soxta hisoblar tufayli pozitsiya-vazn matritsasi bo'yicha hisoblangan degenerativ konsensus ketma-ketligi motifdagi misollardan hisoblangan buzilgan konsensus ketma-ketligidan biroz farq qiladi:

Pozitsiya-vazn matritsasining teskari to'ldiruvchisi to'g'ridan-to'g'ri pwm dan hisoblanishi mumkin:

14.3 Pozitsiyaga xos balli matritsalar

Orqa fon taqsimoti va soxta hisoblar qo'shilgan PWM-dan foydalanib, fonda motifdan kelib chiqadigan ma'lum bir belgining log-koeffitsientlari nima ekanligini aytib, log-odds nisbatlarini hisoblash oson. Joylashuv-vazn matritsasida .log_odds () usulidan foydalanishimiz mumkin:

Bu erda biz motifda fonga qaraganda tez -tez uchraydigan ramzlar uchun ijobiy qadriyatlarni va fonda tez -tez uchraydigan belgilar uchun salbiy qiymatlarni ko'rishimiz mumkin. 0.0 degani, fonda va motifda ramzni ko'rish ehtimoli teng.

Bu shuni anglatadiki, A, C, G va T bir xil darajada fonda. A, C, G, T uchun ehtimoli teng bo'lmagan fonda pozitsiyaga xos ballar matritsasini hisoblash uchun fon argumentidan foydalaning. Masalan, 40% GC tarkibiga ega fonda foydalaning

PSSMdan olinadigan maksimal va minimal ball .max va .min xususiyatlarida saqlanadi:

Ma'lum bir fon bo'yicha PSSM ballarining o'rtacha va standart og'ishi .mean va .std usullari bilan hisoblanadi.

Agar fon belgilanmagan bo'lsa, yagona fon ishlatiladi. O'rtacha qiymat juda muhim, chunki uning qiymati Kullback-Leybler divergentsiyasiga yoki nisbiy entropiyaga teng va fonga nisbatan motifning axborot mazmuni uchun o'lchovdir. Biopythonda bo'lgani kabi, log-odds ballarini hisoblashda baza-2 logarifmasi ishlatiladi, axborot tarkibi bit birliklariga ega.

.Reverse_complement, .consensus, .anticonsensus va .degenerate_consensus usullari to'g'ridan -to'g'ri PSSM ob'ektlariga qo'llanilishi mumkin.

14.4 Misollarni qidirish

Motif uchun eng tez -tez ishlatib turadigan narsa bu uning misollarini ketma -ketlikda topishdir. Ushbu bo'lim uchun biz quyidagi kabi sun'iy ketma -ketlikni qo'llaymiz:

14.4.1 Aniq mosliklarni qidirish

Misollarni topishning eng oddiy usuli - bu haqiqiy motivlar misollarining aniq mos kelishini izlash:

Biz teskari to'ldiruvchi bilan ham xuddi shunday qilishimiz mumkin (qo'shimcha chiziqdagi misollarni topish uchun):

14.4.2 PSSM ballari yordamida o'yinlarni qidirish.

Lavozimlarni qidirish oson, bu bizning motifimizga qarshi yuqori baholarni keltirib chiqaradi:

Salbiy pozitsiyalar test ketma -ketligining teskari chizig'ida topilgan motif holatlarini bildiradi va salbiy indekslar bo'yicha Python konventsiyasiga amal qiladi. Shuning uchun posdagi motif misoli test_seq [pos: pos+len (m)] da pozning musbat va manfiy qiymatlari uchun joylashgan.

Siz chegara parametrini sezishingiz mumkin, bu erda o'zboshimchalik bilan 3.0 ga o'rnatiladi. Bu 2 -jurnalda , shuning uchun biz faqat motifli model ostida fonda sodir bo'lish ehtimoli sakkiz barobar ko'proq bo'lgan so'zlarni qidirmoqdamiz. Standart chegara 0,0 bo'lib, u fondan ko'ra motifga o'xshagan hamma narsani tanlaydi.

Siz ketma -ketlikdagi barcha pozitsiyalardagi ballarni hisoblashingiz mumkin:

Umuman olganda, bu PSSM ballarini hisoblashning eng tezkor usuli. Pssm.calculate tomonidan qaytarilgan ballar faqat oldinga siljish uchun. Balandlikni teskari yo'nalishda olish uchun siz PSSM -ning teskari qo'shimchasini olishingiz mumkin:

14.4.3 Ballar chegarasini tanlash¶

Agar siz chegaralarni tanlashning kamroq ixtiyoriy usulidan foydalanmoqchi bo'lsangiz, PSSM ballarining taqsimlanishini o'rganishingiz mumkin. Ballarni taqsimlash joyi motif uzunligi bilan eksponent ravishda o'sib borayotganligi sababli, biz hisob -kitob xarajatlarini boshqarilishi uchun aniqlik bilan taxminiy yondashuvni qo'llaymiz:

Tarqatish ob'ektidan turli xil chegaralarni aniqlash mumkin. Biz so'ralgan yolg'on-pozitiv tezlikni belgilashimiz mumkin (fonda yaratilgan ketma-ketlikda motif misolini "topish" ehtimoli):

yoki noto'g'ri-manfiy tezlik (motifdan olingan misolni "topmaslik" ehtimoli):

yolgon-musbat va noto'g'ri-salbiy (fnr/fpr≃ t ) o'rtasidagi bog'liqlikni qondiradigan chegara (taxminan ):

yoki noto'g'ri pozitivlik darajasi va axborot mazmuni jurnali o'rtasidagi tenglikni (taxminan) qondiradigan chegara ( Hertz va Stormo tomonidan patser dasturida ishlatilgan):

Masalan, bizning motifimiz bo'lsa, siz chegara balansi 1000 bo'lgan muvozanatli misollarni qidirish bilan bir xil natijalarni beradigan chegarani olishingiz mumkin (bu ketma -ketlik uchun).

14.5 Har bir motif ob'ektining o'ziga xos pozitsiyalar bo'yicha matritsasi mavjud.

PSSM yordamida potentsial TFBSni qidirishni engillashtirish uchun har bir motif bilan pozitsiya-vazn matritsasi ham, pozitsiyaga xos ballar matritsasi ham bog'langan. Misol sifatida Arnt motifidan foydalanish:

Manfiy cheksizliklar bu erda paydo bo'ladi, chunki chastota matritsasidagi mos yozuv 0 ga teng va biz sukut bo'yicha nol psevdokanlardan foydalanamiz:

Agar siz .pseudocounts atributini o'zgartirsangiz, pozitsiya-chastota matritsasi va pozitsiyaga xos ballar matritsasi avtomatik ravishda qayta hisoblab chiqiladi:

Agar siz ular uchun turli xil soxta hisoblardan foydalanmoqchi bo'lsangiz, .pseudocounts ni to'rt nukleotidlar bo'yicha lug'atga o'rnatishingiz mumkin. Motif.pseudocounts ni "Yo'q" ga o'rnatish uni asl qiymati nolga qaytaradi.

Joylashuvga xos ballar matritsasi fon taqsimotiga bog'liq bo'lib, u sukut bo'yicha bir xil bo'ladi:

Shunga qaramay, agar siz fon taqsimotini o'zgartirsangiz, pozitsiyaga xos ballar matritsasi qayta hisoblab chiqiladi:

Motif.background -ni None -ga o'rnatish uni yagona taqsimotga qaytaradi:

Agar siz motif.background -ni bitta qiymatga tenglashtirsangiz, u GC tarkibi sifatida talqin qilinadi:

E'tibor bering, endi siz PSSM ballari o'rtacha hisobini hisoblashingiz mumkin.

shuningdek, uning standart og'ishi:

va uning tarqalishi:

E'tibor bering, pozitsiya-og'irlik matritsasi va pozitsiyaga xos ballar matritsasi har safar motif.pwm yoki motif.pssm-ga qo'ng'iroq qilganingizda qayta hisoblab chiqiladi. Agar tezlik muammo bo'lsa va siz PWM yoki PSSM -ni qayta -qayta ishlatmoqchi bo'lsangiz, ularni o'zgarmaydigan sifatida saqlashingiz mumkin.

14.6 Motiflarni solishtirish

Agar bizda bir nechta motivlar bo'lsa, biz ularni solishtirishimiz mumkin.

Motiflarni solishtirishni boshlashdan oldin shuni aytishim kerakki, motif chegaralari odatda o'zboshimchalik bilan bo'ladi. Bu shuni anglatadiki, biz ko'pincha turli uzunlikdagi motiflarni solishtirishimiz kerak, shuning uchun taqqoslash qandaydir hizalanishni o'z ichiga olishi kerak. Bu shuni anglatadiki, biz ikkita narsani hisobga olishimiz kerak:

  • motiflarning uyg'unligi
  • tekislangan motiflarni solishtirish uchun ba'zi funktsiyalar

Motiflarni tekislash uchun biz matritsalarning boshida va oxirida PSSM -larning bo'sh joyini tekislashni ishlatamiz va nollarni almashtiramiz. Bu shuni anglatadiki, biz PSSMda yo'q bo'lgan ustunlar uchun fon taqsimotidan samarali foydalanmoqdamiz. Keyin masofa funktsiyasi motiflar orasidagi minimal masofani, shuningdek ularning hizalanishidagi mos keladigan siljishni qaytaradi.

Misol berish uchun, avval m test motifimizga o'xshash boshqa motifni yuklaylik:

Motiflarni taqqoslash uchun biz motifimiz kabi soxta hisoblar va fon taqsimoti uchun bir xil qiymatlarni tanlaymiz:

Biz bu motiflarni Pirson korrelyatsiyasi yordamida solishtiramiz. Biz bu masofani o'lchash o'xshaydi istagan ekan, biz aslida 1- olib r , r Pearson korelasyon koeffisiyenti (PCC) hisoblanadi:

Bu shuni anglatadiki, m va m_reb1 motifi orasidagi eng yaxshi PCC quyidagi hizalanish bilan olinadi:

bu erda b fon taqsimotini bildiradi. PCC ning o'zi taxminan 1−0.239 = 0.761 ga teng.

14.7 De novo motifini topish

Hozirgi vaqtda Biopython de novo motif topishni cheklangan qo'llab -quvvatlaydi . AlignAce va MEME -ni ishga tushirish va tahlil qilishni qo'llab -quvvatlaymiz. Motiflarni qidirish asboblari soni tez o'sib borayotganligi sababli, yangi tahlilchilarning hissalari ma'qul.

14.7.1 MEME¶

Faraz qilaylik, siz MEME -ni o'zingiz yoqtirgan parametrlar bo'yicha ketma -ketlikda ishga tushirdingiz va chiqishni meme.out faylida saqladingiz. Siz quyidagi kod qismini ishlatib, MEME tomonidan bildirilgan motiflarni olishingiz mumkin:

Motivlarning eng ko'p qidiriladigan ro'yxatidan tashqari, natija ob'ekti o'z-o'zidan tushunarli nomlari bo'lgan xususiyatlar orqali kirish mumkin bo'lgan ko'proq foydali ma'lumotlarni o'z ichiga oladi:

  • .alifbo
  • .fayl
  • .narxi_nomlari
  • versiya
  • .komanda

MEME Parser tomonidan qaytarilgan motiflar oddiy Motif moslamalari (misollar bilan) kabi ko'rib chiqilishi mumkin, ular misollar haqida qo'shimcha ma'lumot qo'shib, qo'shimcha funktsiyalarni ham ta'minlaydilar.

14.7.2 AlignAce

AlignACE dasturi yordamida biz shunga o'xshash ishlarni qila olamiz. Faraz qiling, sizda alignace.out faylida chiqishingiz bor. Siz chiqishingizni quyidagi kod bilan tahlil qilishingiz mumkin:

Shunga qaramay, sizning motiflaringiz kerak bo'lganda o'zini tutadi:

Aslida, siz hatto AlignAce MEME kabi juda o'xshash motifni topganini ko'rishingiz mumkin. Bu MEME motifining teskari to'ldiruvchisining uzunroq versiyasi:

Agar sizda xuddi shu mashinada AlignAce o'rnatilgan bo'lsa, uni to'g'ridan -to'g'ri Biopython -dan ishga tushirishingiz mumkin. Buni qanday amalga oshirish mumkinligi haqida qisqacha misol quyida ko'rsatilgan (boshqa parametrlar kalit so'z parametrlari sifatida ko'rsatilishi mumkin):

AlignAce o'zining barcha chiqishini standart chiqishga bosib chiqargani uchun, natijaning birinchi qismini tahlil qilib, siz o'z motiflaringizga erishishingiz mumkin:

14.8 Foydali havolalar

    Vikipediyada Vikipediyada
  • Vikipediyada konsensus ketma -ketligi
  • Har xil motivlarni topish dasturlarini solishtirish

14.9 eskirgan Bio.Motif moduli

Yuqoridagi bobning qolgan qismida Biopython 1.61 dan boshlab Bio.motifs to'plami tasvirlangan bo'lib, u Biopython 1.50 bilan almashtirilgan eski Bio.Motif to'plamini almashtiradi, bu esa o'z navbatida Bio.AlignAce va Bio eski ikkita eski Biopython modullariga asoslangan. MEME.

Yumshoq o'tishga ruxsat berish uchun, eski Bio.Motif to'plami Bio.motif -ni almashtirish bilan parallel ravishda yana kamida ikkita versiya va kamida bir yil saqlanadi.

14.9.1 Motifli ob'ektlar

Motiflarni tahlil qilish bizni qiziqtirgani uchun, biz birinchi navbatda Motif ob'ektlarini ko'rib chiqishimiz kerak. Buning uchun biz Motif kutubxonasini import qilishimiz kerak:

va biz birinchi motif ob'ektlarimizni yaratishni boshlashimiz mumkin. Keling, DNK motifini yarataylik:

Bu hozircha bo'sh konteyner, shuning uchun yangi yaratilgan motifimizga ba'zi ketma -ketliklarni qo'shamiz:

Endi bizda to'liq Motif misoli bor, shuning uchun biz bu haqda ba'zi asosiy ma'lumotlarni olishga harakat qilishimiz mumkin. Uzunlik va konsensus ketma -ketligidan boshlaylik:

Agar DNK motiflari bo'lsa, biz motifning teskari qo'shimchasini ham olishimiz mumkin:

Biz oddiy qo'ng'iroq yordamida motifning ma'lumot tarkibini ham hisoblashimiz mumkin:

Bu bizga motif tomonidan berilgan bir qancha ma'lumotni beradi, bu bizga fondan qanchalik farq qilishini aytadi.

Motifning eng keng tarqalgan ifodasi - PWM (Position Weight Matrix). Motifning istalgan pozitsiyasida har qanday belgini (bu holda nukleotidni) topish ehtimolini umumlashtiradi. Buni .pwm () usulini chaqirish orqali hisoblash mumkin:

Motivning PWM ehtimolligi misollar soniga asoslanadi, lekin biz ko'rib turibmizki, misollarda Gs va Clar bo'lmasa ham, bizda hali nolga teng bo'lmagan ehtimolliklar bor. Bu psevdo-hisoblardan kelib chiqadi, bu, umuman olganda, bizning bilimlarimizning to'liq emasligini tan olish va 0 ga teng logarifmlarni hisoblashda texnik muammolardan qochishning keng tarqalgan usulidir.

Biz motif ob'ektlarining ikkita xossasi bilan psevdo-hisoblarni qo'shish usulini nazorat qila olamiz. Orqa fon-biz taxmin qiladigan alfavitdagi barcha belgilar bo'yicha ehtimollik taqsimoti, fonni motifsiz ketma-ketliklar (odatda tegishli genomning GC tarkibiga asoslangan). ). Motif yaratilgandan so'ng, u sukut bo'yicha bir xil taqsimlanadi:

Boshqa parametr-.beta, biz PWMga qo'shishimiz kerak bo'lgan soxta hisoblar sonini bildiradi. Odatiy bo'lib, u 1.0 ga o'rnatiladi,

psevdo-hisoblarning umumiy kiritilishi bir misolga teng.

Soxta hisoblar qo'shilgan fon taqsimoti va pwm-dan foydalanib, fonda motifdan kelib chiqadigan ma'lum bir belgining log-koeffitsientlari nima ekanligini aytib, log-odds nisbatlarini hisoblash oson. Biz .log_odds () usulidan foydalanishimiz mumkin:

Bu erda biz motifda fonga qaraganda tez -tez uchraydigan ramzlar uchun ijobiy qadriyatlarni va fonda tez -tez uchraydigan belgilar uchun salbiy qiymatlarni ko'rishimiz mumkin. 0.0 degani, ramzni fonda va motifda ko'rish ehtimoli teng (masalan, "T" ikkinchi oxirgi holatda).

14.9.1.1 O'qish va yozish

Motivlarni qo'lda yaratish biroz zerikarli, shuning uchun o'qish va yozish uchun kirish -chiqish funktsiyalari bo'lishi foydalidir. Motiflarni saqlash uchun aniq belgilangan standartlar yo'q, lekin boshqalarga qaraganda ko'proq qo'llaniladigan bir nechta format mavjud. Eng muhim farq - bu motif tasviri misollarga asoslanganmi yoki PWM matritsasining ba'zi versiyalariga asoslanganmi. Eng mashhur motifli ma'lumotlar bazalarida JASPAR har ikkala formatda ham motiflarni saqlaydi, shuning uchun misollardan JASPAR motiflarini qanday import qilish mumkinligini ko'rib chiqaylik:

va hisoblash matritsasidan:

Arnt va srf motiflari ikkalasi ham biz uchun bir xil narsani qila oladi, lekin ular motifning turli xil ichki tasvirlaridan foydalanadilar. Buni has_counts va has_instances xususiyatlarini tekshirish orqali aytishimiz mumkin:

Turli xil tasvirlarni aylantirishga yordam beradigan konversiya funktsiyalari mavjud:

Bu erda eslash kerak bo'lgan muhim narsa shundaki, make_instances_from_counts () usuli soxta misollar yaratadi, chunki odatda bir xil pwmni keltirib chiqaradigan juda ko'p misollar to'plami mavjud va agar bizda faqat hisoblash matritsasi bo'lsa, biz asl nusxasini tiklay olmaymiz. . Agar biz PWMni motif sifatida ishlatadigan bo'lsak, bu hech qanday farq qilmaydi, lekin misollarni sanoqqa asoslangan motiflardan eksport qilishda ehtiyot bo'lish kerak.

Eksport haqida gapirganda, eksport funktsiyalarini ko'rib chiqaylik. Fasta -ga eksport qilishimiz mumkin:

yoki TRANSFAC-ga o'xshash matritsa formatiga (ba'zi motiflarni qayta ishlash dasturlari tomonidan ishlatiladi)

Nihoyat, agar bizda Internetga kirish imkoni bo'lsa, biz weblogo yaratishimiz mumkin:

Biz logotipimizni belgilangan faylda png sifatida saqlashimiz kerak.

14.9.2 Misollarni qidirish

Motif uchun eng tez -tez ishlatib turadigan narsa bu uning misollarini ketma -ketlikda topishdir. Ushbu bo'lim uchun biz quyidagi kabi sun'iy ketma -ketlikni qo'llaymiz:

Misollarni topishning eng oddiy usuli - bu haqiqiy motivlar misollarining aniq mos kelishini izlash:

Biz teskari to'ldiruvchi bilan ham xuddi shunday qilishimiz mumkin (qo'shimcha chiziqdagi misollarni topish uchun):

Lavozimlarni qidirish oson, bu bizning motifimizga qarshi yuqori baholarni keltirib chiqaradi:

Siz chegara parametrini sezishingiz mumkin, bu erda o'zboshimchalik bilan 5.0 ga o'rnatiladi. Bu 2 -jurnalda , shuning uchun biz faqat motif modeli ostida fonda 32 marta ko'proq uchraydigan so'zlarni qidirmoqdamiz. Standart chegara 0,0 bo'lib, u fondan ko'ra motifga o'xshagan hamma narsani tanlaydi.

Agar siz chegaralarni tanlashda kamroq ixtiyoriy usuldan foydalanmoqchi bo'lsangiz, Motif.score_distribution sinfini o'rganishingiz mumkin. Ballarni taqsimlash joyi motif uzunligi bilan eksponent ravishda o'sib borayotganligi sababli, biz hisob -kitob xarajatlarini boshqarilishi uchun aniqlik bilan taxminiy yondashuvni qo'llaymiz:

SD obyekti turli xil chegaralarni aniqlash uchun ishlatilishi mumkin.

Biz so'ralgan yolg'on-pozitiv tezlikni belgilashimiz mumkin (fonda yaratilgan ketma-ketlikda motif misolini "topish" ehtimoli):

yoki noto'g'ri-manfiy tezlik (motifdan olingan misolni "topmaslik" ehtimoli):

yoki fpr va fnr fnr / fpr ≃ t o'rtasidagi bog'liqlikni qondiradigan chegara (taxminan) :

yoki noto'g'ri pozitivlik darajasi va axborot mazmuni jurnali o'rtasidagi tenglikni (taxminan) qondiradigan chegara ( Hertz va Stormo tomonidan patser dasturida ishlatilgan).

Masalan, bizning motifimiz bo'lsa, siz chegara balansi 1000 bo'lgan muvozanatli misollarni qidirish bilan bir xil natijalarni beradigan chegarani olishingiz mumkin (bu ketma -ketlik uchun).

14.9.3 Motiflarni solishtirish

Agar bizda bir nechta motivlar bo'lsa, biz ularni solishtirishimiz mumkin. Buning uchun bizda Bio.Motif ob'ektlarining uch xil usuli mavjud.

Motiflarni solishtirishni boshlashdan oldin shuni aytishim kerakki, motif chegaralari odatda o'zboshimchalik bilan bo'ladi. Bu shuni anglatadiki, biz ko'pincha turli uzunlikdagi motiflarni taqqoslashimiz kerak, shuning uchun taqqoslash qandaydir hizalanishni o'z ichiga olishi kerak. Bu shuni anglatadiki, biz ikkita narsani hisobga olishimiz kerak:

  • motiflarning uyg'unligi
  • tekislangan motiflarni solishtirish uchun ba'zi funktsiyalar

Bio.Motif -da biz motiflarni taqqoslash uchun bir xil g'oyaga asoslangan motiflarni taqqoslash uchun 3 xil funktsiyaga egamiz, lekin hizalangan motiflarni solishtirish uchun har xil funktsiyalarni ishlatamiz. Qisqacha aytganda, biz PWMlarning ajratilmagan hizalanishidan foydalanmoqdamiz va matritsalarning boshi va oxiridagi etishmayotgan ustunlarni fon taqsimoti bilan almashtiramiz. Barcha uchta taqqoslash funktsiyalari shunday yozilganki, ularni masofa o'lchovlari sifatida talqin qilish mumkin, lekin faqat bitta (dist_dpq) uchburchak tengsizligini qondiradi. Ularning barchasi minimal masofani va motiflar orasidagi mos keladigan joyni qaytaradi.

Bu funktsiyalar qanday ishlashini ko'rsatish uchun avval m test motifimizga o'xshash boshqa motifni yuklaylik:

Bu motiflarni solishtirishda biz ishlatadigan birinchi funktsiya Pearson korrelyatsiyasiga asoslangan. Biz bu masofani o'lchash o'xshaydi istagan ekan, biz aslida 1- olib r , r Pearson korelasyon koeffisiyenti (PCC) hisoblanadi:

Bu shuni anglatadiki, motif m va Ubx orasidagi eng yaxshi PCC quyidagi hizalanish bilan olinadi:

bu erda b fon taqsimotini bildiradi. PCC ning o'zi taxminan 1-0,42 = 0,58 ga teng. Agar biz Ubx motifining teskari to'ldiruvchisini sinab ko'rsak:

Biz PCC yaxshiroq ekanligini ko'ramiz (deyarli 0,75) va hizalanish ham boshqacha:

Boshqa ikkita funktsiya mavjud: dist_dpq, bu Kullback-Leibler divergentsiyasiga asoslangan haqiqiy metrik (qondiruvchi tengsizlikni qondiruvchi).

va har ikkala motif tomonidan bir xil misolni mustaqil ravishda yaratish ehtimoli sifatida talqin qilinishi mumkin bo'lgan ehtimollar mahsulotiga asoslangan dist_product usuli.

14.9.4 De novo motifini topish

Hozirgi vaqtda Biopython de novo motif topishni cheklangan qo'llab -quvvatlaydi . AlignAce va MEME -ni ishga tushirish va tahlil qilishni qo'llab -quvvatlaymiz. Motiflarni qidirish asboblari soni tez o'sib borayotganligi sababli, yangi tahlilchilarning hissalari ma'qul.

14.9.4.1 MEME¶

Faraz qilaylik, siz MEME -ni o'zingiz yoqtirgan parametrlar bo'yicha ketma -ketlikda ishga tushirdingiz va chiqishni meme.out faylida saqladingiz. Siz quyidagi kod qismini ishlatib, MEME tomonidan bildirilgan motiflarni olishingiz mumkin:

Motivlarning eng ko'p qidiriladigan ro'yxatidan tashqari, natija ob'ekti o'z-o'zidan tushunarli nomlari bo'lgan xususiyatlar orqali kirish mumkin bo'lgan ko'proq foydali ma'lumotlarni o'z ichiga oladi:

  • .alifbo
  • .fayl
  • .narxi_nomlari
  • versiya
  • .komanda

MEMEParser tomonidan qaytarilgan motiflarga oddiy Motif moslamalari (misollar bilan) kabi qarash mumkin, ular misollar haqida qo'shimcha ma'lumot qo'shib, qo'shimcha funktsiyalarni ham ta'minlaydilar.

14.9.4.2 AlignAce

AlignACE dasturi yordamida biz shunga o'xshash ishlarni qila olamiz. Faraz qiling, sizda alignace.out faylida chiqishingiz bor. Siz chiqishingizni quyidagi kod bilan tahlil qilishingiz mumkin:

Shunga qaramay, sizning motiflaringiz kerak bo'lganda o'zini tutadi:

Aslida, siz AlignAce MEME -ga o'xshash motifni topganini ko'rishingiz mumkin, bu MEME motifining teskari qo'shimchasining uzunroq versiyasi:

Agar sizda xuddi shu mashinada AlignAce o'rnatilgan bo'lsa, uni to'g'ridan -to'g'ri Biopython -dan ishga tushirishingiz mumkin. Buni qanday qilish mumkinligi haqida qisqacha misol quyida ko'rsatilgan (boshqa parametrlarni kalit so'z parametrlari sifatida ko'rsatish mumkin):

AlignAce o'zining barcha chiqishini standart chiqishga chop qilganligi uchun, natijaning birinchi qismini tahlil qilib, siz o'z motiflaringizga erishishingiz mumkin:

Onlayn kazino
O'yin -kulgi avtomatlari
Onlaynkazino

Bizning yangiliklarimizga obuna bo'lish orqali birinchi eksklyuziv taklifni oling va eng yaxshi onlayn kazinolarda har kungi ajoyib chegirmalarimizdan foydalaning!