semaver
New member
Proteinlerin yapısının tahmini son derece karmaşık bir iştir, ancak bilimsel düzeyde çok önemlidir. Bu bilgi, diğer şeylerin yanı sıra, bu moleküllerin biyolojik süreçlerdeki işlevini ve rolünü anlamaya izin verir; organizmaların evrimini incelemek veya daha etkili ilaçlar geliştirmek. Bu Perşembe günü, Meta şirketi (eski adıyla Facebook), ‘Science’ dergisinde, proteinlerin yapısını AlphaFold gibi diğer benzer algoritmalardan 60 kat daha hızlı tahmin edebilen EMSFold adlı yeni bir yazılım üzerine bir çalışma yayınladı. Google’ın DeepMind şirketi ve Avrupa Biyoinformatik Enstitüsü, ancak aynı çözünürlüğü ve kesinliği koruyor.
İnsan vücudunun yaklaşık 20.000 farklı protein içerdiği tahmin edilmektedir. Proteinler, belirli bir üç boyutlu yapı oluşturmak için birbirleriyle etkileşime giren uzun amino asit zincirlerinden (organik moleküller) oluşur. Amino asitler arasındaki etkileşime bağlı olarak bir proteinin benimseyebileceği birçok olası üç boyutlu yapı vardır ve bu moleküllerin dizilimindeki küçük değişiklikler bile proteinin nihai yapısında büyük farklılıklar oluşturabilir. Ek olarak, hücresel ortam bu süreci etkiler. Bütün bunlar, bir proteinin nihai şeklinin ne olacağını doğru bir şekilde tahmin etmeyi çok zorlaştırıyor.
Yeni model – bu, Meta’nın sunduğu üçüncü versiyondur – yaklaşık 617 milyon protein yapısının tahminlerini içerir. Bunların 225 milyondan fazlası, yüksek derecede güvenilirliğe sahip tahminlerdir. “Sonuçların kalitesi yeterince inandırıcı. Derin sinir ağlarına (AlphaFold ve RoseTTAFold) dayalı önceki önerilerden ilk fark, yeni modellerin hesaplanmasının çok daha kolay ve çok daha hızlı (bir ila iki büyüklük sırası arasında) olmasıdır”, diye ifade etti Profesör Alfonso Valencia. Katalan Araştırma ve İleri Araştırmalar Kurumu (ICREA) ve Barselona Ulusal Süper Hesaplama Merkezi’ndeki (BSC) Yaşam Bilimleri direktörü Science Media Center (SMC) tarafından toplanan açıklamalara göre.
şirketler arası rekabet
EMSFold’un tahminleri, Dünya üzerindeki en az anlaşılan bazı proteinlerin yapılarını (%10’dan fazla) içerir. Valencia, “Bu, yeni metodolojiyi, önceki yöntemlerin kapsamı dışında olan ve biyotıp uygulamaları üzerinde doğrudan etkisi olan nokta mutasyonlarının sonuçlarının tahminine doğrudan uygulanabilir kılıyor” diyor. Aynı şekilde, yazarlar, biyoteknoloji ve biyotıp için çok ilginç uygulamaları olan canlı organizmalarda doğal olarak üretilen proteinlerde bulunmayan özelliklere sahip olacak şekilde laboratuvarda modifiye edilen doğal olmayan proteinlerin yapısını tahmin etmek için EMSFold’u kullandılar.
Bu yapıları belirlemek için EMSFold, dil modellerine, yani büyük doğal dil veri kümelerini analiz etmek ve bir sözcük dizisinin olasılığını tahmin etmek için kullanılan istatistiksel yöntemlere güvenmiştir. Valencia, “İlke, halihazırda popüler olan ChatGPT ile aynıdır; bu durumda, bir insan dilinin karakterleri yerine proteinleri oluşturan amino asit zincirlerine (20 harfli bir kod) uygulanır,” diye açıklıyor Valencia.
Profesör ekliyor: “Büyük teknoloji şirketlerinin tüm bu çabalarını azınlık ve teorik olarak kabul edilen bir konuya yatırması çok şaşırtıcı. Bunun Meta ve Google/DeepMind arasında bir rekabet olduğunu düşünmek kolaydır. Bu anlamda her iki şirketin de yazılım geliştirmesi ve sonuçların açık bir şekilde ortaya çıkması ilginç, ki bu şirketlerde çok yaygın olmayan bir şey” dedi. Diğer bir olası neden, protein yapısı tahmininin, metin tabanlı dil modellerinin tahminlerini iyileştirmek için en yararlı referans olmasıdır.
İnsan vücudunun yaklaşık 20.000 farklı protein içerdiği tahmin edilmektedir. Proteinler, belirli bir üç boyutlu yapı oluşturmak için birbirleriyle etkileşime giren uzun amino asit zincirlerinden (organik moleküller) oluşur. Amino asitler arasındaki etkileşime bağlı olarak bir proteinin benimseyebileceği birçok olası üç boyutlu yapı vardır ve bu moleküllerin dizilimindeki küçük değişiklikler bile proteinin nihai yapısında büyük farklılıklar oluşturabilir. Ek olarak, hücresel ortam bu süreci etkiler. Bütün bunlar, bir proteinin nihai şeklinin ne olacağını doğru bir şekilde tahmin etmeyi çok zorlaştırıyor.
Yeni model – bu, Meta’nın sunduğu üçüncü versiyondur – yaklaşık 617 milyon protein yapısının tahminlerini içerir. Bunların 225 milyondan fazlası, yüksek derecede güvenilirliğe sahip tahminlerdir. “Sonuçların kalitesi yeterince inandırıcı. Derin sinir ağlarına (AlphaFold ve RoseTTAFold) dayalı önceki önerilerden ilk fark, yeni modellerin hesaplanmasının çok daha kolay ve çok daha hızlı (bir ila iki büyüklük sırası arasında) olmasıdır”, diye ifade etti Profesör Alfonso Valencia. Katalan Araştırma ve İleri Araştırmalar Kurumu (ICREA) ve Barselona Ulusal Süper Hesaplama Merkezi’ndeki (BSC) Yaşam Bilimleri direktörü Science Media Center (SMC) tarafından toplanan açıklamalara göre.
şirketler arası rekabet
EMSFold’un tahminleri, Dünya üzerindeki en az anlaşılan bazı proteinlerin yapılarını (%10’dan fazla) içerir. Valencia, “Bu, yeni metodolojiyi, önceki yöntemlerin kapsamı dışında olan ve biyotıp uygulamaları üzerinde doğrudan etkisi olan nokta mutasyonlarının sonuçlarının tahminine doğrudan uygulanabilir kılıyor” diyor. Aynı şekilde, yazarlar, biyoteknoloji ve biyotıp için çok ilginç uygulamaları olan canlı organizmalarda doğal olarak üretilen proteinlerde bulunmayan özelliklere sahip olacak şekilde laboratuvarda modifiye edilen doğal olmayan proteinlerin yapısını tahmin etmek için EMSFold’u kullandılar.
Bu yapıları belirlemek için EMSFold, dil modellerine, yani büyük doğal dil veri kümelerini analiz etmek ve bir sözcük dizisinin olasılığını tahmin etmek için kullanılan istatistiksel yöntemlere güvenmiştir. Valencia, “İlke, halihazırda popüler olan ChatGPT ile aynıdır; bu durumda, bir insan dilinin karakterleri yerine proteinleri oluşturan amino asit zincirlerine (20 harfli bir kod) uygulanır,” diye açıklıyor Valencia.
Profesör ekliyor: “Büyük teknoloji şirketlerinin tüm bu çabalarını azınlık ve teorik olarak kabul edilen bir konuya yatırması çok şaşırtıcı. Bunun Meta ve Google/DeepMind arasında bir rekabet olduğunu düşünmek kolaydır. Bu anlamda her iki şirketin de yazılım geliştirmesi ve sonuçların açık bir şekilde ortaya çıkması ilginç, ki bu şirketlerde çok yaygın olmayan bir şey” dedi. Diğer bir olası neden, protein yapısı tahmininin, metin tabanlı dil modellerinin tahminlerini iyileştirmek için en yararlı referans olmasıdır.