In einer aktuellen Studie veröffentlicht in Grenzen der PflanzenwissenschaftForscher präsentierten den Aufbau des Chia-Referenzgenoms.
Hintergrund
Chia, eine nährstoffreiche Nahrungspflanze, die hauptsächlich in Südmexiko und Mittelamerika angebaut wird, ist für die langfristige Nahrungs- und Ernährungssicherheit von entscheidender Bedeutung. Globale Programme zur Pflanzenverbesserung haben die Getreideproduktion gesteigert und mehrere Leben gerettet, doch versteckter Hunger bleibt ein großes Problem. Um eine langfristige Nahrungs- und Ernährungssicherheit zu gewährleisten, ist es wichtig, die Ernährung des Menschen durch die Hinzufügung von Produkten aus nährstoffreichen Klein- und Waisenkulturen zu diversifizieren, die in marginalisierten Gebieten angebaut werden.
Die Konzentration auf diese Nutzpflanzen hat die weltweite Nachfrage erhöht, die Verbraucherzahl erhöht und sie zu einem wertvollen Beitrag zur Eindämmung der Bedrohungen durch den Klimawandel gemacht. Der Aufbau genetischer Ressourcen für diese nicht ausreichend genutzten Nutzpflanzen könnte deren Produktion und Nachhaltigkeit verbessern.
Über die Studie
In der vorliegenden Studie untersuchten Forscher das Chia-Transkriptom.
Die Forschung umfasste die Genomsequenzierung, die transkriptomische Analyse von Stoffwechselgenen (Rosmarinsäureproduktion, Samenschleimsynthese und Fettsäurestoffwechsel) und die Entdeckung nützlicher genetischer Indikatoren für die Verbesserung von Nutzpflanzen. Chiasamen der Inzuchtsorten der zweiten Generation wurden in 20 cm breiten Behältern mit autoklavierter Erde gezüchtet und in einer kontrollierten Gewächshausumgebung sorgfältig bewässert.
Junge Blätter wurden von 14 Tage alten Sämlingen gesammelt, die 2,0 Tage lang unter dunklen Bedingungen vorbehandelt, in Stickstofflösung eingefroren und zur Entnahme, Sequenzierung und Zusammenstellung des Genoms der Desoxyribonukleinsäure (DNA) transportiert wurden. Sie erstellten zwei Dovetail HiC-Genbibliotheken und eine Chicago HighRise-Desoxyribonukleinsäure-Sequenzierungsbibliothek für den Aufbau genomischer Gerüste. Für die De-novo-Assemblierung verwendeten sie ein Array von 2x150bp großen Paired-End-Genablesungen, die durch Sequenzierung vom Shotgun-Typ erhalten wurden. Der ursprüngliche Datensatz umfasste 956 Millionen Paare von Gen-Reads aus Paired-End-Genbibliotheken.
Das Team sagte De-novo-Wiederholungen voraus, indem es sechs Pflanzenbibliotheken mit den identifizierten De-novo-Genwiederholungen kombinierte. Sie führten eine genetische Modellschätzung anhand von Biopeptiddatensätzen von fünf Arten und vier Lamiaceae-Pflanzen durch. Für die genetische Modellschätzung verwendeten die Forscher einen trainierten Datensatz mit externen Hinweisen, die aus zuvor veröffentlichten Ribonukleinsäure-Sequenzierungsanalysen (RNA-seq) von 13 Geweben generiert wurden.
Das Team in silico analysierte das Vorhandensein von Biopeptidsignaturen im Chia-Proteom, die sich positiv auf die menschliche Gesundheit auswirken können. Sie verwendeten eine Bibliothek kuratierter Biopeptide als Sonde, um ähnliche Sequenzsignaturen in Chia-Proteinen zu identifizieren. Die HiRise-Pipeline wurde zur Verbesserung des Genomaufbaus und des Gerüsts, zur Vorhersage subzellulärer Standorte von Proteinen, die vom Chia-Genom kodiert werden, und zum Vergleich kürzlich veröffentlichter Berichte verwendet S. hispanica Genomsequenzen bis hin zu ihrer Chia-Genomanordnung und Genkartierung. Die Forscher erstellten hochpräzise Spleißstellenklassifikatoren, um Spleißverbindungen in RNA-Seq-Lese-Alignments zu filtern.
Ergebnisse
Das Chia-Genom umfasste 304 MB und kodierte 48.090 proteinkodierende Gene. Die Analyse zeigte, dass 42,0 % des Genoms repetitive Informationen enthielten und drei Millionen Single Nucleotide Polymorphisms (SNPs) mit 15.380 Simple Sequence Repeat (SSR)-Regionen identifizierten. Die Forscher bauten das haploide Chid-Genom mit einer Genomgröße von 356 MB auf. Das HiRise-Gerüst produzierte 304 MB (85 %) der erwarteten Chia-Genomgröße mit 2.185 Gerüsten und einer projizierten physischen Abdeckung von 2692x.
Das sequenzierte Genom bestand aus 299 MB Gerüsten, die für haploide Chromosomen oder Pseudomoleküle kodierten. Die neu veröffentlichten transkriptomischen Atlasdaten von 13 Gewebeproben, die auf die sechs größten Gerüste abgebildet wurden, lieferten 99,0 % der de novo generierten Transkripte. Die Ergebnisse zeigten, dass die sechs Gerüste fast alle transkribierten Bereiche umfassen und haploiden Chromosomen entsprechen. Durch den Nachweis seines Wiederholungsgehalts wurde die Genomanordnung wiederholt maskiert und machte 42 % des Chia-Genoms aus. Die häufigsten Wiederholungssequenzen (99,6 MB) wurden nicht klassifiziert, was darauf hinweist, dass sie nicht in öffentlichen Datenbanken gefunden wurden.
Für die Schätzung des genetischen Modells und die nachgelagerte Auswertung verwendeten die Forscher nur sechs Pseudomoleküle (Sh1-6). Um nicht-redundante und umfassende Genmodelle zu erstellen, wurden 48.743 proteinkodierende Gene durch Genfilterung, -analyse und -konvertierung (gFACs) gefiltert. Das Chia-Genom hatte 799 Transfer-Ribonukleinsäure (tRNA)-Gene, 30 bzw. 70 % mehr Gene als die von Tomaten und Arabidopsis. Die ribosomale RNA (rRNA)-Annotation identifizierte 37 rRNA-Gene im Genom, von denen nur zehn in den Pseudochromosomen vorhanden waren. Das Team identifizierte 98 Mitglieder der Lektinfamilie, die in Chia homolog sind, basierend auf der Sequenzähnlichkeit mit den Mitgliedern der Arabidopsis-Lektinfamilie.
Basierend auf den Studienergebnissen deckt das Referenzgenom der nährstoffreichen Waisenpflanze Chia (Salvia hispanica) den Genraum nahezu vollständig ab und trägt zu genomischen Datenressourcen bei. Die 304 MB große Genomanordnung umfasst 2.185 Gerüste, die 94 % des Genraums abdecken, und 48.090 proteinkodierende Gene. Das Team schlägt eine einheitliche Benennung der Chia-Chromosomen und eine Referenzgenomnomenklatur vor, die auf Chromosomenzahlen und Genpositionen in Pseudochromosomen basiert. Die Harmonisierung des Genoms und der Gennomenklatur hat hohe Priorität.