Embora o genoma de referência humano atual seja o genoma de vertebrado mais preciso e completo já produzido, ainda existem lacunas na sequência de DNA, mesmo após duas décadas de melhorias. Agora, pela primeira vez, os cientistas determinaram a sequência completa de um cromossomo humano de uma extremidade a outra (‘telômero para telômero’) sem lacunas e com um nível de precisão sem precedentes.

A publicação da montagem de telômero para telômero de um cromossomo X completo humano, na revista “Nature”, é uma conquista marcante para pesquisadores de genômica. A autora principal, Karen Miga, cientista pesquisadora do Instituto de Genômica da Universidade da Califórnia em Santa Cruz (EUA), disse que o projeto foi possível graças a novas tecnologias de sequenciamento que permitem “leituras ultralongas”, como a tecnologia de sequenciamento de nanoporos pioneira na UC Santa Cruz.

Sequências repetitivas de DNA são comuns em todo o genoma. Elas sempre representaram um desafio para o sequenciamento, porque a maioria das tecnologias produz “leituras” relativamente curtas da sequência, que devem ser reunidas como um quebra-cabeça para montar o genoma. Sequências repetitivas produzem muitas leituras curtas que parecem quase idênticas, como uma grande extensão de céu azul em um quebra-cabeça, sem pistas de como as peças se encaixam ou quantas repetições existem.

LEIA TAMBÉM: Genomas antigos revelam detalhes da migração humana no norte da China

“Essas sequências ricas em repetição já foram consideradas intratáveis, mas agora fizemos um rápido progresso na tecnologia de sequenciamento”, disse Miga. “Com o sequenciamento de nanoporos, obtemos leituras ultralongas de centenas de milhares de pares de bases que podem abranger uma região de repetição inteira, de modo que supera alguns dos desafios.”

Regiões ricas em variações

O preenchimento das lacunas restantes na sequência do genoma humano abre novas regiões do genoma, onde os pesquisadores podem procurar associações entre variações de sequência e doença e outras pistas para questões importantes sobre a biologia e a evolução humanas.

“Estamos começando a descobrir que algumas dessas regiões onde houve lacunas na sequência de referência estão realmente entre as mais ricas em variações nas populações humanas,” disse Miga. “Por isso, perdemos muitas informações que podem ser importantes para entender a biologia humana e doença.”

Miga e Adam Phillippy, do Instituto Nacional de Pesquisa do Genoma Humano (NHGRI, dos EUA), ambos autores correspondentes do novo artigo, cofundaram o consórcio Telomere-to-Telomere (T2T) para buscar uma montagem completa do genoma depois de trabalharem juntos em um artigo de 2018 que demonstrou o potencial da tecnologia de nanoporos para produzir uma sequência completa do genoma humano. Esse esforço usou o sequenciador MinION da Oxford Nanopore Technologies, que sequencia o DNA detectando a mudança no fluxo de corrente à medida que moléculas únicas de DNA passam por um pequeno orifício (um “nanoporo”) em uma membrana.

O novo projeto se baseou nesse esforço, combinando o sequenciamento de nanoporos com outras tecnologias de sequenciamento da PacBio e Illumina e mapas ópticos da BioNano Genomics. Usando essas tecnologias, a equipe produziu um conjunto de genoma inteiro que excede todos os conjuntos anteriores de genoma humano em termos de continuidade, integridade e precisão, superando até mesmo o genoma de referência humano atual em algumas métricas.

Abrangência completa

No entanto, havia ainda vários intervalos na sequência, disse Miga. Para finalizar o cromossomo X, a equipe teve de resolver manualmente várias lacunas na sequência. Duas duplicações segmentares foram resolvidas com leituras ultralongas de nanoporos, que abrangiam completamente as repetições e eram ancoradas de maneira única em ambos os lados. O intervalo restante foi no centrômero, uma região notoriamente difícil de DNA repetitivo encontrada em todos os cromossomos.

No cromossomo X, o centrômero abrange uma região de DNA altamente repetitivo, abrangendo 3,1 milhões de pares de bases (as bases A, C, T e G formam pares na dupla hélice do DNA e codificam informações genéticas em sua sequência). A equipe conseguiu identificar variantes na sequência de repetição para servir como marcadores, que eles usaram para alinhar as leituras longas e conectá-las para abranger todo o centrômero.

“Para mim, a ideia de que podemos montar uma repetição uma atrás da outra de 3 megabases é simplesmente alucinante. Agora podemos alcançar essas regiões de repetição cobrindo milhões de bases que antes eram consideradas intratáveis”, disse Miga.

O passo seguinte foi uma estratégia de polimento usando dados de várias tecnologias de sequenciamento para garantir a precisão de todas as bases na sequência.

Mudança epigenética

“Usamos um processo iterativo em três plataformas diferentes de sequenciamento para polir a sequência e alcançar um alto nível de precisão”, explicou Miga. “Os marcadores exclusivos fornecem um sistema de ancoragem para leituras ultralongas e, depois dessa ancoragem, é possível usar vários conjuntos de dados para chamar cada base.”

O sequenciamento por nanoporo, além de fornecer leituras ultralongas, também pode detectar bases que foram modificadas por metilação, uma mudança “epigenética” que não altera a sequência, mas tem efeitos importantes na estrutura do DNA e na expressão gênica. Ao mapear padrões de metilação no cromossomo X, a equipe conseguiu confirmar observações anteriores e revelar algumas tendências intrigantes nos padrões de metilação no centrômero.

A nova sequência do genoma humano, derivada de uma linha celular humana chamada CHM13, fecha muitas lacunas no genoma de referência atual, conhecido como Genome Reference Consortium build 38 (GRCh38).

O consórcio T2T continua trabalhando na conclusão de todos os cromossomos CHM13. “É um consórcio aberto; portanto, em muitos aspectos, esse é um projeto conduzido pela comunidade, com muitas pessoas dedicando tempo e recursos a ele”, disse Miga.