Registreren kan je hier. Problemen met registreren of reageren op de berichten? Een verloren wachtwoord? Gelieve een mail te zenden naar [email protected] met vermelding van je gebruikersnaam. |
|
Registreer | FAQ | Forumreglement | Ledenlijst | Markeer forums als gelezen |
Wetenschap & Technologie Van grondstoffen tot afgewerkt product, oude en nieuwe ontdekkingen, ... + de relatie tot de mens, macht, ... |
|
Discussietools |
6 mei 2017, 02:11 | #1 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
Humaan genoom, Big Data, Hadoop MapReduce, gedistribueerde dataopslag, 3 miljard bp
Drie miljard baseparen moeten geordend worden
om een menselijk genoom volledig in kaart te brengen. Nucleotide per nucleotide in de juiste volgorde. Hoe werkt dat? AGCCCCTCAGGAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGT CAGATTTACCCTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAA CACGTCGTCTAAATGACTTCTTAAAGTAGAATAGCGTGTTCTCTCCTTCC AGCCTCCGAAAAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAG TGATGAGACTGCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACT TCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGAGCCCCTCAG GAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACC CTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCT AAATGACTTCTTAAAGTAGAATAGCGTGTTCTCTCCTTCCAGCCTCCGAA AAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACT GCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCA GAGGCTGATAATCTACTTACCCAAACATAGAGCCCCTCAGGAGTCCGGCC ACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACCCTGGCTCACC TTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCTAAATGACTTC TTAAAGTAGAATAGCGTGTTCTCTCCTTCCAGCCTCCGAAAAACTCGGAC CAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACTGCGCCTCTGT TCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCAGAGGCTGATA ATCTACTTACCCAAACATAG
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) |
6 mei 2017, 22:12 | #2 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
STAP 1: DNA sequencen in het laboratorium
Het apparaat dat gebruikt wordt is sequencer genoemd. In de figuur hieronder ziet u een aantal sequencers staan. Van Applied Biosystems, onderdeel van Thermo Fisher Scientific. Wat zo'n machine doet is een chemisch proces loslaten op een bloedstalen [de input]. De output zijn zogenaamde reads. Miljoenen korte reads van tussen de 100 en de 250 nucleotiden worden geproduceerd. Deze miljoenen reads vormen de INPUT data om er berekeningen op los te laten, STAP 2.
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) |
6 mei 2017, 22:20 | #3 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
STAP 2: de berekeningen
Op drie miljard baseparen betekent dat drie miljoen verschillen. A variant call is a conclusion that there is a nucleotide(aanklikken om te vergroten)
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 6 mei 2017 om 22:28. |
6 mei 2017, 23:20 | #4 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
Geraldine Van Der Auwera
alumni Louvain-la-Neuve phd harvard nu GATK [Genome Analysis Toolkit] Best Practices Hier aan het woord, in het engels: video Meer info over de GATK beste praktijken: BroadE Workshop 2015 March 19-20: Best Practices for Variant Calling with the GATK(fig.: beste praktijken voor het aanduiden van de verschillen tussen de reads en het referentiegenoom) SNP = single-nucleotide polymorphism Indel = een verzamelnaam voor een bepaald type mutaties van het DNA.
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 6 mei 2017 om 23:23. |
6 mei 2017, 23:30 | #5 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
één genoom = 12 dagen rekentijd
Dataset
De reads = de dataset. Bijvoorbeeld 1,5 miljard reads van 100 baseparen. Komt overeen met 300 GByte aan ruwe data. Rekentijd [met een Intel processor 2.60GHz)]
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) |
6 mei 2017, 23:54 | #6 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
50 genomen per dag ???
Maar de sequencers kunnen veel sneller: 50 genomen per dag / 18.000 genomen per jaar. Een ware data-explosie.
12 dagen is te traag ==> een gedistribueerd opslagsysteem is wenselijk. Parallelisme in het GATK BroadE: Introduction to parallelism for GATKHier komt Apache Hadoop in beeld: Analyzing Human Genomes with Apache HadoopEn meer recent Apache Spark: Cloudera, Broad Institute Collaborate on the Next Generation of the Genome Analysis Toolkit
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 7 mei 2017 om 00:05. |
7 mei 2017, 00:31 | #7 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
één genoom = 3 uur
Door toepassing van deze technieken wordt de looptijd voor een heel genoom gereduceerd van twaalf dagen tot minder dan 3 uur.
BRON 26 mrt 2015
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 7 mei 2017 om 00:36. |
8 mei 2017, 00:36 | #8 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
In de onderstaande tabel een overzicht van de stappen in het DNA-sequencing proces hierboven beschreven.
MapReduce
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) |
27 mei 2017, 02:06 | #9 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
Door toepassing van deze technieken wordt de looptijd voor een heel genoom gereduceerd van twaalf dagen tot minder dan 3 uur.
BRONNog 63% sneller dan het hierboven beschreven Halvade: Hadoop MapReduce vervangen door Apache Spark. Cluster-Based Apache Spark Implementation of theEr zit snelheidstoename in de 'in-memory data processing'.
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 27 mei 2017 om 02:19. |
27 mei 2017, 02:08 | #10 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
Quote:
Instead of storing intermediate data after a computation into on-disk storage such as HDFS,
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 27 mei 2017 om 02:14. |
28 mei 2017, 10:32 | #11 | |
Perm. Vertegenwoordiger VN
Geregistreerd: 11 juni 2010
Berichten: 15.948
|
Citaat:
|
|
28 mei 2017, 23:58 | #12 | |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
Citaat:
Waar het om gaat in essentie is dat in minder dan 60 minuten je hele genoom ontcijferd wordt. Drie miljard baseparen, letter per letter. De eerste bron die vermeld wordt dateert van maart 2015 [uit Gent]. De tweede dateert van november 2015 [uit Delft, Nederland]. In Gent maakten de onderzoekers gebruik van Apache Hadoop. In Delft ging het om Apache Spark.
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 29 mei 2017 om 00:02. |
|
29 mei 2017, 00:09 | #13 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
Wat is Apache Hadoop?
Apache Hadoop is een open-source softwareframework voor gedistribueerde opslag en verwerking van grote hoeveelheden data met behulp van het MapReduce paradigma. Hadoop is als platform een drijvende kracht achter de populariteit van big data. Het draait op een cluster van computers dat bestaat uit commodity hardware. In het ontwerp van de Hadoop-softwarecomponenten is rekening gehouden met uitval van systemen in een cluster, door o.a. data te repliceren over meerdere computers.Wat is Apache Spark? Apache Spark is een open-source verwerkingsframework waarmee grootschalige toepassingen voor gegevensanalyse worden uitgevoerd. Spark is gebaseerd op een rekenengine die is geïntegreerd in het geheugen, en zorgt voor hoge prestaties bij het uitvoeren van query's bij big data. Het profiteert van een framework voor parallelle gegevensverwerking die indien nodig kan omgaan met in een geheugen geïntegreerde gegevens of schijfgegevens. Op deze manier kan Spark zowel een 100x hogere snelheid als een gemeenschappelijk uitvoeringsmodel bieden voor taken als extraheren, transformeren, laden (ETL), batch, interactieve query's en andere taken voor gegevens in een Apache HDFS (Hadoop Distributed File System).
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 29 mei 2017 om 00:12. |
29 mei 2017, 02:41 | #14 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
Wat is een zogenaamde pipeline (uit post 8):
Pipeline (computing)Vergelijk het met een fabriek waar auto's geassembleerd worden. To understand the benefit of a pipeline, imagine that a car manufacturing plant had to wait for each car to be fully completed before starting on the next one. That would be horribly inefficient, right? It makes much more sense to work on many cars at once, completing them one stage at a time. This is what a pipeline in a computer allows. Pipelining, as it is called, often keeps around six instructions at once in the processor at different stages of processing. BRON
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) |
29 mei 2017, 02:51 | #15 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
Wat is parallel computing, en wat is een cluster (uit post 7):
Parallel computing Computer cluster
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 29 mei 2017 om 02:52. |
29 mei 2017, 07:45 | #16 |
Banneling
Geregistreerd: 28 september 2004
Berichten: 106.558
|
voor welk vak is dit allemaal nr 10 ?
wanneer heb je exaam mss? |
31 mei 2017, 00:31 | #17 | |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
Citaat:
De ontrafeling van het menselijk genoom is een zaak van algemeen belang, en dus van politiek belang.
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) |
|
30 augustus 2020, 00:33 | #18 |
Secretaris-Generaal VN
Geregistreerd: 26 september 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 31.230
|
De kost voor het sequencen van een volledig humaan genoom is aan het zakken:
To hit an even lower mark, BGI’s new system will employ a robotic arm and a roomful of chemical baths and imaging machines. It will be offered as a custom set-up later this year to big centers involved in mapping the DNA of large populations or in high-throughput cancer research. “These systems would be prioritized for really large-scale population genetics, million-person projects,” says Rade Drmanac, chief scientific officer of Complete Genomics, a division of BGI Group in San Jose, California, that developed the new technology.Illumina zou al jaren de prijs op 1.000 euro per genoom houden, "omwille van een monopolie-positie".
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine) |