Humaan genoom, Big Data, Hadoop MapReduce, gedistribueerde dataopslag, 3 miljard bp

Nr.10 · 6 mei 2017, 02:11

Drie miljard baseparen moeten geordend worden
om een menselijk genoom volledig in kaart te brengen.
Nucleotide per nucleotide in de juiste volgorde.
Hoe werkt dat?

AGCCCCTCAGGAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGT CAGATTTACCCTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAA CACGTCGTCTAAATGACTTCTTAAAGTAGAATAGCGTGTTCTCTCCTTCC AGCCTCCGAAAAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAG TGATGAGACTGCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACT TCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGAGCCCCTCAG GAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACC CTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCT AAATGACTTCTTAAAGTAGAATAGCGTGTTCTCTCCTTCCAGCCTCCGAA AAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACT GCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCA GAGGCTGATAATCTACTTACCCAAACATAGAGCCCCTCAGGAGTCCGGCC ACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACCCTGGCTCACC TTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCTAAATGACTTC TTAAAGTAGAATAGCGTGTTCTCTCCTTCCAGCCTCCGAAAAACTCGGAC CAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACTGCGCCTCTGT TCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCAGAGGCTGATA ATCTACTTACCCAAACATAG

Nr.10 · 6 mei 2017, 22:12

STAP 1: DNA sequencen in het laboratorium
Het apparaat dat gebruikt wordt is sequencer genoemd. In de figuur hieronder ziet u een aantal sequencers staan. Van Applied Biosystems, onderdeel van Thermo Fisher Scientific. Wat zo'n machine doet is een chemisch proces loslaten op een bloedstalen [de input]. De output zijn zogenaamde reads. Miljoenen korte reads van tussen de 100 en de 250 nucleotiden worden geproduceerd. Deze miljoenen reads vormen de INPUT data om er berekeningen op los te laten, STAP 2.

Nr.10 · 6 mei 2017, 22:20

STAP 2: de berekeningen

2a: de reads alligneren aan het referentiegenoom [= "allignment"]
2b: zoeken naar de verschillen tussen de reads en het referentiegenoom [= "variant calling"]

Het verschil tussen de referentie en een nieuw DNA bedraagt slechts 0,1%.
Op drie miljard baseparen betekent dat drie miljoen verschillen.

A variant call is a conclusion that there is a nucleotide
difference vs. some reference at a given position in an
individual genome.

(aanklikken om te vergroten)

Nr.10 · 6 mei 2017, 23:20

Geraldine Van Der Auwera
alumni Louvain-la-Neuve
phd harvard
nu GATK [Genome Analysis Toolkit] Best Practices
Hier aan het woord, in het engels: video
Meer info over de GATK beste praktijken:

BroadE Workshop 2015 March 19-20: Best Practices for Variant Calling with the GATK
_{Geraldine Van Der Auwera}

(fig.: beste praktijken voor het aanduiden van de verschillen tussen de reads en het referentiegenoom)

SNP = single-nucleotide polymorphism
= enkel-nucleotide polymorfie
= een variatie in het DNA - een polymorfie - van een enkele nucleotide lang

Indel = een verzamelnaam voor een bepaald type mutaties van het DNA.
Het gaat om veranderingen waarbij één of meer nucleotides
worden ingevoegd (IN-sertie) of juist verloren gaan (DEL-etie).

Nr.10 · 6 mei 2017, 23:30

Dataset
De reads = de dataset.
Bijvoorbeeld 1,5 miljard reads van 100 baseparen.
Komt overeen met 300 GByte aan ruwe data.

Rekentijd
[met een Intel processor 2.60GHz)]

het alligneren aan het referentiegenoom: 2.700 reads per seconde ==> 172 uur
het prepareren van de data: http://broadinstitute.github.io/picard/ ==> 35 uur
"variant calling" (GATK) ==> 80 uur

Totale rekentijd = 12 dagen

Nr.10 · 6 mei 2017, 23:54

Maar de sequencers kunnen veel sneller: 50 genomen per dag / 18.000 genomen per jaar. Een ware data-explosie.
12 dagen is te traag ==> een gedistribueerd opslagsysteem is wenselijk.

Parallelisme in het GATK
_{How to unleash the full potential of your

computer or data center in your analysis}

BroadE: Introduction to parallelism for GATK
_{video, maart 2013}

Hier komt Apache Hadoop in beeld:

Analyzing Human Genomes with Apache Hadoop
_{15 okt 2009}

En meer recent Apache Spark:

Cloudera, Broad Institute Collaborate on the Next Generation of the Genome Analysis Toolkit
_{6 apr 2016}

Nr.10 · 7 mei 2017, 00:31

Door toepassing van deze technieken wordt de looptijd voor een heel genoom gereduceerd van twaalf dagen tot minder dan 3 uur.

BRON
_{26 mrt 2015}

Nr.10 · 8 mei 2017, 00:36

In de onderstaande tabel een overzicht van de stappen in het DNA-sequencing proces hierboven beschreven.

MapReduce
(1) Map fase
(2) Sorteren
(3) Reduce fase

In de Map fase worden uit de input [= de dataset van 1,5 miljard reads] <key,value> paren gegenereerd, waarbij key staat voor een getal tussen 0 en drie miljard.
In de Sorteer fase worden de <key,value> paren gesorteerd volgens key.
De Reduce fase heeft als input alle <key,value> paren per key. De output aggregeert de values.

Nr.10 · 27 mei 2017, 02:06

Door toepassing van deze technieken wordt de looptijd voor een heel genoom gereduceerd van twaalf dagen tot minder dan 3 uur.

BRON
_{paper

26 mrt 2015}

Nog 63% sneller dan het hierboven beschreven Halvade: Hadoop MapReduce vervangen door Apache Spark.

Cluster-Based Apache Spark Implementation of the
GATK DNA Analysis Pipeline
_{paper

12 nov 2015}

Er zit snelheidstoename in de 'in-memory data processing'.

Nr.10 · 27 mei 2017, 02:08

Quote:

Instead of storing intermediate data after a computation into on-disk storage such as HDFS,
these data can be stored "fault tolerantly" in-memory.

The ability to store intermediate data in-memory
across multiple nodes is one of the reasons
why Spark is able to execute faster than Hadoop's MapReduce.

BRON
_{mrt 2016}

subocaj · 28 mei 2017, 10:32

Citaat:

Oorspronkelijk geplaatst door Nr.10

Quote:

Instead of storing intermediate data after a computation into on-disk storage such as HDFS,
these data can be stored "fault tolerantly" in-memory.

The ability to store intermediate data in-memory
across multiple nodes is one of the reasons
why Spark is able to execute faster than Hadoop's MapReduce.

BRON
_{mrt 2016}

De passagiers die vastzitten in Engeland zullen tevreden zijn!

Nr.10 · 28 mei 2017, 23:58

Citaat:

Oorspronkelijk geplaatst door subocaj

De passagiers die vastzitten in Engeland zullen tevreden zijn!

Sorry, het vertalen zul je zelf moeten doen.
Waar het om gaat in essentie is dat in minder dan 60 minuten je hele genoom ontcijferd wordt.
Drie miljard baseparen, letter per letter.
De eerste bron die vermeld wordt dateert van maart 2015 [uit Gent].
De tweede dateert van november 2015 [uit Delft, Nederland].
In Gent maakten de onderzoekers gebruik van Apache Hadoop.
In Delft ging het om Apache Spark.

Nr.10 · 29 mei 2017, 00:09

Wat is Apache Hadoop?

Apache Hadoop is een open-source softwareframework voor gedistribueerde opslag en verwerking van grote hoeveelheden data met behulp van het MapReduce paradigma. Hadoop is als platform een drijvende kracht achter de populariteit van big data. Het draait op een cluster van computers dat bestaat uit commodity hardware. In het ontwerp van de Hadoop-softwarecomponenten is rekening gehouden met uitval van systemen in een cluster, door o.a. data te repliceren over meerdere computers.
BRON

Wat is Apache Spark?

Apache Spark is een open-source verwerkingsframework waarmee grootschalige toepassingen voor gegevensanalyse worden uitgevoerd. Spark is gebaseerd op een rekenengine die is geïntegreerd in het geheugen, en zorgt voor hoge prestaties bij het uitvoeren van query's bij big data. Het profiteert van een framework voor parallelle gegevensverwerking die indien nodig kan omgaan met in een geheugen geïntegreerde gegevens of schijfgegevens. Op deze manier kan Spark zowel een 100x hogere snelheid als een gemeenschappelijk uitvoeringsmodel bieden voor taken als extraheren, transformeren, laden (ETL), batch, interactieve query's en andere taken voor gegevens in een Apache HDFS (Hadoop Distributed File System).
BRON

Nr.10 · 29 mei 2017, 02:41

Wat is een zogenaamde pipeline (uit post 8):

Pipeline (computing)
In computing, a pipeline is a set of data processing elements connected in series,
where the output of one element is the input of the next one.
The elements of a pipeline are often executed in parallel or in time-sliced fashion;
in that case, some amount of buffer storage is often inserted between elements.

Vergelijk het met een fabriek waar auto's geassembleerd worden.

To understand the benefit of a pipeline, imagine that a car manufacturing plant had to wait for each car to be fully completed before starting on the next one. That would be horribly inefficient, right? It makes much more sense to work on many cars at once, completing them one stage at a time. This is what a pipeline in a computer allows. Pipelining, as it is called, often keeps around six instructions at once in the processor at different stages of processing. BRON

Nr.10 · 29 mei 2017, 02:51

Wat is parallel computing, en wat is een cluster (uit post 7):

Parallel computing
Parallel computing is a type of computation in which many calculations
or the execution of processes are carried out simultaneously. BRON

Computer cluster
A computer cluster consists of a set of loosely or tightly connected computers
that work together so that, in many respects, they can be viewed as a single system. BRON

Anna List · 29 mei 2017, 07:45

voor welk vak is dit allemaal nr 10 ?

wanneer heb je exaam mss?

Nr.10 · 31 mei 2017, 00:31

Citaat:

Oorspronkelijk geplaatst door Anna List

voor welk vak is dit allemaal nr 10 ?

wanneer heb je exaam mss?

Waarom zou het voor een exaam moeten zijn? Ik heb mijn diploma.
De ontrafeling van het menselijk genoom is een zaak van algemeen belang, en dus van politiek belang.

Nr.10 · 30 augustus 2020, 00:33

De kost voor het sequencen van een volledig humaan genoom is aan het zakken:

in 2003: het allereerste genoom is volledig in kaart gebracht
in 2010: 50.000 euro/humaan genoom
in 2014: 1.000 euro/humaan genoom (Illumina - VS))
in 2020: 600 euro/humaan genoom (BGI - China)
(?) einde 2020: 100 euro/humaan genoom (BGI - China)

De belangrijkste kostfactor zijn de chemicaliën. Het Chinese BGI werkt aan een aanbod van 100 euro/genoom:

To hit an even lower mark, BGI’s new system will employ a robotic arm and a roomful of chemical baths and imaging machines. It will be offered as a custom set-up later this year to big centers involved in mapping the DNA of large populations or in high-throughput cancer research. “These systems would be prioritized for really large-scale population genetics, million-person projects,” says Rade Drmanac, chief scientific officer of Complete Genomics, a division of BGI Group in San Jose, California, that developed the new technology.

BRON
_{28 feb 2020}

Illumina zou al jaren de prijs op 1.000 euro per genoom houden, "omwille van een monopolie-positie".

Nr.10 · 12 februari 2025, 14:41

Een mooie definitie [in de mooie nederlandse taal] omtrent wat een parallelle computer is.

Parallelle computer

Een parallelle computer is een computer die over meerdere processoren
beschikt en daardoor meerdere taken tegelijk kan uitvoeren. Daarbij gaat het
om taken die echt tegelijkertijd worden uitgevoerd en niet, zoals bij
multitasking, om het snel heen en weer schakelen tussen taken. Traditioneel
is een parallelle computer een supercomputer met duizenden tot
honderdduizenden processoren, die voor wetenschappelijk rekenwerk wordt
gebruikt, maar tegenwoordig zijn bijna alle computers parallel; zelfs de
eenvoudigste pc's en laptops zijn van multikernprocessoren voorzien.

Een parallelle computer kan sneller zijn dan een niet-parallelle (seriële)
computer omdat hij verschillende taken tegelijkertijd kan uitvoeren zonder
dat deze elkaar al te veel vertragen. De gebruiker kan bijvoorbeeld een foto
bewerken en tegelijkertijd naar muziek luisteren terwijl op de achtergrond
het systeem een update installeert. Helemaal zonder vertraging kan het niet,
omdat de verschillende taken mogelijk wel de systeembronnen (zoals
geheugen, harde schijf, netwerk) moeten delen.

Parallel rekenen

Het is ook mogelijk om één enkele taak door meerdere processoren te laten
uitvoeren. Dat gebeurt vooral bij grootschalige (wetenschappelijke)
rekenklussen. Lang niet alle taken kunnen door parallellisme versneld
worden. Een recursie bijvoorbeeld kan niet parallel worden uitgevoerd omdat
voor elke stap het resultaat van de vorige stap bekend moet zijn. Parallel
rekenen is vooral voordelig wanneer het onderliggende probleem uit veel
kleine delen bestaat die grotendeels afzonderlijk opgelost kunnen worden.
Hoe meer de delen met elkaar moeten communiceren, hoe minder efficiënt
de parallellisatie van het probleem wordt.

Het schrijven van goede parallelle programma's, het zogeheten
gedistribueerd programmeren, is veel moeilijker dan van gewone
"sequentiële" programma's, omdat de communicatie en de synchronisatie
tussen de verschillende processen in acht moet worden genomen. Ook moet
er rekening mee worden gehouden dat communicatie tussen de processen
relatief veel tijd kan kosten en dat elk proces maar over een klein stukje
geheugen beschikt, dus dat het werk en de daarvoor benodigde gegevens
goed verdeeld moeten worden over de processen.

6 mei 2017, 02:11	#1
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	Humaan genoom, Big Data, Hadoop MapReduce, gedistribueerde dataopslag, 3 miljard bp Drie miljard baseparen moeten geordend worden om een menselijk genoom volledig in kaart te brengen. Nucleotide per nucleotide in de juiste volgorde. Hoe werkt dat? AGCCCCTCAGGAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGT CAGATTTACCCTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAA CACGTCGTCTAAATGACTTCTTAAAGTAGAATAGCGTGTTCTCTCCTTCC AGCCTCCGAAAAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAG TGATGAGACTGCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACT TCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGAGCCCCTCAG GAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACC CTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCT AAATGACTTCTTAAAGTAGAATAGCGTGTTCTCTCCTTCCAGCCTCCGAA AAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACT GCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCA GAGGCTGATAATCTACTTACCCAAACATAGAGCCCCTCAGGAGTCCGGCC ACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACCCTGGCTCACC TTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCTAAATGACTTC TTAAAGTAGAATAGCGTGTTCTCTCCTTCCAGCCTCCGAAAAACTCGGAC CAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACTGCGCCTCTGT TCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCAGAGGCTGATA ATCTACTTACCCAAACATAG __________________ Doorzoek forum.politics.be (aangepaste zoekmachine)

6 mei 2017, 22:12	#2
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	STAP 1: DNA sequencen in het laboratorium Het apparaat dat gebruikt wordt is sequencer genoemd. In de figuur hieronder ziet u een aantal sequencers staan. Van Applied Biosystems, onderdeel van Thermo Fisher Scientific. Wat zo'n machine doet is een chemisch proces loslaten op een bloedstalen [de input]. De output zijn zogenaamde reads. Miljoenen korte reads van tussen de 100 en de 250 nucleotiden worden geproduceerd. Deze miljoenen reads vormen de INPUT data om er berekeningen op los te laten, STAP 2. Bijgevoegde miniaturen __________________ Doorzoek forum.politics.be (aangepaste zoekmachine)

6 mei 2017, 22:20	#3
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	STAP 2: de berekeningen 2a: de reads alligneren aan het referentiegenoom [= "allignment"] 2b: zoeken naar de verschillen tussen de reads en het referentiegenoom [= "variant calling"] Het verschil tussen de referentie en een nieuw DNA bedraagt slechts 0,1%. Op drie miljard baseparen betekent dat drie miljoen verschillen. A variant call is a conclusion that there is a nucleotide difference vs. some reference at a given position in an individual genome. (aanklikken om te vergroten) Bijgevoegde miniaturen __________________ Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 6 mei 2017 om 22:28.

6 mei 2017, 23:20	#4
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	Geraldine Van Der Auwera alumni Louvain-la-Neuve phd harvard nu GATK [Genome Analysis Toolkit] Best Practices Hier aan het woord, in het engels: video Meer info over de GATK beste praktijken: BroadE Workshop 2015 March 19-20: Best Practices for Variant Calling with the GATK _{Geraldine Van Der Auwera} (fig.: beste praktijken voor het aanduiden van de verschillen tussen de reads en het referentiegenoom) SNP = single-nucleotide polymorphism = enkel-nucleotide polymorfie = een variatie in het DNA - een polymorfie - van een enkele nucleotide lang Indel = een verzamelnaam voor een bepaald type mutaties van het DNA. Het gaat om veranderingen waarbij één of meer nucleotides worden ingevoegd (IN-sertie) of juist verloren gaan (DEL-etie). Bijgevoegde miniaturen __________________ Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 6 mei 2017 om 23:23.

6 mei 2017, 23:30	#5
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	één genoom = 12 dagen rekentijd Dataset De reads = de dataset. Bijvoorbeeld 1,5 miljard reads van 100 baseparen. Komt overeen met 300 GByte aan ruwe data. Rekentijd [met een Intel processor 2.60GHz)] het alligneren aan het referentiegenoom: 2.700 reads per seconde ==> 172 uur het prepareren van de data: http://broadinstitute.github.io/picard/ ==> 35 uur "variant calling" (GATK) ==> 80 uur Totale rekentijd = 12 dagen __________________ Doorzoek forum.politics.be (aangepaste zoekmachine)

6 mei 2017, 23:54	#6
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	50 genomen per dag ??? Maar de sequencers kunnen veel sneller: 50 genomen per dag / 18.000 genomen per jaar. Een ware data-explosie. 12 dagen is te traag ==> een gedistribueerd opslagsysteem is wenselijk. Parallelisme in het GATK _{How to unleash the full potential of your computer or data center in your analysis} BroadE: Introduction to parallelism for GATK _{video, maart 2013} Hier komt Apache Hadoop in beeld: Analyzing Human Genomes with Apache Hadoop _{15 okt 2009} En meer recent Apache Spark: Cloudera, Broad Institute Collaborate on the Next Generation of the Genome Analysis Toolkit _{6 apr 2016} __________________ Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 7 mei 2017 om 00:05.

7 mei 2017, 00:31	#7
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	één genoom = 3 uur Door toepassing van deze technieken wordt de looptijd voor een heel genoom gereduceerd van twaalf dagen tot minder dan 3 uur. BRON _{26 mrt 2015} Bijgevoegde afbeelding(e) __________________ Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 7 mei 2017 om 00:36.

8 mei 2017, 00:36	#8
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	In de onderstaande tabel een overzicht van de stappen in het DNA-sequencing proces hierboven beschreven. MapReduce (1) Map fase (2) Sorteren (3) Reduce fase In de Map fase worden uit de input [= de dataset van 1,5 miljard reads] <key,value> paren gegenereerd, waarbij key staat voor een getal tussen 0 en drie miljard. In de Sorteer fase worden de <key,value> paren gesorteerd volgens key. De Reduce fase heeft als input alle <key,value> paren per key. De output aggregeert de values. Bijgevoegde afbeelding(e) __________________ Doorzoek forum.politics.be (aangepaste zoekmachine)

27 mei 2017, 02:06	#9
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	Door toepassing van deze technieken wordt de looptijd voor een heel genoom gereduceerd van twaalf dagen tot minder dan 3 uur. BRON _{paper 26 mrt 2015} Nog 63% sneller dan het hierboven beschreven Halvade: Hadoop MapReduce vervangen door Apache Spark. Cluster-Based Apache Spark Implementation of the GATK DNA Analysis Pipeline _{paper 12 nov 2015} Er zit snelheidstoename in de 'in-memory data processing'. Bijgevoegde miniaturen __________________ Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 27 mei 2017 om 02:19.

27 mei 2017, 02:08	#10
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	Quote: Instead of storing intermediate data after a computation into on-disk storage such as HDFS, these data can be stored "fault tolerantly" in-memory. The ability to store intermediate data in-memory across multiple nodes is one of the reasons why Spark is able to execute faster than Hadoop's MapReduce. BRON _{mrt 2016} Bijgevoegde miniaturen __________________ Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 27 mei 2017 om 02:14.

29 mei 2017, 00:09	#13
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	Wat is Apache Hadoop? Apache Hadoop is een open-source softwareframework voor gedistribueerde opslag en verwerking van grote hoeveelheden data met behulp van het MapReduce paradigma. Hadoop is als platform een drijvende kracht achter de populariteit van big data. Het draait op een cluster van computers dat bestaat uit commodity hardware. In het ontwerp van de Hadoop-softwarecomponenten is rekening gehouden met uitval van systemen in een cluster, door o.a. data te repliceren over meerdere computers. BRON Wat is Apache Spark? Apache Spark is een open-source verwerkingsframework waarmee grootschalige toepassingen voor gegevensanalyse worden uitgevoerd. Spark is gebaseerd op een rekenengine die is geïntegreerd in het geheugen, en zorgt voor hoge prestaties bij het uitvoeren van query's bij big data. Het profiteert van een framework voor parallelle gegevensverwerking die indien nodig kan omgaan met in een geheugen geïntegreerde gegevens of schijfgegevens. Op deze manier kan Spark zowel een 100x hogere snelheid als een gemeenschappelijk uitvoeringsmodel bieden voor taken als extraheren, transformeren, laden (ETL), batch, interactieve query's en andere taken voor gegevens in een Apache HDFS (Hadoop Distributed File System). BRON __________________ Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 29 mei 2017 om 00:12.

29 mei 2017, 02:41	#14
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	Wat is een zogenaamde pipeline (uit post 8): Pipeline (computing) In computing, a pipeline is a set of data processing elements connected in series, where the output of one element is the input of the next one. The elements of a pipeline are often executed in parallel or in time-sliced fashion; in that case, some amount of buffer storage is often inserted between elements. Vergelijk het met een fabriek waar auto's geassembleerd worden. To understand the benefit of a pipeline, imagine that a car manufacturing plant had to wait for each car to be fully completed before starting on the next one. That would be horribly inefficient, right? It makes much more sense to work on many cars at once, completing them one stage at a time. This is what a pipeline in a computer allows. Pipelining, as it is called, often keeps around six instructions at once in the processor at different stages of processing. BRON Bijgevoegde afbeelding(e) __________________ Doorzoek forum.politics.be (aangepaste zoekmachine)

29 mei 2017, 02:51	#15
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	Wat is parallel computing, en wat is een cluster (uit post 7): Parallel computing Parallel computing is a type of computation in which many calculations or the execution of processes are carried out simultaneously. BRON Computer cluster A computer cluster consists of a set of loosely or tightly connected computers that work together so that, in many respects, they can be viewed as a single system. BRON Bijgevoegde afbeelding(e) __________________ Doorzoek forum.politics.be (aangepaste zoekmachine) Laatst gewijzigd door Nr.10 : 29 mei 2017 om 02:52.

29 mei 2017, 07:45	#16
Anna List Banneling Geregistreerd: 28 september 2004 Berichten: 106.558	voor welk vak is dit allemaal nr 10 ? wanneer heb je exaam mss?

30 augustus 2020, 00:33	#18
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	De kost voor het sequencen van een volledig humaan genoom is aan het zakken: in 2003: het allereerste genoom is volledig in kaart gebracht in 2010: 50.000 euro/humaan genoom in 2014: 1.000 euro/humaan genoom (Illumina - VS)) in 2020: 600 euro/humaan genoom (BGI - China) (?) einde 2020: 100 euro/humaan genoom (BGI - China) De belangrijkste kostfactor zijn de chemicaliën. Het Chinese BGI werkt aan een aanbod van 100 euro/genoom: To hit an even lower mark, BGI’s new system will employ a robotic arm and a roomful of chemical baths and imaging machines. It will be offered as a custom set-up later this year to big centers involved in mapping the DNA of large populations or in high-throughput cancer research. “These systems would be prioritized for really large-scale population genetics, million-person projects,” says Rade Drmanac, chief scientific officer of Complete Genomics, a division of BGI Group in San Jose, California, that developed the new technology. BRON _{28 feb 2020} Illumina zou al jaren de prijs op 1.000 euro per genoom houden, "omwille van een monopolie-positie". __________________ Doorzoek forum.politics.be (aangepaste zoekmachine)

12 februari 2025, 14:41	#19
Nr.10 Secretaris-Generaal VN Geregistreerd: 26 september 2003 Locatie: van Lissabon tot Vladivostok Berichten: 34.679	Een mooie definitie [in de mooie nederlandse taal] omtrent wat een parallelle computer is. Parallelle computer Een parallelle computer is een computer die over meerdere processoren beschikt en daardoor meerdere taken tegelijk kan uitvoeren. Daarbij gaat het om taken die echt tegelijkertijd worden uitgevoerd en niet, zoals bij multitasking, om het snel heen en weer schakelen tussen taken. Traditioneel is een parallelle computer een supercomputer met duizenden tot honderdduizenden processoren, die voor wetenschappelijk rekenwerk wordt gebruikt, maar tegenwoordig zijn bijna alle computers parallel; zelfs de eenvoudigste pc's en laptops zijn van multikernprocessoren voorzien. Een parallelle computer kan sneller zijn dan een niet-parallelle (seriële) computer omdat hij verschillende taken tegelijkertijd kan uitvoeren zonder dat deze elkaar al te veel vertragen. De gebruiker kan bijvoorbeeld een foto bewerken en tegelijkertijd naar muziek luisteren terwijl op de achtergrond het systeem een update installeert. Helemaal zonder vertraging kan het niet, omdat de verschillende taken mogelijk wel de systeembronnen (zoals geheugen, harde schijf, netwerk) moeten delen. Parallel rekenen Het is ook mogelijk om één enkele taak door meerdere processoren te laten uitvoeren. Dat gebeurt vooral bij grootschalige (wetenschappelijke) rekenklussen. Lang niet alle taken kunnen door parallellisme versneld worden. Een recursie bijvoorbeeld kan niet parallel worden uitgevoerd omdat voor elke stap het resultaat van de vorige stap bekend moet zijn. Parallel rekenen is vooral voordelig wanneer het onderliggende probleem uit veel kleine delen bestaat die grotendeels afzonderlijk opgelost kunnen worden. Hoe meer de delen met elkaar moeten communiceren, hoe minder efficiënt de parallellisatie van het probleem wordt. Het schrijven van goede parallelle programma's, het zogeheten gedistribueerd programmeren, is veel moeilijker dan van gewone "sequentiële" programma's, omdat de communicatie en de synchronisatie tussen de verschillende processen in acht moet worden genomen. Ook moet er rekening mee worden gehouden dat communicatie tussen de processen relatief veel tijd kan kosten en dat elk proces maar over een klein stukje geheugen beschikt, dus dat het werk en de daarvoor benodigde gegevens goed verdeeld moeten worden over de processen. __________________ Doorzoek forum.politics.be (aangepaste zoekmachine)