Politics.be Problemen met registreren? Of een verloren wachtwoord? Gelieve een mail te verzenden naar maarten@politics.be met vermelding van je gebruikersnaam.

Ga terug   Politics.be > Themafora > Wetenschap & Technologie
Registreer FAQForumreglement Ledenlijst Markeer forums als gelezen

Wetenschap & Technologie Van grondstoffen tot afgewerkt product, oude en nieuwe ontdekkingen, ... + de relatie tot de mens, macht, ...

Antwoord
 
Discussietools
Oud 6 May 2017, 03:11   #1
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard Humaan genoom, Big Data, Hadoop MapReduce, gedistribueerde dataopslag, 3 miljard bp

Drie miljard baseparen moeten geordend worden
om een menselijk genoom volledig in kaart te brengen.
Nucleotide per nucleotide in de juiste volgorde.
Hoe werkt dat?
AGCCCCTCAGGAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGT CAGATTTACCCTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAA CACGTCGTCTAAATGACTTCTTAAAGTAGAATAGCGTGTTCTCTCCTTCC AGCCTCCGAAAAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAG TGATGAGACTGCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACT TCAGGGTCCAGAGGCTGATAATCTACTTACCCAAACATAGAGCCCCTCAG GAGTCCGGCCACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACC CTGGCTCACCTTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCT AAATGACTTCTTAAAGTAGAATAGCGTGTTCTCTCCTTCCAGCCTCCGAA AAACTCGGACCAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACT GCGCCTCTGTTCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCA GAGGCTGATAATCTACTTACCCAAACATAGAGCCCCTCAGGAGTCCGGCC ACATGGAAACTCCTCATTCCGGAGGTCAGTCAGATTTACCCTGGCTCACC TTGGCGTCGCGTCCGGCGGCAAACTAAGAACACGTCGTCTAAATGACTTC TTAAAGTAGAATAGCGTGTTCTCTCCTTCCAGCCTCCGAAAAACTCGGAC CAAAGATCAGGCTTGTCCGTTCTTCGCTAGTGATGAGACTGCGCCTCTGT TCGTACAACCAATTTAGGTGAGTTCAAACTTCAGGGTCCAGAGGCTGATA ATCTACTTACCCAAACATAG
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)
Nr.10 is offline   Met citaat antwoorden
Oud 6 May 2017, 23:12   #2
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

STAP 1: DNA sequencen in het laboratorium
Het apparaat dat gebruikt wordt is sequencer genoemd. In de figuur hieronder ziet u een aantal sequencers staan. Van Applied Biosystems, onderdeel van Thermo Fisher Scientific. Wat zo'n machine doet is een chemisch proces loslaten op een bloedstalen [de input]. De output zijn zogenaamde reads. Miljoenen korte reads van tussen de 100 en de 250 nucleotiden worden geproduceerd. Deze miljoenen reads vormen de INPUT data om er berekeningen op los te laten, STAP 2.
Bijgevoegde miniaturen
Klik op de afbeelding voor een grotere versie

Naam:  DNA-Sequencers_from_Flickr_57080968.jpg‎
Bekeken: 15
Grootte:  312,2 KB
ID: 105901  

__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)
Nr.10 is offline   Met citaat antwoorden
Oud 6 May 2017, 23:20   #3
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

STAP 2: de berekeningen
  • 2a: de reads alligneren aan het referentiegenoom [= "allignment"]
  • 2b: zoeken naar de verschillen tussen de reads en het referentiegenoom [= "variant calling"]
Het verschil tussen de referentie en een nieuw DNA bedraagt slechts 0,1%.
Op drie miljard baseparen betekent dat drie miljoen verschillen.
A variant call is a conclusion that there is a nucleotide
difference vs. some reference at a given position in an
individual genome.
(aanklikken om te vergroten)
Bijgevoegde miniaturen
Klik op de afbeelding voor een grotere versie

Naam:  Glenn1.png‎
Bekeken: 20
Grootte:  264,6 KB
ID: 105903  

__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)

Laatst gewijzigd door Nr.10 : 6 May 2017 om 23:28.
Nr.10 is offline   Met citaat antwoorden
Oud 7 May 2017, 00:20   #4
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

Geraldine Van Der Auwera
alumni Louvain-la-Neuve
phd harvard
nu GATK [Genome Analysis Toolkit] Best Practices
Hier aan het woord, in het engels: video
Meer info over de GATK beste praktijken:
BroadE Workshop 2015 March 19-20: Best Practices for Variant Calling with the GATK
Geraldine Van Der Auwera
(fig.: beste praktijken voor het aanduiden van de verschillen tussen de reads en het referentiegenoom)
SNP = single-nucleotide polymorphism
= enkel-nucleotide polymorfie
= een variatie in het DNA - een polymorfie - van een enkele nucleotide lang
Indel = een verzamelnaam voor een bepaald type mutaties van het DNA.
Het gaat om veranderingen waarbij één of meer nucleotides
worden ingevoegd (IN-sertie) of juist verloren gaan (DEL-etie).
Bijgevoegde miniaturen
Klik op de afbeelding voor een grotere versie

Naam:  cartoon-bpp-workflow-web.png‎
Bekeken: 18
Grootte:  40,5 KB
ID: 105905  

Klik op de afbeelding voor een grotere versie

Naam:  de131adeb6d684b289267b5cf70881.png‎
Bekeken: 16
Grootte:  68,2 KB
ID: 105906  

__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)

Laatst gewijzigd door Nr.10 : 7 May 2017 om 00:23.
Nr.10 is offline   Met citaat antwoorden
Oud 7 May 2017, 00:30   #5
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard één genoom = 12 dagen rekentijd

Dataset
De reads = de dataset.
Bijvoorbeeld 1,5 miljard reads van 100 baseparen.
Komt overeen met 300 GByte aan ruwe data.

Rekentijd
[met een Intel processor 2.60GHz)]Totale rekentijd = 12 dagen
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)
Nr.10 is offline   Met citaat antwoorden
Oud 7 May 2017, 00:54   #6
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard 50 genomen per dag ???

Maar de sequencers kunnen veel sneller: 50 genomen per dag / 18.000 genomen per jaar. Een ware data-explosie.
12 dagen is te traag ==> een gedistribueerd opslagsysteem is wenselijk.
Parallelisme in het GATK
How to unleash the full potential of your
computer or data center in your analysis
BroadE: Introduction to parallelism for GATK
video, maart 2013
Hier komt Apache Hadoop in beeld:
Analyzing Human Genomes with Apache Hadoop
15 okt 2009
En meer recent Apache Spark:
Cloudera, Broad Institute Collaborate on the Next Generation of the Genome Analysis Toolkit
6 apr 2016
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)

Laatst gewijzigd door Nr.10 : 7 May 2017 om 01:05.
Nr.10 is offline   Met citaat antwoorden
Oud 7 May 2017, 01:31   #7
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard één genoom = 3 uur

Door toepassing van deze technieken wordt de looptijd voor een heel genoom gereduceerd van twaalf dagen tot minder dan 3 uur.

BRON
26 mrt 2015
Bijgevoegde afbeelding(e)
 
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)

Laatst gewijzigd door Nr.10 : 7 May 2017 om 01:36.
Nr.10 is offline   Met citaat antwoorden
Oud 8 May 2017, 01:36   #8
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

In de onderstaande tabel een overzicht van de stappen in het DNA-sequencing proces hierboven beschreven.
MapReduce
(1) Map fase
(2) Sorteren
(3) Reduce fase
  • In de Map fase worden uit de input [= de dataset van 1,5 miljard reads] <key,value> paren gegenereerd, waarbij key staat voor een getal tussen 0 en drie miljard.
  • In de Sorteer fase worden de <key,value> paren gesorteerd volgens key.
  • De Reduce fase heeft als input alle <key,value> paren per key. De output aggregeert de values.
Bijgevoegde afbeelding(e)
 
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)
Nr.10 is offline   Met citaat antwoorden
Oud 27 May 2017, 03:06   #9
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

Door toepassing van deze technieken wordt de looptijd voor een heel genoom gereduceerd van twaalf dagen tot minder dan 3 uur.
BRON
paper
26 mrt 2015
Nog 63% sneller dan het hierboven beschreven Halvade: Hadoop MapReduce vervangen door Apache Spark.
Cluster-Based Apache Spark Implementation of the
GATK DNA Analysis Pipeline

paper
12 nov 2015
Er zit snelheidstoename in de 'in-memory data processing'.
Bijgevoegde miniaturen
Klik op de afbeelding voor een grotere versie

Naam:  flinkIterative.png‎
Bekeken: 12
Grootte:  136,4 KB
ID: 106046  

__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)

Laatst gewijzigd door Nr.10 : 27 May 2017 om 03:19.
Nr.10 is offline   Met citaat antwoorden
Oud 27 May 2017, 03:08   #10
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

Quote:
Instead of storing intermediate data after a computation into on-disk storage such as HDFS,
these data can be stored "fault tolerantly" in-memory.

The ability to store intermediate data in-memory
across multiple nodes is one of the reasons
why Spark is able to execute faster than Hadoop's MapReduce.


BRON
mrt 2016
Bijgevoegde miniaturen
Klik op de afbeelding voor een grotere versie

Naam:  Screen-Shot-2016-02-01-at-2.16.29-PM.png‎
Bekeken: 12
Grootte:  273,3 KB
ID: 106047  

__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)

Laatst gewijzigd door Nr.10 : 27 May 2017 om 03:14.
Nr.10 is offline   Met citaat antwoorden
Oud 28 May 2017, 11:32   #11
subocaj
Perm. Vertegenwoordiger VN
 
subocaj's schermafbeelding
 
Geregistreerd: 11 June 2010
Berichten: 14.566
Standaard

Citaat:
Oorspronkelijk geplaatst door Nr.10 Bekijk bericht
Quote:
Instead of storing intermediate data after a computation into on-disk storage such as HDFS,
these data can be stored "fault tolerantly" in-memory.

The ability to store intermediate data in-memory
across multiple nodes is one of the reasons
why Spark is able to execute faster than Hadoop's MapReduce.


BRON
mrt 2016
De passagiers die vastzitten in Engeland zullen tevreden zijn!
subocaj is offline   Met citaat antwoorden
Oud 29 May 2017, 00:58   #12
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

Citaat:
Oorspronkelijk geplaatst door subocaj Bekijk bericht
De passagiers die vastzitten in Engeland zullen tevreden zijn!
Sorry, het vertalen zul je zelf moeten doen.
Waar het om gaat in essentie is dat in minder dan 60 minuten je hele genoom ontcijferd wordt.
Drie miljard baseparen, letter per letter.
De eerste bron die vermeld wordt dateert van maart 2015 [uit Gent].
De tweede dateert van november 2015 [uit Delft, Nederland].
In Gent maakten de onderzoekers gebruik van Apache Hadoop.
In Delft ging het om Apache Spark.
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)

Laatst gewijzigd door Nr.10 : 29 May 2017 om 01:02.
Nr.10 is offline   Met citaat antwoorden
Oud 29 May 2017, 01:09   #13
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

Wat is Apache Hadoop?
Apache Hadoop is een open-source softwareframework voor gedistribueerde opslag en verwerking van grote hoeveelheden data met behulp van het MapReduce paradigma. Hadoop is als platform een drijvende kracht achter de populariteit van big data. Het draait op een cluster van computers dat bestaat uit commodity hardware. In het ontwerp van de Hadoop-softwarecomponenten is rekening gehouden met uitval van systemen in een cluster, door o.a. data te repliceren over meerdere computers.
BRON
Wat is Apache Spark?
Apache Spark is een open-source verwerkingsframework waarmee grootschalige toepassingen voor gegevensanalyse worden uitgevoerd. Spark is gebaseerd op een rekenengine die is geïntegreerd in het geheugen, en zorgt voor hoge prestaties bij het uitvoeren van query's bij big data. Het profiteert van een framework voor parallelle gegevensverwerking die indien nodig kan omgaan met in een geheugen geïntegreerde gegevens of schijfgegevens. Op deze manier kan Spark zowel een 100x hogere snelheid als een gemeenschappelijk uitvoeringsmodel bieden voor taken als extraheren, transformeren, laden (ETL), batch, interactieve query's en andere taken voor gegevens in een Apache HDFS (Hadoop Distributed File System).
BRON
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)

Laatst gewijzigd door Nr.10 : 29 May 2017 om 01:12.
Nr.10 is offline   Met citaat antwoorden
Oud 29 May 2017, 03:41   #14
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

Wat is een zogenaamde pipeline (uit post 8):
Pipeline (computing)
In computing, a pipeline is a set of data processing elements connected in series,
where the output of one element is the input of the next one.
The elements of a pipeline are often executed in parallel or in time-sliced fashion;
in that case, some amount of buffer storage is often inserted between elements.
Vergelijk het met een fabriek waar auto's geassembleerd worden.
To understand the benefit of a pipeline, imagine that a car manufacturing plant had to wait for each car to be fully completed before starting on the next one. That would be horribly inefficient, right? It makes much more sense to work on many cars at once, completing them one stage at a time. This is what a pipeline in a computer allows. Pipelining, as it is called, often keeps around six instructions at once in the processor at different stages of processing. BRON
Bijgevoegde afbeelding(e)
 
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)
Nr.10 is offline   Met citaat antwoorden
Oud 29 May 2017, 03:51   #15
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

Wat is parallel computing, en wat is een cluster (uit post 7):
Parallel computing
Parallel computing is a type of computation in which many calculations
or the execution of processes are carried out simultaneously. BRON
Computer cluster
A computer cluster consists of a set of loosely or tightly connected computers
that work together so that, in many respects, they can be viewed as a single system. BRON
Bijgevoegde afbeelding(e)
 
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)

Laatst gewijzigd door Nr.10 : 29 May 2017 om 03:52.
Nr.10 is offline   Met citaat antwoorden
Oud 29 May 2017, 08:45   #16
Anna List
Secretaris-Generaal VN
 
Anna List's schermafbeelding
 
Geregistreerd: 28 September 2004
Berichten: 66.353
Standaard

voor welk vak is dit allemaal nr 10 ?

wanneer heb je exaam mss?
__________________
Citaat:
"De N-Va is inmiddels gedomesticeerd." Maddens, De Tijd 14 10 2015
Anna List is offline   Met citaat antwoorden
Oud 31 May 2017, 01:31   #17
Nr.10
Secretaris-Generaal VN
 
Nr.10's schermafbeelding
 
Geregistreerd: 27 September 2003
Locatie: van Lissabon tot Vladivostok
Berichten: 23.071
Standaard

Citaat:
Oorspronkelijk geplaatst door Anna List Bekijk bericht
voor welk vak is dit allemaal nr 10 ?

wanneer heb je exaam mss?
Waarom zou het voor een exaam moeten zijn? Ik heb mijn diploma.
De ontrafeling van het menselijk genoom is een zaak van algemeen belang, en dus van politiek belang.
__________________
Doorzoek forum.politics.be (aangepaste zoekmachine)
Nr.10 is offline   Met citaat antwoorden
Antwoord


Discussietools

Regels voor berichten
Je mag niet nieuwe discussies starten
Je mag niet reageren op berichten
Je mag niet bijlagen versturen
Je mag niet jouw berichten bewerken

vB-code is Aan
Smileys zijn Aan
[IMG]-code is Aan
HTML-code is Uit
Forumnavigatie


Alle tijden zijn GMT +1. Het is nu 06:37.


Forumsoftware: vBulletin®
Copyright ©2000 - 2017, Jelsoft Enterprises Ltd.
Content copyright ©2002 - 2016, Politics.be