Een verhaal over performance impact en de analyse van de oorzaak

  • Algemeen
  • Techniek

Elke organisatie wordt op een bepaald moment geconfronteerd met kleine en grote performance-problemen. De analyse van de oorzaak van dergelijke problemen wordt meestal uitgevoerd wanneer problemen aanhouden of als de impact op het bedrijf niet kan worden genegeerd. Het uitvoeren van een dergelijke analyse kan behoorlijk omslachtig zijn. Deze blog toont een typische zoektocht naar antwoorden.

1. Probleem-identificatie

Performance gerelateerde problemen worden meestal opgemerkt doordat gebruikers klagen over dagelijkse taken die traag verlopen, apparaten die traag gedrag vertonen of zodra bedrijfsprocessen merkbaar worden beïnvloed. Klachten van gebruikers worden normaal gesproken verzameld in ticketsystemen, als gebruikers daadwerkelijk de moeite nemen om tickets te loggen, of zodra een performance drempel wordt overschreden binnen een monitoringsysteem. Om de omvang van de impact van het probleem te bepalen, zullen we naar vergelijkbare items in onze systemen moeten zoeken en deze in één overzicht moeten combineren.

2. Probleembeschrijving

Nadat we soortgelijke problemen hebben verzameld en aanvullende informatie hebben toegevoegd, gaan we het probleem in een beschrijving samenvatten. Dit veronderstelt dat we voldoende gegevens hebben over incidenten en gedrag uit de identificatiefase die we hebben doorlopen. Het beschrijven van het probleem kan een uitdaging blijken te zijn, aangezien baselines en uitvoerings-tijden vaak niet beschikbaar zijn voor de specifieke digitale workloads die we uitvoeren. Dit betekent dat het moeilijk kan zijn om te bepalen wat ‘langzaam’ betekent in vergelijking met ‘normaal’, omdat we niet hebben gedefinieerd wat de acceptabele drempel eigenlijk is.

3. Verzamel probleem-data uit monitoring-bronnen

De beschrijving van het probleem moet een overzicht geven van in welke delen van de keten van de workload de performance-problemen zich kunnen bevinden. Aangezien deze delen vaak worden beheerd door meerdere teams die elk hun eigen set tools gebruiken, kost het tijd en coördinatie de gecentraliseerde data te verzamelen. Applicatiebeheerders kunnen bijvoorbeeld een generieke APM-oplossing gebruiken die de web-performance bewaakt, terwijl de databasebeheerders unieke monitoring gebruiken voor de specifieke database die wordt gebruikt en datacenter-beheerders globale monitoring-oplossingen gebruiken voor alle infrastructuur-componenten. Elke oplossing levert data in verschillende formaten zonder correlatie tussen de datasets, het interpreteren van de data vereist daardoor specialistische kennis. Bovendien hebben teams de neiging om te geloven dat het probleem niet in hun deel van de keten zit, omdat alles voor hun deel ‘werkt zoals bedoeld’.

4. Data analyseren en correleren

Data is verzameld en gecentraliseerd. Normaal gesproken is expertise van meerdere teams vereist om incidenten te matchen. Soms zorgen waarschuwingen of data in bepaalde delen van de keten voor een duidelijk begrip van het probleem, maar vaak is dit niet het geval. Aangezien gegevens op een verspreide manier worden verzameld zonder normalisatie op bijvoorbeeld tijdstempels of key performance metrics, blijkt het vergelijken van situaties moeilijk en omslachtig. We vinden echter vaak items die er anders uitzien dan verwacht en die we in een wijziging willen opnemen om de prestaties te verbeteren.

5. Creëer en implementeer verandering voor verbetering

Om de performance-impact tegen te gaan, gebruiken we de uitkomsten van data-analyse om een wijziging te creëren die het probleem zou kunnen oplossen. Deze wijzigingen zijn meestal silo-centrisch, omdat wijzigingen moeten worden toegepast door de specifieke teams die dat deel van de stapel beheren. Wijzigingen kunnen meerdere taken omvatten die door verschillende teams moeten worden uitgevoerd.

6. Bepaal de performance oplossing

Nadat de wijzigingen zijn doorgevoerd, willen we bepalen of deze het probleem hebben opgelost. Sommige wijzigingen zijn kleiner en maken het gemakkelijker om resultaten vast te leggen, terwijl andere wijzigingen complexer en moeilijker te meten zijn voor verschillende delen van de wijziging. Dit betekent meestal dat we terugvallen op het wachten op feedback van gebruikers over de performance of kijken naar de statistieken die worden gebruikt om het probleem te identificeren.

Gebruik Tuuring voor een snellere analyse van de oorzaak

Het Tuuring-platform maakt permanente data verzameling mogelijk uit een breed scala aan performance bronnen. Omdat het platform binnenkomende data normaliseert, verrijkt en indexeert in consistente patronen, wordt de analyse van samengestelde en gedocumenteerde datasets mogelijk. Dit maakt multi-silo analyse van performance data mogelijk met ingebouwde kennis van onze experts. Dynamische baselines bieden objectieve performance metingen voor alle soorten gebruikersinteractie en -processen. Machine learning-mogelijkheden, zoals trendanalyse en anomaliedetectie, zorgen voor een snellere analyse van de hoofdoorzaak, waarbij verdachte tijdframes worden vergeleken met acceptabele basiswaarden die over de hele keten worden gemeten. Het doorlopen van het proces van probleemidentificatie tot daadwerkelijke resultaten zal soepeler en nauwkeuriger verlopen, waardoor de tijdsduur om de performance problemen op te lossen sterk wordt verkort en workflow performance wordt verbeterd.

Kijk zelf maar

Als u geïnteresseerd bent om te zien wat een gecentraliseerd AIOps-platform, dat speciaal is ontworpen voor het optimaliseren van digitale prestaties, voor u kan doen, neem dan hier contact op voor een demo of bekijk onze oplossingen pagina.