Network assurance in het datacenter: de informatie uit uw netwerk slimmer gebruiken

Zaterdag 11 juli, 2009. U heeft de spullen ingepakt en u bent klaar om te vertrekken. Alles overgedragen op kantoor, de IT infrastructuur van uw bedrijf is ook de komende drie weken in goede handen. Drie weken op vakantie met uw gezin. De kinderen staan te popelen en u kijkt al uit naar het strand en het biertje of wijntje naast de hangmat. In de avond volgt uiteraard de BBQ en u kunt de geur van de burgers al ruiken. Nog een nacht slapen. De tijd is 03:53. Uw telefoon gaat. Had u de wekker niet om 06:00 gezet? U zou nog vroeg vertrekken. Het blijkt uw netwerkbeheerder te zijn. Paniek, een grote netwerkverstoring in het datacenter. Uw bedrijf heeft een kritische 24/7 operatie en uw infrastructuur heeft een uptime van 99.999% over de afgelopen vijf jaar behaald. Nee toch, niet nu!? De netwerkproblemen blijken van dusdanige aard dat een snelle oplossing niet voor de hand ligt. Het grootste probleem lijkt juist het missen van informatie te zijn. De beheerders hebben uiteraard tools om het netwerk te monitoren en uit te lezen, maar het probleem is bijzonder ingewikkeld te “pinpointen”. Uw netwerk bevat in het datacenter dan ook 3 locaties met meer dan 1500 poorten. De fabrikant is er al bij gehaald, maar ook de fabrikant heeft moeite  met de root-cause analyse. U ziet de bui al hangen. U kunt dit niet zo achterlaten, u moet uw vakantie uitstellen.

In 2019 hebben we slimmere oplossingen. We hebben software-defined datacenters (SDDC) die niet alleen gemakkelijker te beheren zijn, maar ons ook veel meer informatie kunnen verschaffen dan dat we vroeger, bijvoorbeeld in 2009, gewend waren. Geen losse informatie meer van allerlei apparaten die we zelf moesten analyseren en aan elkaar moesten knopen. Tegenwoordig heeft Cisco bijvoorbeeld NAE, Network Assurance Engine, bedacht. Natuurlijk zullen we in 2019 nog wel eens tegen een verstoring aanlopen. Daarom ontwerpen we onze datacenters betrouwbaar en hoog-redundant. Maar als, en zelfs proactief vóór, het dan tóch misgaat, hetzij door een menselijke, hetzij door een machinale fout, willen we alles weten wat ons netwerk ons kan vertellen. En daar gaat de software suite in de “Premier” licentie van Cisco ACI over.

Even kort over dat licentiemodel. Essentials is tegenwoordig de laagste ACI licentietrede, deze verzorgt basis ACI functionaliteit. Daarna krijgen we “Advantage”. Met advantage krijgen we Multi-site, VPN Fabric en physical remote leaf ondersteuning extra. De hoogste licentietrede is Premier. Deze geeft de advantage features plus NAE, NIR (Network Insights Resource Analysis) en de NAE policy explorer. NIR en de NAE  policy explorer behandelen we in een volgende blogpost.

NAE staat, zoals gezegd, voor “Network Assurance Engine” en helpt de beheerder (toekomstige) fouten en verstoringen sneller te ontdekken. NAE doet dit door slimme data uit het gehele ACI fabric te verzamelen en te analyseren zodat de beheerder sneller een conclusie kan trekken naar de oorzaak van een probleem, verstoring of onzorgvuldigheid, of om bijvoorbeeld de impact te bepalen van een nog te maken change. NAE vertelt de beheerder wat er gebeurt tijdens een verstoring of afwijking, door wie het is gebeurd, waarom het is gebeurd en hoe het probleem is op te lossen.

Probeert u dat eens te vergelijken met die situatie in 2009 waar we minuten, dan wel uren, kwijt waren om middels verschillende CLI commando’s en andere informatiebronnen informatie kregen over allerlei individuele apparaten. Nu verzamelt NAE informatie uit het gehele fabric, het gehele datacenter en geeft advies over hoe dit probleem op te lossen. Onderstaande figuur geeft een verstoring weer die als SMART wordt opgemaakt:

Een andere bijzonder handige functie van NAE is bijvoorbeeld de Epoch analyse. Epoch analyses geven uw organisatie de mogelijkheid om twee momenten van het ACI fabric naast elkaar te leggen. Zo kunt u terug in de tijd en de huidige status van het netwerk vergelijken met bijvoorbeeld 24 uur geleden. Wat is er in de tussentijd gebeurd? Zijn er interfaces bij gekomen? Zijn er “endpoints”(servers/hosts) bij gekomen? Wat is er met de “healthscore” van uw fabric gebeurd? En waarom? Onderstaande figuur geeft een deel van zo’n scherm weer. Zo te zien hadden we in dit geval 24 uur geleden 2 leaves en is daar recent 1 bij gekomen (met 5 extra endpoints tot gevolg).

Naast het sneller kunnen opsporen van fouten in het fabric kan NAE uw organisatie ook helpen met het voldoen aan de door u opgestelde datacenter compliance vereisten. De beheerder configureert een wijziging en NAE controleert continu of deze wel voldoet aan de geconfigureerde compliance vereisten. Zo bent u er zeker van dat geen enkele wijziging niet voldoet aan de regels. Een aantal van deze voorbeelden kunt u hieronder vinden. Als u nog niet bekend bent met ACI is het belangrijk om te weten dat ‘EPG’  voor EndPointGroup staat. Simpel gezegd is een endpointgroup een groep hosts/servers/vm’s/containers in uw datacenter.

Cisco ACI is “secure by nature”. Dat betekent dat EPG’s (of zelfs intra-EPG) in het datacenter niet met elkaar kunnen communiceren, tenzij de beheerder configureert dat dit wel mag. Dat betekent ook dat er veel mogelijkheden zijn om inzicht te krijgen in security (overtredingen) in het netwerk:

In dit scherm kan de beheerder security overtredingen bekijken en analyseren. Er volgen security waarschuwingen op basis van severity, van critical tot minor. NAE is gebaseerd op basis van snapshots, oftewel momentopnames. Voor real-time securityinformatie van het fabric en de hosts heeft Cisco Tetration in het portfolio, een (veel) duurder en complexer alternatief op het vlak van security. Echter, de informatie die NAE kan verschaffen kan de beheerder veel inzicht geven in waarom een bepaalde host langere tijd probeert te communiceren op netwerkpoorten waar dat niet het geval hoort te zijn volgens de security policy die op uw organisatie van toepassing is.

Samenvattend biedt NAE het extra stukje meerwaarde van alle informatie die we in ACI al verzamelen. We kunnen sneller schakelen bij verstoringen, we houden de configuratie overzichtelijk en begrijpelijk en we geven beheerders een “single pane of glass” van alle informatie dat het ACI fabric ons verschaft. Komend van een traditioneel netwerk is Cisco ACI een slimme stap voorwaarts, maar is NAE nog een stap verder en zullen we tijdens het gebruik van NAE ons niet meer kunnen voorstellen dat we zo lang zo weinig wisten van ons traditionele netwerk.