JetBrains Explores The Building Of ‘Big Data’ Pipelines For Customers

26 May 2021

Developing pipelines for Big Data can be complex but is the only way to give customers access to the data the way they prefer, maintains developer tools company JetBrains in its Big Data World blog series.

“Pipelines are generally built with the help of orchestrators, which call other Extract, Transform, Load (ETL) tools, but sometimes the whole pipeline may be built with a single tool like Apache NiFi,” explains JetBrains’ Pasha Finkelshteyn, in the third post of the series.

The best way to accomplish the task of building a data pipeline is not always obvious, however, and in data engineering, the multiple sources, sinks or places to put data), complex transformations, and lots of data tend to promote complexity.

Customer organisations can have myriad data sources — including things like “dozens” of operational databases, clickstreams from their site coming through Apache Kafka, multiple reports, OLAP cubes, and A/B testing.

“Imagine, as well, having to store all the data in several ways, starting with raw data and ending with a layer of aggregated, cleaned, verified data suitable for building reports,” Finkelshteyn writes.

“All these processes need to be orchestrated by data engineers.”

Orchestrators and ETL tools can be understood as two different levels of pipeline. Orchestrators launch tools in the required order, performing retries if something goes wrong. ETL tools are the lower, more localised, level, typically using batched or streamed processing.

For example, Apache Spark is an ETL tool as well as a general-purpose distributed computations engine; it can move data from one place to another, such as from sources to sinks, transforming this data on the way, Finkelshteyn writes.

Part 2 of JetBrainsBig Data World blog explains the difference between data scientists, data engineers, and machine learning (ML) engineers.

Data engineers build pipelines from sources to destinations — they might be software engineers, database administrators (DBAs), or ops, Finkelshteyn says.

Data scientists usually apply statistics to understand data — sometimes writing production-grade supportable code as well as doing research. On the other hand, ML engineers are all about productising ML, he says.

“Code should be deployed, monitored, work reliably, and be available. Before code even starts working, data should be collected and prepared,” explains Finkelshteyn.

ML engineers should configure every ML application in a known and predictable way. Data should be versioned (and this is a huge difference from regular software engineering).”

JetBrains defines Big Data as data that won’t fit the node’s memory, that is characterised by high volume, variety and velocity, or is sufficient to make reliable business decisions, according to the first post in the blog series, which moves on to a discussion of typical consumers and key JetBrains Big Data projects such as DataGrip.

Click here for the JetBrains Big Data tools plugin.

( Photo by Joshua Sortino on Unsplash )

Wichtige Eckdaten:
  • Verfügbarkeit: Nutzer von E-Commerce und der Testversion haben sofortigen Zugriff. Nutzer ohne E-Commerce-Zugang müssen ihren Administrator darum bitten, die Funktionen der generativen KI über die Admin-App zu aktivieren.
  • Genauigkeit: Da es sich um eine Beta-Funktion handelt, können die Antworten vereinzelt Ungenauigkeiten oder Inkonsistenzen aufweisen. Durch kontinuierliche Updates wird jedoch eine stetige Verbesserung der Zuverlässigkeit angestrebt.
  • Datenschutz und Sicherheit: Dokumenteninhalte werden während der Verarbeitung temporär gespeichert und nach Abschluss der Aufgabe umgehend gelöscht. Nutzerdaten werden nicht zur Schulung von KI-Modellen verwendet.
  • Beta-Status: Der Dokumentenassistent befindet sich derzeit in der Beta-Phase. Obwohl die Funktion vollständig einsatzfähig ist, wird sie fortlaufend weiterentwickelt. Das Feedback der Nutzer spielt eine entscheidende Rolle für die weitere Optimierung.

Zugang zum Nitro Dokumentenassistenten

Der Einstieg in den Nitro Dokumentenassistenten ist unkompliziert. Das Tool unterstützt PDF-Dateien mit einer maximalen Größe von 25 MB. Folgen Sie diesen Schritten:

  • Öffnen Sie Nitro Workspace und navigieren Sie zum Bereich „Tools“.
  • Klicken Sie auf das Symbol „Dokumentenassistent“.
  • Laden Sie das Dokument hoch, indem Sie eine Datei auswählen oder die Drag-and-Drop-Funktion nutzen.

So meistern Sie den Nitro Dokumentenassistenten

Nach dem Hochladen eines Dokuments erstellt der Nitro Dokumentenassistent eine Zusammenfassung und schlägt erste Fragen für die Interaktion vor.
Für maßgeschneiderte Anfragen wird den Nutzern empfohlen, ihre Eingaben klar, präzise und spezifisch zu formulieren. Hier einige Beispiele für mögliche Anfragen:

  • Fasse dieses Dokument für mich zusammen.
  • Fasse es stichpunktartig zusammen.
  • Fasse dieses Dokument für mich auf Spanisch zusammen.
  • Liste die externen Quellen auf, die in diesem Dokument genannt werden.
  • Finde Inhalte zu den Zahlungsbedingungen in diesem Vertrag.
  • Erkläre mir die wichtigsten Punkte [dieses Vertrags] in einfacher Sprache.
  • Schreibe dieses [Benutzerhandbuch] als FAQ um.
  • [In diesem französischen Mietwagenvertrag] Kann ich eine Debitkarte verwenden, um ein Auto zu mieten? Antworte bitte auf Englisch.

Wichtige Hinweise zu Sicherheit und Datenschutz für Ihre Kunden

Nitro legt großen Wert auf Sicherheit und Datenschutz. Dokumente werden während der Verarbeitung nur vorübergehend gespeichert und nach Abschluss des Vorgangs sofort gelöscht. Zudem stellt Nitro sicher, dass Kundendokumente niemals zur Schulung von KI-Modellen verwendet werden. Diese Maßnahmen schützen sensible Informationen und geben Ihren Kunden ein beruhigendes Gefühl.
So verbessern Sie den Nitro Dokumentenassistenten
Nitro schätzt das Feedback der Nutzer zur kontinuierlichen Verbesserung des Dokumentenassistenten. Nach jeder Interaktion werden die Nutzer gefragt: „War dies hilfreich?“ Sie können mit „Daumen hoch“ oder „Daumen runter“ antworten.
Für detaillierteres Feedback können die Nutzer die Feedback-Seite des Nitro Knowledge Assistant besuchen, um zur Weiterentwicklung des Tools beizutragen.

Ermöglichen Sie Ihren Kunden Erfolg mit Nitro, unterstützt durch KI

Der Nitro Dokumentenassistent ist ein wertvolles Tool, um Ihren Kunden zu helfen, ihre Dokumentenabläufe zu optimieren. Ob sie Nitro zum ersten Mal ausprobieren oder von einem anderen PDF-Anbieter wechseln, diese KI-gestützte Funktion zeigt Nitro’s Engagement für Innovation.

Wenn Sie Fragen zu Nitro-Lizenzen oder erfolgreichen Verkaufsstrategien für Nitro-Lösungen haben, wenden Sie sich an das Team von QBS. Wir unterstützen Sie gerne auf Ihrem Weg zum Erfolg mit Nitro!