Skip to content

Harvesting of Helmholtz Imaging Catalogue

Aufgabe

Erstelle automatisch Softwareeinträge aus Helmholtz Imaging Solutions im RSD. Maintainer in Helmholtz Imaging können mit einem Attribut bestimmen, welche Software in das RSD übertragen werden soll. Diese erscheint dann in dem unten aufgeführten API call.

Kontakt

API

die API ist jetzt online und (mit einem leicht geänderten URL-Schema) hier zu erreichen:

Noch benötigte Attribute

  • last updated at
  • organisations, incl. ROR ID

Anforderungen Helmholtz RSD

  • Erstellen
    • Community: Helmholtz Imaging
    • Category community: Helmholtz Imaging Solutions
  • Software kommt in obige Community & Category

Anforderungen scraper

  • Scraper wird nicht upstream integriert, d.h. nur im Helmholtz RSD
    • evaluieren: eigener Container in diesem Repo, oder eigenes Repository und dann docker image in deployment repository integrieren?
    • muss nicht in Java geschrieben sein
  • Metadaten mapping zwischen Solutions und RSD festlegen
    • einige Metadaten können nicht 1:1 gemappt werden, dafür müssen alternativen gefunden werden (siehe image_owner unten)
    • html_description sollte falls möglich in Markdown geparsed werden
  • scraper speichert timestamp des letzten Durchlaufs und ruft beim nächsten Durchlauf nur Einträge auf die seither geändert wurden (last_changed)
  • Softwareeintrag im RSD bekommt keinen Maintainer, der Eintrag wird im Helmholtz Imaging Katalog gepflegt
  • wenn die Software im RSD einen Maintainer hat, dann aus der Community entfernen und nicht mehr aktualisieren => Edit (8.4.25): Eintrag nicht aus Community entfernen, aber nicht mehr aktualisieren
  • Wenn eine Software nicht mehr in durch die API ausgeliefert wird (oder als gelöscht markiert wird) soll diese aus dem RSD entfernt werden, es sei denn die Software im RSD hat jetzt einen Maintainer
  • logs des harvesters sind auch im RSD admin frontend zu finden

Fehlende Features auf Helmholtz Imaging Seite

  • Software die nicht mehr im RSD dargestellt werden soll wird nicht in der API repräsentiert
  • Wenn der RSD-Sync eingestellt wird, sollte es einen Hinweis geben, dass das automatische Sammeln von Daten über die Software nur funktioniert, wenn "source-repository" ein Link zu einem Repo ist (und z.B. nicht zu einem GitHub-User)

Offene Fragen

  • Wie häufig wird die Liste am HIS Endpunkt aktualisiert?

Beispiel

 {
            "class_name": "Solution",
            "id": 4,
            "name": "Batchgenerators",
            "short_name": "",
            "description": "Data Augmentation is quintessential for training modern AI-based image analysis methods. Through careful modification of the available training data, the training distribution is extended and/or covered in more detail, reducing the potential for overfitting. Batchgenerators is deep-learning framework agnostic and can be integrated into your PyTorch and Tensorflow workloads and more.\r\nBatchgenerators sets itself apart from other data augmentation solutions through its native support of both 2D and 3D images and its support for images from many different domains (not just uint8 RGB images...). It can be applied to segmentation, classification, and other tasks. Bounding boxes are unfortunately not supported.",
            "html_description": "<p>Data Augmentation is quintessential for training modern AI-based image analysis methods. Through careful modification of the available training data, the training distribution is extended and/or covered in more detail, reducing the potential for overfitting. Batchgenerators is deep-learning framework agnostic and can be integrated into your PyTorch and Tensorflow workloads and more.\nBatchgenerators sets itself apart from other data augmentation solutions through its native support of both 2D and 3D images and its support for images from many different domains (not just uint8 RGB images...). It can be applied to segmentation, classification, and other tasks. Bounding boxes are unfortunately not supported.</p>",
            "connect_link": "/solution/4",
            "data_type": "SW",
            "authors": "Fabian Isensee, Jakob Wasserthal, Paul Jaeger, David Zimmerer, Jens Petersen, Simon Kohl, et al.",
            "image": "http://connect.helmholtz-imaging.de/media/Screenshot_from_2022-11-24_13-10-12.png",
            "image_caption": "Batchgenerators is a framework for data augmentation. It works with all deep learning frameworks, supports 2D and 3D images and is well suited for image segmentation, classification and more!",
            "image_owner": "Fabian Isensee",
            "source_repository": "https://github.com/MIC-DKFZ/batchgenerators",
            "license": "Apache License 2.0",
            "tags": "data augmentation, deep learning, image classification, image segmentation, 2D, 3D",
            "version": "",* wenn die Software im RSD einen Maintainer hat, dann aus der Community entfernen

            "resources": [],
            "institutes": [
                {
                    "name": "Deutsches Krebsforschungszentrum",
                    "short_name": "DKFZ",
                    "ror": "04cdgtt98",
                    "connect_link": "/institute/17"
                }
            ],
            "last_changed": "2024-11-07T12:57:13.199006+01:00"
        },
  • image_owner hat keine Repräsentation im RSD => Information an das Ende der Markdown-Description packen
Edited by Paula Stock