Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Envio de pacotes de atualização causa perda de renditions #63

Open
rafaelpezzuto opened this issue Oct 26, 2021 · 0 comments
Open

Envio de pacotes de atualização causa perda de renditions #63

rafaelpezzuto opened this issue Oct 26, 2021 · 0 comments
Labels
bug Something isn't working

Comments

@rafaelpezzuto
Copy link
Contributor

rafaelpezzuto commented Oct 26, 2021

Descrição

Em casos específicos há perda de renditions durante o envio de pacote de atualização.
Parece que o problema está relacionado ao método responsável por agrupar dados de pacotes em subpacotes individuais (que usa o nome do arquivo xml como norteador do agrupamento), disponível em packages._group_files_by_xml_filename. Mais especificamente, a linha responsável por decidir qual é o nome base de um pacote individual está em packages._group_files_by_xml_filename.

O caso mais fácil de identificar é descrito a seguir.

Há situações em que o ISSN do diretório no MinIO é diferente do ISSN que consta no nome do arquivo. Nesses casos, o método responsável por agrupar assets, renditions e xml em pacotes individuais falha (porque ele considera um prefixo em comum nos nomes).

Um exemplo é o documento de PID bqcttQgnPPdgD7CMNQDn5FB. A seguir é apresentado o conteúdo que há na base kernel relacionado a esse documento (os dados foram obtidos de kernel.scielo.br/documents/bqcttQgnPPdgD7CMNQDn5FB/manifest). Observe que os campos filename possuem um ISSN diferente daquele que consta no diretório MinIO.

{
    "id": "bqcttQgnPPdgD7CMNQDn5FB",
    "versions": [
        {
            "data": "https://minio.scielo.br/documentstore/1983-4632/bqcttQgnPPdgD7CMNQDn5FB/fedccfce09699144b9c7a98d1fe116116da431ee.xml",
            "assets": {},
            "timestamp": "2020-08-10T15:44:49.181651Z",
            "renditions": [
                {
                    "filename": "1519-0501-pboci-20-e5679.pdf",
                    "data": [
                        {
                            "timestamp": "2020-08-10T15:44:52.396090Z",
                            "url": "https://minio.scielo.br/documentstore/1983-4632/bqcttQgnPPdgD7CMNQDn5FB/62753d1cb880e2c0efc80d21574169c879b46a15.pdf",
                            "size_bytes": 222827
                        }
                    ],
                    "mimetype": "application/pdf",
                    "lang": "en"
                }
            ]
        },
        {
            "data": "https://minio.scielo.br/documentstore/1983-4632/bqcttQgnPPdgD7CMNQDn5FB/c929fc832ece74d43a4aeb600136653b11975d2b.xml",
            "assets": {},
            "timestamp": "2020-08-10T15:46:26.886440Z",
            "renditions": [
                {
                    "filename": "1519-0501-pboci-20-e5679.pdf",
                    "data": [
                        {
                            "timestamp": "2020-08-10T15:46:29.307031Z",
                            "url": "https://minio.scielo.br/documentstore/1983-4632/bqcttQgnPPdgD7CMNQDn5FB/bde94526106c1846407aa1c70783fe2aed5fae82.pdf",
                            "size_bytes": 222601
                        }
                    ],
                    "mimetype": "application/pdf",
                    "lang": "en"
                }
            ]
        }
    ],
    "_id": "bqcttQgnPPdgD7CMNQDn5FB"
}

Outro exemplo é a situação em que o nome do arquivo PDF não possui um prefixo que coincide com o prefixo esperado, tal como apresentado na imagem a seguir (para o documento x9sVMQQb4WjfDw8jFQyQ4Wf, http://0.0.0.0:6543/documents/x9sVMQQb4WjfDw8jFQyQ4Wf/manifest):
image

Como replicar o problema

Basta fazer o envio de um pacote usando o dsm.ingress. É interessante enviar um pacote que representa o exemplo deste ISSUE (mas devem haver outros docs com o mesmo padrão).

Screnshots

Screenshot from 2021-10-26 17-23-05

@rafaelpezzuto rafaelpezzuto added the bug Something isn't working label Oct 26, 2021
@rafaelpezzuto rafaelpezzuto changed the title Envio de pacotes de atualização causa perda de renditions quando ISSN não é igual Envio de pacotes de atualização causa perda de renditions Oct 26, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

1 participant